Sunteți pe pagina 1din 592

CÁLCULO DE PROBABILIDADES

EUGENIO SAAVEDRA GALLARDO

CÁLCULO DE PROBABILIDADES
© Editorial Universidad de Santiago de Chile
Av. Libertador Bernardo O`Higgins #2229
Santiago de Chile
Tel.: 56-2-7180080
www.editorial.usach.cl
editor@usach.cl

© Eugenio Saavedra Gallardo

Inscripción Nº: 136.819


I.S.B.N.: 978-956-7069-86-6

Portada y diseño: Patricio Andrade


Diagramación: Andrea Meza Vergara

Versión actualizada, octubre de 2012

Impreso en Ril Editores

Proyecto financiado por el Fondo Nacional de Fomento del Libro y la Lectura.

Ninguna parte de esta publicación puede ser reproducida, almacenada o transmitida en manera alguna ni
por ningún medio, ya sea eléctrico, químico o mecánico, óptico, de grabación o de fotocopia, sin permiso
previo de la editorial.

Impreso en Chile
A mi hijo Carlo Antonio
PRÓLOGO

Este material ha sido elaborado como apoyo, para la enseñanza de los contenidos de
Probabilidades, insertos en los programas de las carreras de Ingenierı́a y Ciencias de las
universidades chilenas.
En él se entregan los elementos básicos del Cálculo de Probabilidades, teniendo como
requisito para su lectura los conocimientos de cálculo en varias variables y álgebra lineal.
La lı́nea del texto busca, a partir de ejemplos sencillos, introducir el(los) concepto(s)
que se pretende enseñar, luego formalizar, y posteriormente mostrar una variedad de
ilustrativos ejemplos. En particular, se pretende que los estudiantes, en lugar de aprender
un conjunto de fórmulas (lo que es habitual en la enseñanza de Probabilidad y Estadı́stica)
perciban profundamente el significado de éstas, pues es común que las fórmulas sean
olvidadas rápidamente, por lo que la comprensión de los conceptos es realmente lo que
importa.
El texto consta de dos capı́tulos. El primero se subdivide en 5 secciones y está dedicado
a los Espacios de Probabilidad, mientras el segundo se subdivide en 9 secciones que recorren
los elementos básicos relacionados con variables aleatorias. Las soluciones, in extenso, a
los problemas planteados en las diferentes secciones del libro, se encuentran al final de
éste.

Santiago de Chile, Septiembre de 2003


Eugenio Saavedra G

Prólogo a la Segunda Edición

Esta edición difiere de la primera sólo en la corrección de algunos errores tipográficos y de


redacción, la inclusión de una demostración en la sección 2.7 y por la inclusión de nuevos
problemas en las secciones 1.4, 2.2, 2.3, 2.5, 2.6, 2.8, 2.9.

Santiago de Chile, Enero de 2012


Eugenio Saavedra G.

ix
ÍNDICE

1 ESPACIOS DE PROBABILIDAD 1
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Modelo de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4 Modelo General de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . 56
1.5 Teorema de Probabilidades Totales y de Bayes . . . . . . . . . . . . . . 72

2 VARIABLES ALEATORIAS 111


2.1 Variables Aleatorias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . 111
2.1.1 Esperanza (o media) de una variable aleatoria discreta . . . . . . . . 120
2.1.2 Algunos modelos probabilı́sticos para variables aleatorias discretas . 123
2.2 Variables Aleatorias Continuas . . . . . . . . . . . . . . . . . . . . . . . . 143
2.2.1 Algunas funciones de densidad que aparecen en la práctica . . . . . 157
2.2.2 Transformación de variables aleatorias . . . . . . . . . . . . . . . . . 180
2.2.3 Esperanza de una variable aleatoria continua . . . . . . . . . . . . . 188
2.3 Desigualdades para la Esperanza Matemática . . . . . . . . . . . . . . . 210
2.4 Vectores Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
2.4.1 Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . 236
2.4.2 Independencia de variables aleatorias . . . . . . . . . . . . . . . . . . 245
2.5 Distribución de Vectores Aleatorios . . . . . . . . . . . . . . . . . . . . . 256
2.5.1 Suma de variables (caso discreto) . . . . . . . . . . . . . . . . . . . . 256
2.5.2 Suma de variables (caso continuo) . . . . . . . . . . . . . . . . . . . 258
2.5.3 Distribución del cuociente . . . . . . . . . . . . . . . . . . . . . . . . 261
2.6 Esperanza de Funciones de Vectores Aleatorios . . . . . . . . . . . . . . 281
2.6.1 Covarianza y correlación . . . . . . . . . . . . . . . . . . . . . . . . . 290
2.6.2 Función generadora de momentos . . . . . . . . . . . . . . . . . . . . 302
2.6.3 Función generadora de momentos multivariada . . . . . . . . . . . . 310
2.7 Aproximación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
2.8 Dependencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
2.8.1 Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
2.8.2 Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
2.8.3 Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . . . . 347
2.8.4 Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
2.9 Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382
2.9.1 Tipos de convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . 382
2.9.2 Ley de los grandes números . . . . . . . . . . . . . . . . . . . . . . . 388
2.9.3 Criterios para estudiar convergencia en distribución . . . . . . . . . 391

SOLUCIONES A PROBLEMAS PROPUESTOS 405

Bibliografı́a 571

Índice de Materias 573


CAPÍTULO 1
ESPACIOS DE PROBABILIDAD

1.1 Introducción

La conceptualización matemática del azar comienza por la noción de experiencia aleato-


ria (o experimento aleatorio). Lo concreto siempre está en relación multiforme con su
medio. Un cuerpo en movimiento no es sólo un punto sobre el cual se ha ejercido una
fuerza para sacarlo del reposo. En la Mecánica Clásica esto se analiza ası́, pero no es más
que una abstracción. En realidad, en el estudio de un cuerpo en movimiento intervienen
muchos otros factores: su forma, el medio en el cual se mueve, la forma en que se aplica la
fuerza, etc., la enumeración es indefinida. Es sólo en sistemas completamente aislados y
relativamente muy simples en los que se podrı́a seguir y verificar las relaciones “lineales”
de causa y efecto del determinismo clásico. Pero el objeto aislado es una idealización. Las
cadenas de causa y efecto se entrecruzan y la interacción mutua crea nuevos efectos. Ası́,
posibilidades nuevas se crean y surgen nuevas realidades.
Es ası́ como el llamado Principio de Causalidad del determinismo clásico ha evolu-
cionado gracias al descubrimiento de nuevas propiedades de la materia y nos ha conducido
al reemplazo de los viejos conceptos de “causa” y “efecto” por las categorı́as de inter-
dependencia y de interacción mutua. La interdependencia y la conexión universal en
la naturaleza se realizan gracias a formas de interacción concretas. Ası́ por ejemplo, la
Fı́sica introduce las interacciones fuertes, electromagnéticas, débiles, gravitacionales; ellas
aparecen cada vez más como propiedades inherentes a la materia y ligadas orgánicamente
a su movimiento: una carga eléctrica sufre la influencia de un campo electromagnético,
pero, a su vez, ella reacciona sobre este campo y lo modifica. Causa y efecto, efecto que se
transforma en causa, “lı́neas” causales que se entrecruzan y se determinan mutuamente,
conexión universal de las formas de la materia, es la imagen que la Fı́sica descubre en forma
cada vez más concreta, a medida que ella penetra en las profundidades de la materia.
El azar entonces, no hace más que expresar la determinación múltiple de cada estado
que se realiza en la naturaleza.

1
1.1 Introducción

Y una experiencia aleatoria no es más que una forma particular, concreta, de inter-
acción. En el proceso del conocimiento, corresponde a la acción (muy a menudo voluntaria)
del sujeto sobre el objeto en estudio (por ejemplo, para conocer la temperatura del agua
del baño, introducimos la mano en ella). Tiene, por lo tanto, múltiples resultados posibles.
Esta es la clave para formular los modelo matemáticos del azar que veremos en este
capı́tulo. Describimos cada experiencia aleatoria por el conjunto de todos sus resultados
posibles. Tradicionalmente se denota por Ω a dicho conjunto y un punto cualquiera de él,
vale decir, un resultado cualquiera de la experiencia en estudio, se acostumbra a escribir
por ω.
Observemos que hemos reducido la consideración de todas las experiencias aleatorias
a un modelo matemático único: cada experiencia no es más que la elección de un
elemento ω de un conjunto Ω dado. En lo que sigue del texto nos referiremos a este
espacio Ω, con el nombre de espacio muestral.
También, un suceso ligado a una experiencia aleatoria se produce o no según el resul-
tado de dicha experiencia y puede ser representado como un subconjunto del espacio Ω.
En adelante, un suceso o evento corresponderá a “cualquier” subconjunto de Ω, esto es,
un suceso será “cualquier” subconjunto del espacio muestral.

Consideremos, a tı́tulo de ejemplo, algunas experiencias aleatorias simples:

(1) Lanzamiento de dos dados;

(2) Observación del genotipo del descendiente de dos padres de genotipos Aa y aA


(hı́bridos), sabiendo que el genotipo del descendiente se obtiene por “elección” aleato-
ria de un gene (letra A a) de cada padre;

(3) Una mano de bridge, vale decir, la repartición al azar entre cuatro jugadores de un
paquete de 52 cartas ordenadas aleatoriamente;

(4) Precio del cobre en la Bolsa de Metales de Londres al cierre de hoy;

(5) Número de habitantes que tendrá Chile en el año 2090.

A modo de ejemplo, en el caso (1), los resultados posibles de la experiencia considerada


son exactamente los pares ordenados (m, n) de enteros comprendidos entre 1 y 6; el espacio
Ω formado por estos 36 pares ordenados describe esta experiencia. Hemos supuesto que
los dos dados podrı́an ser distinguidos y que, por lo tanto, los resultados (5, 4) y (4, 5)
son diferentes. Por el contrario, en el ejemplo (2) de Genética, los genotipos Aa y aA son
indistinguibles y el espacio Ω de los resultados posibles de dicha experiencia se reduce a
3 puntos, a saber, AA, Aa y aa. También, un suceso aleatorio ligado a la experiencia
(1) serı́a, por ejemplo, “la suma de los puntos obtenidos lanzando dos dados es mayor
que 9”; él se produce si y sólo si el resultado (m, n) de esta experiencia verifica que
m + n > 9. Es entonces natural describir matemáticamente tal suceso por el subconjunto
del espacio Ω formado por todos los resultados de la experiencia (puntos de Ω) que realizan
el suceso. Ası́, el suceso precedente queda descrito por el subconjunto A de Ω, con A =
{(4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6)}.

-2-
1.1 Introducción

Una vez descrita una experiencia aleatoria por medio de su espacio muestral Ω, ¿cómo
podrı́amos “medir” un suceso ligado a esta experiencia aleatoria?, es decir, si A es sub-
conjunto de Ω, ¿cómo podrı́amos asignarle un número real positivo al conjunto A?
Primeramente, el concepto de “medida” que usaremos será el de probabilidad, referido
a un modelo para la proporción de ocurrencias (o frecuencia relativa) de un resultado,
en una larga serie de repeticiones de un experimento aleatorio. Por ejemplo, consideremos
el experimento consistente en arrojar una moneda una gran cantidad de veces y registremos
la proporción de veces que salió “cara”. Observamos que de una realización a otra los
valores registrados no suelen cambiar mucho. Los datos que mostramos a continuación
representan la proporción de “caras” en 10 repeticiones del experimento consistente en
arrojar la moneda 10000 veces,

0.4964 0.5018 0.4997 0.5070 0.4958 0.5012 0.4959 0.5094 0.5018 0.5048

(los tiros de la moneda han sido “simulados” en un computador haciendo innecesario el


trabajo de arrojarla 10000 veces).
Pero, ¿cuándo una serie es lo “bastante larga”? Una posible respuesta serı́a que es lo
bastante larga cuando las frecuencias relativas varı́an poco al realizar nuevas repeticiones.
¿Y cuándo se puede decir que varı́an “poco”? Podrı́amos decir que varı́an poco usando la
definición matemática de lı́mite de sucesiones.
Este planteo será el que utilizaremos para mostrar el Modelo de Probabilidades de
Laplace en la Sección 2 y el Modelo de Probabilidades Binomial en la Sección 3.
¿Y que hacer cuándo no es posible repetir el experimento aleatorio ? Por ejemplo, si
el experimento consiste en contar el número de accidentes de tránsito con consecuencias
fatales que ocurrirán el próximo semestre en Chile.
El concepto de “medida” de probabilidad general (Modelo de Kolmogorov) fue de-
sarrollado en 1933 por el matemático ruso A. Kolmogorov, quien definió la probabilidad
mediante un sistema de axiomas. La idea con la que él partió, la cual es común en el en-
foque axiomático de la Matemática, fue: si siempre se pudiera definir la probabilidad como
lı́mite de frecuencias relativas, ¿qué propiedades tendrı́a que cumplir? Estas propiedades
las mostraremos tanto para el Modelo de Laplace como para el Modelo Binomial, y son la
inspiración de los axiomas que se postulan en la Sección 4 para una “medida” de probabili-
dad general. La llamada “Ley de los Grandes Números” permite mostrar que la definición
general de probabilidad, a través de axiomas, es coherente con la noción de probabilidad
inspirada en la frecuencia relativa.
Finalmente, en la Sección 5 mostramos, para una medida de probabilidad general,
algunas propiedades que son de gran utilidad a la hora en que se desea encontrar, en
forma explı́cita, la medida de probabilidad de algún suceso especı́fico.

-3-
1.2. MODELO DE LAPLACE

1.2 Modelo de Laplace

En esta sección estudiaremos una serie de experimentos aleatorios relativamente simples,


de manera de descubrir alguna ley que los rija.

Experimento 1: Se lanza una moneda “normal” y se observa si sale cara o sello. Hemos
realizado una “tirada” cuando lanzamos una vez la moneda. Los resultados posibles de
una tirada son: sello (0), cara (1). Realizamos 15 tiradas de la moneda, y obtuvimos la
secuencia

1 1 0 1 0 0 1 1 1 0 1 1 0 0 1.

Entonces, en las 15 tiradas, salieron 6 sellos y 9 caras.


Realizamos, nuevamente, 15 tiradas de la moneda y obtuvimos la secuencia

0 0 1 0 0 1 0 0 0 0 1 1 0 1 0,

o sea, en este caso salieron 10 sellos y 5 caras.


Realiza 15 tiradas de una moneda normal, ¿cuántos sellos obtuviste?, ¿cuántas caras?
Compara tus resultados con los de alguna otra persona.
Posiblemente el número de caras (y por consecuencia el de sellos) resulte diferente de
los conseguidos por nosotros anteriormente.
Podrı́amos decir entonces, que el número de caras que obtenemos al lanzar la moneda
15 veces depende del azar.
¿Existirá algún patrón o tendencia que siga la proporción de las caras, o de los sellos,
después de lanzar la moneda 15 veces, 35 veces, 100 veces, o un “gran número” de veces?
Esta proporción (que dependerá del azar) es la que se modela matemáticamente. Por
esta razón, realizaremos “muchas” tiradas de la moneda. Como lanzar, por ejemplo,
300 veces la moneda, es un poco lento y engorroso, los lanzamientos se simulan en el
computador.
Las tablas siguientes muestran los resultados obtenidos en diferentes simulaciones.
Columna uno: Indica el número de veces que se tira la moneda.
Columna dos: Indica el número de sellos que se obtuvieron al tirar la moneda la cantidad
de veces que indica la columna uno.
Columna tres: Indica el número de caras que se obtuvieron al tirar la moneda la cantidad
de veces que indica la columna uno.
Columna cuatro: Indica la columna dos dividida por la columna uno (a esta proporción
la llamaremos frecuencia relativa del sello y la anotaremos por f0 ).
Columna cinco: Indica la columna tres dividida por la columna uno (a esta proporción la
llamaremos frecuencia relativa de la cara, y la anotaremos por f1 ).

-4-
1.2 Modelo de Laplace

N◦ de veces N◦ de veces N◦ de veces Frecuencia Relativa Frecuencia Relativa


que se lanza que ocurre que ocurre del sello de la cara
la moneda sello cara (f0 ) (f1 )
1 0 1 0.0000 1.0000
2 1 1 0.5000 0.5000
3 1 2 0.3333 0.6667
4 3 1 0.7500 0.2500
5 3 2 0.6000 0.4000
6 6 0 1.0000 0.0000
7 3 4 0.4286 0.5714
8 6 2 0.7500 0.2500
9 7 2 0.7778 0.2222
10 6 4 0.6000 0.4000

Tabla 1.2.1

Frecuencia
Relativa
de los sellos
f0
1.0

0.8

0.6

0.4

0.2

0.0
1 2 3 4 5 6 7 8 9 10 Número
de tiradas

Figura 1.2.1: Frecuencia relativa de los sellos obtenidos según la Tabla 1.2.1

La tabla siguiente muestra las frecuencias relativas (tanto para la cara como para el
sello) obtenidas al lanzar una moneda el número de veces que indica la primera columna.

-5-
1.2 Modelo de Laplace

N◦ de veces N◦ de veces N◦ de veces Frecuencia relativa Frecuencia relativa


que se lanza que ocurre que ocurre del sello de la cara
la moneda sello cara f0 f1
10 5 5 0.5000 0.5000
20 12 8 0.6000 0.4000
30 11 19 0.3667 0.6333
40 18 22 0.4500 0.5500
50 27 23 0.5400 0.4600
60 31 29 0.5167 0.4833
70 31 39 0.4429 0.5571
80 36 44 0.4500 0.5500
90 43 47 0.4778 0.5222
100 40 60 0.4000 0.6000
150 67 83 0.4467 0.5533
200 111 89 0.5550 0.4450
250 136 114 0.5440 0.4560
300 147 153 0.4900 0.5100
350 165 185 0.4714 0.5286
400 205 195 0.5125 0.4875
450 237 213 0.5267 0.4733
500 251 249 0.5020 0.4980
550 255 295 0.4636 0.5364
600 325 275 0.5417 0.4583
650 315 335 0.4846 0.5154
700 359 341 0.5129 0.4871
750 367 383 0.4893 0.5107
800 409 391 0.5113 0.4888
850 408 442 0.4800 0.5200
900 446 454 0.4956 0.5044
950 492 458 0.5179 0.4821
1000 498 502 0.4980 0.5020

Tabla 1.2.2

f0

.
....
..... ...........................
... .... ........ .... ....... .............. ..........
0.5 . ... .. ... ....... .............. ........................... ............................ ......... .....................................................................................................................................................
.
... .. ... .... . ... ............ ...........
.
... .. .... ... ........... .
.
..... .............
.....

0 100 200 300 400 500 600 700 800 900 1000 N◦ de tiradas

Figura 1.2.2: Frecuencia relativa de los sellos según la Tabla 1.2.2

-6-
1.2 Modelo de Laplace

De lo anterior, podemos observar que mientras mayor es el número de tiradas que reali-
zamos, las frecuencias relativas varı́an “muy poco”, obteniéndose que f0 es “cercano” a 12
y que f1 es “cercano” a 12 .
Como dijimos anteriormente, los resultados posibles al lanzar una moneda son sello
(0) y cara (1), por lo que el espacio muestral resultante para este experimento es

Ω = {0, 1} y #Ω = 2 .

Como, por ejemplo, A = {0}, es subconjunto de Ω, entonces A es un suceso. En este caso,


el suceso A representa el hecho que en la moneda lanzada resultó sello.
Las Tablas 1.2.1 y 1.2.2 motivan la siguiente definición de probabilidad para el suceso
A = {0}, que anotamos P (A),
#A
P (A) = 0.5 = .
#Ω
De igual forma, si B es el suceso salió cara al lanzar la moneda, es decir, B = {1},
entonces, se define
#B
P (B) = 0.5 = .
#Ω
Es común referirse al número de elementos de A (o de B) como número de casos favorables.
Al número de elementos de Ω se le conoce como número de casos totales o posibles.

Experimento 2: Se lanza un dado “común” y se observa su cara superior. Al igual


que en el Experimento 1, diremos que hemos realizado una tirada cuando lanzamos una
vez el dado. Los resultados posibles de una tirada son: 1, 2, 3, 4, 5, 6. Realizamos 20
tiradas del dado y obtuvimos los siguientes resultados:

en 5 ocasiones salió uno,

en 1 ocasión salió dos,

en 2 ocasiones salió tres,

en 3 ocasiones salió cuatro,

en 4 ocasiones salió cinco,

en 5 ocasiones salió seis.

Realizamos nuevamente, 20 tiradas del dado, obteniéndose que

en 3 ocasiones salió uno,

en 2 ocasión salió dos,

en 6 ocasiones salió tres,

en 5 ocasiones salió cuatro,

en 4 ocasiones salió cinco,

en 0 ocasiones salió seis.

-7-
1.2 Modelo de Laplace

Realiza 20 tiradas de un dado común, ¿en cuántas ocasiones te salió 1, 2, 3, 4, 5 ó


6? Compara los resultados con otras personas y con los obtenidos por nosotros anteri-
ormente. Con seguridad, los resultados que tú obtengas o que obtengan otras personas
serán diferentes de los nuestros.
Podrı́amos decir, nuevamente, que el número de veces que obtenemos 1, 2, 3, 4, 5 y 6,
al lanzar un dado 20 veces, depende del azar.
¿Existirá algún patrón o tendencia que “siga” la proporción de 1, 2, 3, 4, 5 ó 6, después
de lanzar el dado 20 veces, 100 veces, o un gran número de veces?

La Tabla 1.2.3a, muestra los resultados obtenidos en diferentes simulaciones.

Columna uno: Indica el número de veces que se tira el dado.


Columna dos: Indica el número de veces que salió uno al tirar el dado la cantidad de veces
que indica la columna uno.
Columna tres: Indica el número de veces que salió dos al tirar el dado la cantidad de veces
que indica la columna uno.
Columna cuatro, cinco, seis y siete tienen análoga interpretación a la columna tres.

N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ de veces


que se lanza que sale que sale que sale que sale que sale que sale
el dado uno dos tres cuatro cinco seis
10 2 2 4 0 0 2
20 2 3 4 4 4 3
30 4 2 6 5 7 7
40 8 9 8 3 9 3
50 7 11 10 5 11 6
60 12 10 10 9 13 5
70 14 16 9 8 14 9
80 15 19 12 10 14 10
90 16 18 12 14 15 15
100 18 21 15 17 16 13
150 24 28 26 22 26 24
200 30 38 31 32 33 36
250 42 45 40 41 39 43

Tabla 1.2.3a

La primera columna de la Tabla siguiente, Tabla 1.2.3b, es la columna dos de la Tabla


1.2.3a dividida por la columna uno de la Tabla 1.2.3a, la llamamos frecuencia relativa del
uno, y se anota f1 . Análogas interpretaciones tienen el resto de las columnas de la Tabla
1.2.3b.

-8-
1.2 Modelo de Laplace

Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia


relativa del relativa del relativa del relativa del relativa del relativa del
uno (f1 ) dos (f2 ) tres (f3 ) cuatro (f4 ) cinco (f5 ) seis (f6 )
0.2000 0.2000 0.4000 0.0000 0.0000 0.2000
0.1000 0.1500 0.2000 0.2000 0.2000 0.1500
0.1333 0.0667 0.2000 0.1667 0.2333 0.2333
0.2000 0.2250 0.2000 0.0750 0.2250 0.0750
0.1400 0.2200 0.2000 0.1000 0.2200 0.1200
0.2000 0.1667 0.1667 0.1500 0.2167 0.0833
0.2000 0.2286 0.1286 0.1143 0.2000 0.1286
0.1875 0.2375 0.1500 0.1250 0.1750 0.1250
0.1778 0.2000 0.1333 0.1556 0.1667 0.1667
0.1800 0.2100 0.1500 0.1700 0.1600 0.1300
0.1600 0.1867 0.1733 0.1467 0.1733 0.1600
0.1500 0.1900 0.1550 0.1600 0.1650 0.1800
0.1680 0.1800 0.1600 0.1640 0.1560 0.1720

Tabla 1.2.3b

Nuevamente, podemos observar que mientras mayor es el número de tiradas que rea-
lizamos, las frecuencias relativas varı́an “muy poco”, obteniéndose que fi es cercano a 16 ,
para i ∈ {1, 2, 3, 4, 5, 6}.

f1

0.5

..... ........ ..............................................................................................................................


.. .... ..... .................. ..............................................................................................................................................................................
.. ....... .............
... ...........
..
..
..
...
0 25 50 75 100 125 150 175 200 225 250 N◦ de tiradas

Figura 1.2.3: Frecuencia relativa de los unos obtenidos según la Tabla 1.2.3b

-9-
1.2 Modelo de Laplace

f6

0.5

.....
.. .... ...
.. ...... .... ..... ............................................................................................................................................
... ......... ...
..
...... ..............................................................................................................
...
. ... ............... ...........................
. .......... ............
..
..
...

0 25 50 75 100 125 150 175 200 225 250 N◦ de tiradas

Figura 1.2.4: Frecuencia relativa de los seis obtenidos según la Tabla 1.2.3b

En este experimento, el espacio muestral resultante es

Ω = {1, 2, 3, 4, 5, 6} y #Ω = 6.

Si Ai = {i}, para i ∈ {1, 2, 3, 4, 5, 6}, entonces Ai representa el suceso salió el número i al


lanzar el dado.
La tabla anterior motiva la siguiente definición de probabilidad para el suceso Ai , que
anotamos P (Ai ),
1
P (Ai ) = .
6
Desde la tabla anterior, también podemos observar que la cantidad de veces que sale
número par, es aproximadamente la mitad de las veces que se tira el dado, lo que motiva
la siguiente definición de probabilidad para el suceso A = {2, 4, 6}, que representa el hecho
que sale par al lanzar el dado

P (A) = P ({2}) + P ({4}) + P ({6})

1 1 1
= + +
6 6 6
1
=
2
#A
= .
#Ω
Más aún, se puede verificar, a partir de la tabla anterior, que si A es un suceso
cualquiera, esto es, cualquier subconjunto de Ω, entonces la proporción de veces que ocurre
A respecto del total de tiradas del dado, es aproximadamente igual a #A #Ω , lo que sugiere
la definición

- 10 -
1.2 Modelo de Laplace


P (A) = P ({j})
j∈A

∑ 1
=
6
j∈A

1
= #A
6
#A
= .
#Ω

Cabe señalar que el sı́mbolo se
∑lee sumatoria, y representa la suma de los números que
esta indique. En nuestro caso, j∈A P ({j}), significa que se deben sumar los números
P ({j}), cuando j “recorre” todo el conjunto A.

Experimento 3: Se lanzan tres monedas normales y se observa si salió cara o sello en


cada una de las monedas. Diremos que hemos realizado una tirada cuando lanzamos las
tres monedas una vez. Los resultados posibles de una tirada son

Moneda 1 Moneda 2 Moneda 3


C C C
C C S
C S C
S C C
C S S
S C S
S S C
S S S

Realizamos ahora 30 tiradas de las tres monedas. Los resultados obtenidos se presentan
en la tabla siguiente. La última columna de ésta indica el número de veces que ocurrió el
resultado, dividido por 30.

Resultado
Moneda 1 Moneda 2 Moneda 3 Número de veces que Frecuencia
ocurrió el resultado relativa
C C C 2 0.0667
C C S 3 0.1000
C S C 1 0.0333
S C C 7 0.2333
C S S 6 0.2000
S C S 2 0.0667
S S C 4 0.1333
S S S 5 0.1667
Tabla 1.2.4

- 11 -
1.2 Modelo de Laplace

Por ejemplo, en cinco oportunidades las tres monedas resultaron sello.


Repetir el experimento, pero ahora en lugar de 30 tiradas, hacer 50 tiradas, 100 tiradas
y 500 tiradas.
Los resultados que se obtendrán mostrarán que a medida que aumenta el total de
tiradas, las frecuencias relativas comenzarán a variar “muy poco”, obteniéndose que el
número de veces que salen tres sellos, dividido por el total de lanzamientos realizados, es
aproximadamente igual a 18 . Lo mismo ocurre para cualquiera de los otros siete resultados.
El espacio muestral para este experimento es
Ω = {(c, c, c), (c, c, s), (c, s, c), (s, c, c), (c, s, s), (s, c, s), (s, s, c), (s, s, s)} y #Ω = 8.
Si A = {(s, s, s)}, entonces A representa que en las tres monedas salió sello, y definimos
1
P (A) = .
8
1
Similarmente, definimos por 8 a la probabilidad de cualquier suceso con un solo elemento
(suceso elemental).

¿Cuál es la probabilidad de que en dos monedas salga cara y en una sello?

Si A = {(c, c, s), (c, s, c), (s, c, c)}, es decir, A representa el suceso en dos monedas sale cara
y en una sello (sin importar en cuales monedas), entonces, definimos
P (A) = P ({(c, c, s)}) + P ({(c, s, c)}) + P ({(s, c, c)})

1 1 1
= + +
8 8 8
3
=
8
#A
= .
#Ω
Los resultados experimentales deberı́an indicar que el número de veces que en dos mo-
nedas sale cara y en una sello, es aproximadamente igual a 38 , más aún, experimentalmente
se puede verificar que si A es cualquier suceso, esto es, A es cualquier subconjunto de Ω,
entonces la proporción de veces que ocurre A, respecto del total de lanzamientos realizados
es, aproximadamente igual a #A #Ω , lo que motiva la definición

P (A) = P ({a})
a∈A

∑ 1
=
8
a∈A

1
= #A
8
#A
= .
#Ω

- 12 -
1.2 Modelo de Laplace

¿Qué consideraciones se han tenido en cuenta en las definiciones de probabili-


dad dadas en los tres experimentos anteriores?

Los tres experimentos aleatorios tienen las siguientes caracterı́sticas en común:

1. Existe número finito (digamos n) de resultados posibles del experimento. Cada


resultado lo llamamos suceso elemental. La unión de todos los sucesos elementales
es el espacio muestral Ω.

2. Todos los sucesos elementales son igualmente probables.

3. Todo suceso A es la unión de m sucesos elementales, donde m ≤ n.

Definición 1.2.1: Sea Ω conjunto no vacı́o, Ω = {a1 , a2 , . . . , an } y A subcon-


junto de Ω tal que #A = m. Se define la probabilidad de A, se anota P (A),
como
#A m n◦ de casos favorables
P (A) = = = .
#Ω n n◦ de casos posibles

Al par (Ω, P ), se le conoce como Modelo de Probabilidades de Laplace,


también llamado Modelo de Probabilidades Equiprobable.

Este modelo representa la siguiente situación experimental:

• Se tiene un experimento aleatorio, cuyo conjunto de resultados posibles es Ω, el


cual es finito.

• Cada resultado de Ω es igualmente probable (equiprobable).

Algunas consecuencias de la definición anterior, son las propiedades siguientes:

a) Para todo suceso A, 0 ≤ P (A) ≤ 1.

b) P (Ω) = 1.

c) P (∅) = 0.

d) Si A ∩ B = ∅, entonces P (A ∪ B) = P (A) + P (B).

e) Para todo suceso A, P (AC ) = 1 − P (A) (complemento respecto de Ω).

f) Si A ⊂ B, entonces P (A) ≤ P (B).

Estas afirmaciones se verifican usando las siguientes propiedades de cardinalidad de un


conjunto finito:

#(∅) = 0 , #AC = #Ω − #A , #(A ∪ B) = #A + #B − #(A ∩ B).

- 13 -
1.2 Modelo de Laplace

Ejemplo 1.2.1: Se lanzan dos monedas comunes y se observa si en las monedas aparece
cara o sello. Una persona X dice que, como las monedas son indistinguibles, entonces los
únicos resultados de este experimento serı́an {c, c}, {c, s} y {s, s}, es decir, el espacio
muestral resultante serı́a
Ω = {{c, c} , {c, s} , {s, s}}.
Si esta persona ocupa el modelo de Laplace para calcular probabilidades, obtendrá que
la probabilidad del suceso A = {c, s} es

1
P (A) = .
3
Como A representa el suceso ocurrió una cara y un sello al lanzar las dos monedas,
este modelo asigna probabilidad 13 a este suceso.
Matemáticamente, el resultado obtenido por la persona X es correcto, sin embargo, el
modelo propuesto es erróneo, pues “experimentalmente” se verifica que los sucesos ele-
mentales no son equiprobables, lo que se observa en la tabla siguiente

N◦ de veces N◦ de veces N◦ de veces N◦ de veces Frecuencia Frecuencia Frecuencia


que se lanzan las que sale que sale que sale relativa de relativa de relativa de
dos monedas {c, c} {c, s} {s, s} {c, c} {c, s} {s, s}
10 3 6 1 0.300 0.600 0.100
50 13 22 15 0.260 0.440 0.300
100 30 54 16 0.300 0.540 0.160
150 33 75 42 0.220 0.500 0.280
200 53 88 59 0.265 0.440 0.295
250 56 129 65 0.224 0.516 0.260
300 75 152 73 0.250 0.507 0.243
350 89 180 81 0.254 0.515 0.231
400 90 209 101 0.225 0.523 0.252
450 114 229 107 0.253 0.509 0.238
500 122 250 128 0.244 0.500 0.256
750 198 360 192 0.264 0.480 0.256
1000 249 499 252 0.249 0.499 0.252

Tabla 1.2.5

Observando la tabla anterior, vemos que la probabilidad de que ocurran dos caras de-
berı́a ser 0.25, la probabilidad de que ocurra una cara y un sello 0.50 y la probabilidad de
obtener dos sellos 0.25.
Una forma alternativa al razonamiento de la persona X, serı́a asumir que podemos
hacer la distinción entre las dos monedas. Esta distinción la explicitamos colocando los
resultados de las dos monedas como un par ordenado. En la primera componente colocamos
el resultado de la “moneda 1” y en la segunda el resultado de la “moneda 2”. De esta
forma, el espacio muestral resultante del experimento serı́a

Ω = {(c, c) , (c, s) , (s, c) , (s, s)}.

En este caso, el suceso ocurrió una cara y un sello al lanzar las dos monedas, está
representado por A = {(c, s), (s, c)}.

- 14 -
1.2 Modelo de Laplace

Si ahora usamos el modelo equiprobable para calcular probabilidades, obtenemos que


#A
P (A) =
#Ω

2
=
4
1
= .
2
Este resultado sı́ es coincidente con lo que ocurre experimentalmente.

Ejemplo 1.2.2: Se lanzan dos dados comunes simultáneamente, y se observan los núme-
ros mostrados en las caras superiores. Calcular:
a) La probabilidad de que la suma sea 11.

b) La probabilidad de que ambos números no sean primos.

c) La probabilidad de que el máximo entre ambos números sea mayor o igual a 4.

Los resultados posibles al lanzar dos dados se muestran en la tabla siguiente

n◦ mostrado por el “segundo dado”



n mostrado por
el “primer dado” 1 2 3 4 5 6
1 (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)
2 (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)
3 (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
4 (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)
5 (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)
6 (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
Tabla 1.2.6
Ası́, el conjunto Ω está formado por todos los pares de la tabla anterior, es decir,

Ω = {(i, j) : i, j ∈ {1, 2, 3, 4, 5, 6}} y #Ω = 36 = 6 · 6

(6 es el número de resultados posibles del “primer dado” y 6 es el número de resultados


posibles del “segundo dado”).

Experimentalmente, se puede verificar (lanzando “muchas” veces un par de dados) que


cada resultado de Ω es igualmente probable, por lo que usamos el modelo de Laplace para
resolver este problema.
De esta forma, si A es un suceso, es decir, A ⊂ Ω, entonces
#A #A
P (A) = = .
#Ω 36

- 15 -
1.2 Modelo de Laplace

El conjunto A = {(6, 5), (5, 6)} es el suceso que representa el hecho de que la suma de
los dados sea 11, por lo tanto
2 1
P (A) = = .
36 18
El conjunto B = {(4, 4), (4, 6), (6, 4), (6, 6)} es el suceso que representa el hecho de que
ambos números no sean primos (hemos asumido que 1 es primo), de donde

4 1
P (B) = = .
36 9
El conjunto C = {(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)} es el suceso
que representa el hecho de que el máximo entre ambos números sea menor que 4. Por lo
tanto, C c es el suceso que indica que el máximo entre ambos números es mayor o igual a
4. En consecuencia, la probabilidad pedida en el punto c) es P (C c ), y

P (C c ) = 1 − P ((C c )c )

= 1 − P (C)

#C
= 1−
36
9
= 1−
36
3
= .
4

Ejemplo 1.2.3: Se tienen 5 fichas idénticas y numeradas, 1 2 3 4 5 . Se

colocan en una bolsa no transparente y se escogen al azar, dos de ellas, con reposición.
Esto es, se saca una ficha se observa su número y luego se devuelve a la bolsa, ahora se
saca la segunda ficha. ¿Cuál es la probabilidad de que la segunda ficha escogida no sea la
misma que la primera?
Los resultados al escoger las dos fichas con reposición se muestran en la tabla siguiente

2a ficha escogida

1a ficha escogida 1 2 3 4 5

1 1 1 1 2 1 3 1 4 1 5

2 2 1 2 2 2 3 2 4 2 5

3 3 1 3 2 3 3 3 4 3 5

4 4 1 4 2 4 3 4 4 4 5

5 5 1 5 2 5 3 5 4 5 5

Tabla 1.2.7

- 16 -
1.2 Modelo de Laplace

El conjunto Ω, de todos los resultados posibles para este experimento, está formado por
todos los pares de fichas que muestra la tabla anterior. Luego, #Ω = 25.
Experimentalmente, se puede verificar (sacando “muchas” veces dos fichas de la bolsa)
que cada resultado de Ω es igualmente probable, por lo que usamos el modelo de Laplace
para calcular la probabilidad pedida. Ası́, si A es un suceso, es decir, A ⊂ Ω,
#A #A
P (A) = = .
#Ω 25
El conjunto A que representa el hecho que la segunda ficha escogida es igual a la primera
es n o
A= 1 1 , 2 2 , 3 3 , 4 4 , 5 5 , por lo que #A = 5.

Por lo tanto, el conjunto que representa el hecho que la segunda ficha escogida es
diferente a la primera es Ac , y como P (Ac ) = 1 − P (A),

#A 4
P (Ac ) = 1 − = .
25 5
Notar que, #A = 20 = 5 · 4 (5 es el número de fichas que se pueden escoger en la
primera extracción y 4 en la segunda, ya que esta segunda ficha no puede ser igual a la
primera que ya se sacó).

Observación 1.2.1: Muestreo con y sin Reemplazo. Sea B un mazo de n cartas.


Se requiere representar el experimento siguiente: Barajar bien, y extraer sucesivamente m
cartas.
En este experimento, el espacio muestral es el conjunto de las m-uplas formadas por m
cartas distintas: Ω = {(b1 , . (. . ,)bm ) : bi ∈ B, bi ̸= bj si i ̸= j}. De la definición de Ω , se
n
deduce que #Ω es igual a m m! (que se anota (n)m ) . Se representa matemáticamente
la idea de que el mazo está bien barajado postulando que los elementos de Ω son equi-
probables. Esta es la definición de muestreo sin reemplazo de m objetos de entre un total
de n.
Si no interesa el orden en que salen las cartas, sino solamente cuales salieron, el espacio
( n )resultante es Ω = {{b1 , . . . , bm } : bi ∈ B, bi ̸= bj si i ̸= j}. Este espacio muestral
muestral
tiene m conjuntos posibles, los cuales son equiprobables.
Consideremos en cambio el experimento descrito por el siguiente procedimiento: Hacer m
veces lo siguiente: Barajar bien, sacar una carta y registrarla. Ahora reponerla.
En este experimento, Ω = {(b1 , . . . , bm ), bi ∈ B} = B × · · · × B. Por lo tanto, #Ω = nm .
Se representa el buen barajado postulando que los elementos de Ω son equiprobables.
Esta es la definición de muestreo con reemplazo.
Un ejemplo de esta situación es: m lanzamientos sucesivos de un dado común. Aquı́
B = {1, 2, 3, 4, 5, 6}.

- 17 -
1.2 Modelo de Laplace

Comentario Histórico: Pierre Simon de Laplace nació el 23 de marzo de 1749 en


Beamont-en-Auge, Francia. Poco se sabe de su infancia, de familia humilde, hijo de un
agricultor y negociante en sidra, pudo realizar sus estudios gracias a la ayuda económica
de algunos vecinos ricos.
Reinando Luis XVI, marchó a Parı́s y con el apoyo de D’Alembert consiguió una plaza
de profesor en la Real Escuela Militar, apenas tenı́a 19 años de edad. Años después
fue nombrado profesor de la Escuela Normal Superior. Al mismo tiempo que su labor
docente, realiza una importante labor investigadora, que es reconocida cuando presenta
sus primeros trabajos sobre el Sistema Solar. En 1785 es nombrado miembro de pleno
derecho de la Academia de las Ciencias de Parı́s. Su importancia histórica como cientı́fico
sólo se ve superada por Newton y fue, junto con Lagrange, la figura más destacada en el
campo de la astronomı́a teórica de su tiempo.
Entre las contribuciones matemáticas de Laplace de primera importancia, destacan sus
investigaciones sobre el cálculo de probabilidades. En 1812, con la “Teorı́a Analı́tica de
las Probabilidades”, expone los principios y las aplicaciones de lo que él llama “geometrı́a
del azar”. Esta obra representa la introducción de los recursos del análisis matemático
en el estudio de los fenómenos aleatorios. Laplace expresa de forma sencilla el significado
del cálculo de probabilidades:“En el fondo, la teorı́a de probabilidades es sólo sentido
común expresado con números”. La importancia de esta materia la resalta Laplace con
las siguientes palabras :“Es notable que una ciencia que comenzó con las consideraciones de
juegos de azar habı́a de llegar a ser el objeto más importante del conocimiento humano.
Las cuestiones más importantes de la vida constituyen en su mayor parte, en realidad,
solamente problemas de probabilidad”. Su comentario se puede considerar profético ya
que hoy dı́a no se concibe el progreso en ninguna ciencia sin la presencia de la probabilidad.
Cabe resaltar que el método para estimar la proporción entre el número de casos favorables
y el número de casos posibles ya habı́a sido propuesto por Laplace en un documento escrito
en 1779. Fallece en Parı́s el 5 de Marzo de 1827, cien años después de Newton, casi el
mismo dı́a.

- 18 -
1.2 Modelo de Laplace

PROBLEMAS
Problema 1.2.A: Un mazo de barajas francesas de 52 cartas se reparten, al azar, entre
cuatro personas. Indique la probabilidad de que cada persona reciba un as.

Problema 1.2.B: Un kiosco tiene 100 cartones de un cierto juego de azar, entre los
cuales hay sólo dos que están premiados. Determine el menor número de cartones que es
necesario comprar para que la probabilidad de ganar a lo menos un premio sea superior a
4
5.

Problema 1.2.C: Una caja contiene 2n helados, n de sabor A y n de sabor B. En un


grupo de 2n personas, a prefieren el sabor A (con a < n), b prefieren el sabor B (con
b < n) y 2n − a − b no tienen preferencia. Encuentre la probabilidad de que al repartir
todos los helados (al azar) quede satisfecha la preferencia de todas las personas.

Problema 1.2.D: De un mazo de cartas españolas se extraen tres al azar sin reemplazo.
Si A indica el suceso de que todas las cartas escogidas sean de la misma pinta, calcule la
probabilidad del suceso A.

Problema 1.2.E: Control de calidad. En una canasta hay N artı́culos, de los cuales
M están defectuosos. Se eligen n al azar (sin reemplazo). ¿Cuál es la probabilidad p , de
sacar exactamente m defectuosos? Se asume que m ≤ n y m ≤ M.

Problema 1.2.F: El llamado método captura–recaptura a menudo se utiliza para estimar


el tamaño de poblaciones de animales. Suponga que t animales son capturados, marcados
y luego liberados. En una posterior ocasión, m animales son capturados, encontrándose
que r de ellos están marcados. ¿Cuál es el tamaño de la población?

Problema 1.2.G: Repartos. En una fiesta de cumpleaños, donde hay n niños, se


reparten al azar c caramelos. Estudie la probabilidad de que al festejado le toque al
menos un caramelo.

Problema 1.2.H: Una loterı́a emite N boletos, dentro de los cuales hay uno solo marcado
con el premio gordo (el sorteo se realiza una vez por semana). Un jugador compra n boletos
durante un sorteo, y otro jugador compra sólo un boleto cada semana, durante n semanas.
¿Cuál de los dos jugadores tiene mayor probabilidad de ganar el premio gordo?

Problema 1.2.I: Cumpleaños. Suponga que un salón contiene a n personas, n ≤ 365.


¿Cuál es la probabilidad que al menos dos de ellas estén de cumpleaños el mismo dı́a?

- 19 -
1.3. MODELO BINOMIAL

1.3 Modelo Binomial

Nuevamente realizaremos algunos experimentos aleatorios que nos sugieran alguna ley que
los rijan.

Experimento 1: Se lanza un dado “honesto”, si sale un número primo diremos que


ocurrió un “éxito” y si no sale primo diremos que ocurrió un “fracaso”. Hemos realizado
una “tirada” cuando lanzamos una vez el dado. Los resultados posibles de una “tirada”
son: 1 (éxito), 2 (éxito), 3 (éxito), 4 (fracaso), 5 (éxito), 6 (fracaso). Hemos asumido que
1 es un número primo. Realizamos 10 tiradas del dado, obteniendo la secuencia

3 , 5 , 1 , 4 , 5 , 3 , 1 , 4 , 2 , 2.

Si ahora contamos el número de veces en que ocurrió fracaso, y el número de veces


en que ocurrió éxito, tendremos que: se obtuvieron 2 fracasos y 8 éxitos. Realizamos,
nuevamente, 10 tiradas del dado obteniendo ahora la secuencia

1 , 6 , 5 , 2 , 6 , 1 , 6 , 3 , 2 , 3.

En este caso resultaron 3 fracasos y 7 éxitos. Si realizamos otra vez 10 tiradas del
dado, posiblemente resulte un número distinto de fracasos y un número distinto de éxitos
que los obtenidos anteriormente. Podrı́amos decir entonces, que el número de éxitos que
obtenemos al lanzar el dado 10 veces depende del azar. ¿Existirá algún patrón o tendencia
que “siga” la proporción de éxitos que resultan después de lanzar el dado 10 veces, o 100
veces, o un “gran número” de veces? Esta proporción (que dependerá del azar) es la que
se modelará matemáticamente, por esta razón realizaremos “muchas” tiradas del dado.
Como el lanzar, por ejemplo, 1000 veces el dado es un poco lento y engorroso, simularemos
los lanzamientos del dado en el computador. La tabla siguiente muestra los resultados
obtenidos en diferentes simulaciones, y cada columna indica lo siguiente:

Columna uno: indica el número de veces que se tira el dado.


Columna dos: indica el número de veces que no salió número primo (cero éxito), al tirar
el dado la cantidad de veces que indica la columna uno.
Columna tres: indica el número de veces que salió número primo (un éxito), al tirar el
dado la cantidad de veces que indica la columna uno.
Columna cuatro: indica la fracción, columna 2 sobre columna 1 (la llamaremos frecuencia
relativa de cero éxito, anotándose fF ).
Columna cinco: indica la fracción, columna 3 sobre columna 1 (la llamaremos frecuencia
relativa de un éxito, anotándose fE ).

- 20 -
1.3 Modelo Binomial

Simulación del Experimento


(lanzar un dado)
no de veces que se lanza no de veces que no sale no de veces que sale
un dado no primo (0 éxito) no primo (1 éxito) fF fE
10 2 8 0,2000 0,8000
50 18 32 0,3600 0,6400
100 28 72 0,2800 0,7200
1000 326 674 0,3260 0,6740
2000 670 1330 0,3350 0,6650
3000 968 2032 0,3227 0,6773
4000 1326 2674 0,3315 0,6685
5000 1658 3342 0,3316 0,6684
6000 1968 4032 0,3280 0,6720
7000 2327 4673 0,3324 0,6676
8000 2661 5339 0,3326 0,6674
9000 3041 5959 0,3379 0,6621
10000 3304 6696 0,3304 0,6696
15000 5086 9914 0,3391 0,6609
20000 6705 13295 0,3353 0,6648
30000 9926 20074 0,3309 0,6691

Tabla 1.3.1

A continuación, mostramos los gráficos del número de tiradas versus fF y número de


tiradas versus fE .

fF

2
3

..
...
....
1 ........ .........................................................................................................................................................................................................................................................................................................................................................................
. ...........
3
.. .............
...
..
..

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas

Figura 1.3.1

- 21 -
1.3 Modelo Binomial

fE

...
...
...
... ..............
..... .............. ............................................
2
...... ................................................ ..........................................................................................................................................................................................................................................................................
3 ....
...
.

1
3

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas

Figura 1.3.2

De los gráficos anteriores podemos observar que, mientras más tiradas realizamos, las
frecuencias relativas varı́an muy poco, obteniéndose que fF es “cercano” a 13 y que fE
es “cercano” a 23 . Más aún, al simular nuevamente las tiradas de un dado, las columnas
2 y 3 de la tabla anterior cambian; pero, al igual que en la primera simulación, mien-
tras más tiradas se realizan, las frecuencias relativas fF y fE serán “cercanas” a 13 y 32 ,
respectivamente. Este hecho motiva el siguiente modelo matemático.

Representamos por F el hecho que no salga éxito (lo llamaremos fracaso) y por E que
ocurra éxito.
En este caso el espacio muestral resultante para este experimento es Ω = {F, E}.
Ası́, la Tabla 1.3.1 sugiere la siguiente definición de probabilidad
1 2
P ({F }) = ; P ({E}) = .
3 3
}
Claramente, según este modelo de probabilidad, P ({F }) ̸= #{F 1
#Ω = 2 , es decir, este modelo
no es el modelo de Laplace.
El resultado del lanzamiento de un dado puede verse como el siguiente árbol, donde el
sı́mbolo F significa que ocurrió fracaso y el sı́mbolo E que ocurrió éxito.

Este árbol tiene dos ramas, verificándose que:


1 vez ocurre la rama con un fracaso,
1 vez ocurre la rama con un éxito.

- 22 -
1.3 Modelo Binomial

El número de ramas de este árbol puede escribirse, en forma horizontal, como la secuencia
de números:
1 1

Ahora, la probabilidad de fracaso (cero éxito) y de éxito (un éxito) pueden verse como el
siguiente árbol:
1
3

2
3

Una manera alternativa de escribir, P ({F }) y P ({E}), que nos ayudará posteriormente a
generalizar este modelo, es como producto; el cual contenga potencias de 23 y 13 ( nótese
que 13 = 1 − 23 ):
( )0 ( )1
1 2 1
P ({F }) = = ,
3 3 3
( )1 ( )0
2 2 1
P ({E}) = = .
3 3 3

Experimento 2: Repetimos el experimento anterior, pero en lugar de lanzar un dado,


lanzamos dos dados. Cabe señalar que, cualquiera de las siguientes formas de lanzar dos
dados arroja el mismo tipo de conclusiones.

a) Se tienen dos dados (los identificamos como dado 1 y dado 2) y los lanzamos si-
multáneamente.

b) Se tienen dos dados (los identificamos como dado 1 y dado 2), lanzamos primero el
dado 1 y luego lanzamos el dado 2.

c) Se tiene un dado, se lanza una vez (éste se identifica como el dado 1), se recoge y
luego se lanza una segunda vez (éste se identifica como el dado 2).

Para fijar ideas usaremos la forma b) de lanzamiento. Precisemos que, si realizamos,


por ejemplo, 2 tiradas, esto significa que tomamos los dos dados, los lanzamos una vez, los
recogemos y luego los volvemos a lanzar. Nuevamente escribiremos con una F (fracaso)
cuando el dado no muestre número primo y con E (éxito) cuando lo sea.
Realizamos 8 tiradas, obteniéndose

dado 1 dado 2 dado 1 dado 2


2 4 (E,F) 3 3 (E,E)
1 4 (E,F) 6 5 (F,E)
2 3 (E,E) 1 1 (E,E)
5 4 (E,F) 5 6 (E,F)

- 23 -
1.3 Modelo Binomial

En este caso en 3 oportunidades resultaron 2 éxitos, en ninguna se obtuvieron dos


fracasos, en 4 resultó éxito en el dado 1 y fracaso en el dado 2 y en 1 resultó fracaso en el
dado 1 y éxito en el dado 2.
Realizamos nuevamente 8 tiradas, obteniéndose

dado 1 dado 2 dado 1 dado 2


2 2 (E,E) 1 4 (E,F)
4 6 (F,F) 2 3 (E,E)
3 5 (E,E) 3 4 (E,F)
6 1 (F,E) 1 5 (E,E)

En esta ocasión, en 4 oportunidades resultaron dos éxitos, en 1 se obtuvo dos fracasos,


en 2 resultó éxito en el dado 1 y fracaso en el dado 2 y en 1 resultó fracaso en el dado 1 y
éxito en el dado 2.
Podrı́amos decir entonces que el número de éxitos (0 éxito; 1 éxito; 2 éxitos) que se
obtienen al realizar 8 tiradas de dos dados, depende del azar.

Al igual que en el experimento anterior, deseamos modelar matemáticamente la pro-


porción de éxitos (que dependen del azar) que resultan después de realizar “muchas”
tiradas. Recordemos que una tirada significa lanzar dos dados. Por esta razón, simulare-
mos ahora en el computador el lanzamiento de dos dados. La tabla siguiente muestra los
resultados obtenidos en diferentes simulaciones.
Columna uno: indica el número de veces que se tiran los dos dados.
Columna dos: indica el número de veces que no se obtuvo número primo en ninguno de
los dos dados (cero éxito), al tirar los dos dados la cantidad de veces que indica la columna
uno.
Columna tres: indica el número de veces que se obtuvo número primo en sólo el primer
dado (un éxito), al tirar los dos dados la cantidad de veces que indica la columna uno.
Columna cuatro: indica el número de veces que se obtuvo número primo en sólo el segundo
dado (un éxito), al tirar los dos dados la cantidad de veces que indica la columna uno.
Columna cinco: indica el número de veces que se obtuvo número primo en los dos dados
(dos éxitos), al tirar los dos dados la cantidad de veces que indica la columna uno.
Columna seis: indica el número total de veces que se obtuvo número primo (número total
de éxitos), al tirar los dos dados la cantidad de veces que indica la columna uno. Nótese
que esta columna se obtiene al sumar la columna 3 más la columna 4 más 2 veces la
columna 5.
Columna siete: indica la fracción, columna 2 sobre columna 1, que al igual que en el primer
experimento la llamaremos frecuencia relativa de cero éxito, anotándose f(F,F ) .
Columna ocho: indica la fracción, columna 3 sobre columna 1, anotándose f(E,F ) .
Columna nueve: indica la fracción, columna 4 sobre columna 1, anotándose f(F,E) .
Columna diez: indica la fracción, columna 5 sobre columna 1, anotándose f(E,E) .
Columna once: indica la fracción columna 6 sobre columna 1, que representa el número
promedio de primos (promedio de éxitos) que se han obtenido, al tirar dos dados la can-
tidad de veces que indica la columna 1, la anotaremos e2 .

- 24 -
Simulación del Experimento
(lanzar dos dados)

N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ total de veces


que se que no sale que sale que sale que sale que sale
lanzan primo en los primo sólo el primo sólo el primo en los N◦ primo f(F,F ) f(E,F ) f(F,E) f(E,E) e2
dos dados dos dados primer dado segundo dado dos dados
(0 éxito) (1 éxito) (1 éxito) (2 éxitos)
10 0 5 1 4 14 0.0000 0.5000 0.1000 0.4000 1.4000
50 5 10 14 21 66 0.1000 0.2000 0.2800 0.4200 1.3200
100 8 20 17 55 147 0.0800 0.2000 0.1700 0.5500 1.4700
1000 114 202 220 464 1350 0.1140 0.2020 0.2200 0.4640 1.3500

- 25 -
2000 228 451 421 900 2672 0.1140 0.2255 0.2105 0.4500 1.3360
3000 345 647 654 1354 4009 0.1150 0.2157 0.2180 0.4513 1.3363
4000 443 1001 754 1802 5359 0.1108 0.2503 0.1885 0.4505 1.3398
5000 543 1065 1129 2263 6720 0.1086 0.2130 0.2258 0.4526 1.3440
6000 710 1237 1362 2691 7981 0.1183 0.2062 0.2270 0.4485 1.3302
7000 777 1634 1533 3056 9279 0.1110 0.2334 0.2190 0.4366 1.3256
8000 908 1805 1742 3545 10637 0.1135 0.2256 0.2178 0.4431 1.3296
9000 997 1990 1557 3942 11945 0.1108 0.2211 0.2301 0.4380 1.3272
10000 1093 2183 2228 4496 13403 0.1093 0.2183 0.2228 0.4496 1.3403

Tabla 1.3.2
1.3 Modelo Binomial
1.3 Modelo Binomial

Las gráficas siguientes muestran el número de tiradas versus f(F,F ) (respectivamente


f(E,F ) , f(F,E) , f(E,E) y e2 ).

f(F,F )

1 ................................................................................................................................................................................................................................................................................................................................................................................
9 ..................
..
...
..
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas

Figura 1.3.3

f(E,F )

...
...
...
...
...
...
...
...
...
... ..............................................
2 ............................................................................................................................................... .........................................................................................................................................................................................................
9
1
9

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas

Figura 1.3.4

- 26 -
1.3 Modelo Binomial

f(F,E)

..
...
.... ............ ... ................................................................................................................................................ ....
2 ........ ............................. .................................................................. ..................................................................... ................... .................................
. ... ......
9
... ..
.
1 ..
9

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas

Figura 1.3.5

f(E,E)

..
....
.. ...
... ......... ................ ........... ....................................
. .......... .............. ......... ..............................................................................................................................................................................................................................................................................
..
4 ..
9

1
9

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas

Figura 1.3.6

- 27 -
1.3 Modelo Binomial

e2

.....
.. ....
4 .. .......................................................................................................................................................................................................................................................................................................................................................................................
3 ...
.
..
..
...
.
..
1 ..
...
..
..

1
3

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas

Figura 1.3.7

Notar que los únicos resultados posibles de una tirada son (E, E), (E, F ), (F, E) y
(F, F ), es decir, hay cuatro resultados posibles que provienen de las combinaciones que se
muestran en el siguiente diagrama

dado 1 dado 2

1
2
3
1 −→
4
5
6

1
2
3
2 −→
4
5
6

. .
.. ..

1
2
3
6 −→
4
5
6

Para este experimento, el espacio muestral resultante es

Ω = {(F, F ), (E, F ), (F, E), (E, E)} .

- 28 -
1.3 Modelo Binomial

La Tabla 1.3.2 sugiere la siguiente definición de probabilidad para cada uno de los
sucesos elementales pertenecientes a Ω.

1 2
P ({(F, F )}) = P ({(F, E)}) =
9 9

2 4
P ({(E, F )}) = P ({(E, E)}) =
9 9
Nuevamente, según este modelo de probabilidades, los sucesos elementales no son equi-
probables.
También, cualquiera sea el suceso A, es decir, cualquiera sea el subconjunto (no vacı́o)
de Ω, definimos P (A) por medio de la relación

P (A) = P ({a}).
a∈A

Por ejemplo, si A = {(F, F ), (E, E)}, es decir, A representa el suceso de que en ambos
dados no sale primo ó en ambos dados sale primo, entonces

P (A) = P ({(F, F )}) + P ({(E, E)})

1 4
= +
9 9
5
= .
9

O sea, este modelo asigna probabilidad 95 al suceso A. En el caso en que el número de


tiradas es “grande”, la Tabla 1.3.2 muestra que la frecuencia relativa del conjunto A, esto
es f(F,F ) + f(E,E) , es aproximadamente igual a 95 .
El siguiente diagrama de árbol muestra los posibles resultados del lanzamiento de dos
dados.

F
F
E

F
E
E
Dado 1 Dado 2

Este árbol tiene 4 “ramas”, verificándose que:


1 vez ocurre la rama con dos fracasos, y cero éxito,
2 veces ocurre la rama con un éxito y un fracaso,
1 vez ocurre la rama con dos éxitos y cero fracaso.

- 29 -
1.3 Modelo Binomial

La clasificación de las ramas descrita recientemente, puede escribirse, en forma hori-


zontal, como la siguiente secuencia de números

1 2 1.

Como vimos anteriormente, la probabilidad de que ocurra cero éxito (que no salga primo)
en el lanzamiento del dado 1 es 13 , mientras que la probabilidad de que ocurra un éxito (que
salga primo) es 23 . Estas mismas probabilidades son válidas para el lanzamiento del dado
2. Observemos ahora las probabilidades de los sucesos elementales {(F, F )}, {(E, F )},
{(F, E)} y {(E, E)} como diagrama de árbol.

1 1 1 1
3
·
3 3
= 9

1
3

2 1 2 2
3
·
3 3
= 9

1 2 1 2
3
·
3 3
= 9

2
3

2 2 2 4
3
·
3 3
= 9

Dado 1 Dado 2

Resumiendo:
Sólo en una rama del árbol anterior ocurren dos fracasos y cero éxito, y esta rama tiene
probabilidad 31 13 = 19 .
En dos ramas ocurre un éxito y un fracaso, y cada rama tiene la misma probabilidad, ésta
es 31 23 = 92 .
Sólo en una rama ocurren dos éxitos y cero fracaso, y esta rama tiene probabilidad 32 23 = 94 .

También, en este caso, mostramos una forma alternativa de escribir la probabilidad de


cada suceso elemental como producto, el cual contenga potencias de 32 y 13
( )0 ( )2
1 2 1
P ({(F, F )}) = =
9 3 3
( )1 ( )1
2 2 1
P ({(F, E)}) = =
9 3 3
( )1 ( )1
2 2 1
P ({(E, F )}) = =
9 3 3
( )2 ( )0
4 2 1
P ({(E, E)}) = = .
9 3 3

- 30 -
1.3 Modelo Binomial

Además, si Ak representa el suceso que ocurran exactamente k-éxitos al lanzar los dos
dados, entonces

A0 = {(F, F )} ; A1 = {(E, F ), (F, E)} ; A2 = {(E, E)},

y se verifica que Ω es la unión disjunta de A0 , A1 y A2 , esto es

Ω = A0 ∪ A1 ∪ A2 .

También, a partir de la definición de probabilidad que hemos formulado, este modelo


asigna las siguientes probabilidades a los sucesos A0 , A1 y A2 :

1
P (A0 ) = ,
9
2 2 4
P (A1 ) = + = ,
9 9 9
4
P (A2 ) = .
9
Nótese además que

( )0 ( )
1 2 2 2
P (A0 ) = =1· · 1− ,
9 3 3
( )1 ( )
4 2 2 1
P (A1 ) = =2· · 1− ,
9 3 3
( )2 ( )
4 2 2 0
P (A2 ) = =1· · 1− ,
9 3 3
y
( ) ( ) ( )
2 2 2
= 1; = 2; = 1,
0 1 2

o sea, P (Ak ) puede ser escrito en la forma

( ) ( )k ( )
2 2 2 2−k
P (Ak ) = · · 1− , k ∈ {0, 1, 2}
k 3 3
( ) [ ] n◦
n◦ de dados lanzados de éxitos
= · enprobabilidad de éxito
cualquier lanzamiento
n◦ de éxitos

[ ] 2- n◦ de éxitos
probabilidad de éxito
· 1− en cualquier lanzamiento
de un dado

- 31 -
1.3 Modelo Binomial

Observación 1.3.1: Notemos que

4 8
0 · P (A0 ) + 1 · P (A1 ) + 2 · P (A2 ) = 0 + +
9 9
12
=
9
4
=
3
2
= 2·
3
[ ]
probabilidad de éxito
= [ n◦ de dados lanzados ]· en cualquier lanzamiento .
de un dado

El valor anterior lo definimos como E2 , esto es, E2 = 2 · 23 . Entonces, observando la


última columna de la Tabla 1.3.2 (cuando el número de tiradas es “grande”), vemos que
E2 es cercano a la frecuencia relativa del número total de éxitos (primos) que se obtienen
al lanzar dos dados. O sea, E2 es un modelo matemático para el promedio de éxitos que
se obtienen al lanzar dos dados.

Observación 1.3.2: Usando el Teorema del Binomio, vemos que


(( ) )
2 2 2
1= 1− +
3 3
( ) ( ) ( )2
2 2 2 2 2
= 1− +2· 1− · +
3 3 3 3

= P (A0 ) + P (A1 ) + P (A2 ).

Experimento 3: Se dispone de una bolsa no transparente que contiene una pelotita


amarilla, una azul, una rosada, una roja y una verde (todas de idéntico tamaño y textura).
Se saca una pelotita y se observa su color. Diremos que ocurrió éxito si la pelotita elegida
es la de color rojo, en caso contrario diremos que ocurrió fracaso.
El experimento consiste en extraer 3 pelotitas desde la bolsa. Las extracciones deben
ser con reposición, esto es, se saca la primera pelotita, se observa su color y luego se
devuelve a la bolsa. Enseguida se saca la segunda pelotita, se observa el color y se devuelve
a la bolsa. Finalmente, se extrae la tercera pelotita y se observa su color. Escribiremos
con una F (fracaso) cuando la pelotita escogida no sea la roja y con E (éxito) cuando lo
sea. Por ejemplo, si en la primera extracción sale la pelotita amarilla, en la siguiente la
pelotita roja y en la tercera la pelotita azul, anotaremos (F, E, F ).
Realizamos 30 repeticiones del experimento, es decir, en 30 ocasiones sacamos 3 peloti-
tas (con reposición) de la bolsa que contiene 5. Los resultados obtenidos fueron los si-
guientes:

- 32 -
1.3 Modelo Binomial

1a pelotita 2a pelotita 3a pelotita


escogida escogida escogida
Repetición 1 Verde Verde Azul (F,F,F)
Repetición 2 Roja Azul Azul (E,F,F)
Repetición 3 Verde Azul Roja (F,F,E)
Repetición 4 Rosada Verde Amarilla (F,F,F)
Repetición 5 Rosada Rosada Amarilla (F,F,F)
Repetición 6 Verde Verde Rosada (F,F,F)
Repetición 7 Azul Amarilla Azul (F,F,F)
Repetición 8 Azul Amarilla Azul (F,F,F)
Repetición 9 Roja Verde Azul (E,F,F)
Repetición 10 Azul Rosada Roja (F,F,E)
Repetición 11 Roja Verde Rosada (E,F,F)
Repetición 12 Amarilla Rosada Rosada (F,F,F)
Repetición 13 Roja Rosada Amarilla (E,F,F)
Repetición 14 Roja Azul Verde (E,F,F)
Repetición 15 Amarilla Roja Verde (F,E,F)
Repetición 16 Amarilla Azul Rosada (F,F,F)
Repetición 17 Roja Verde Amarilla (E,F,F)
Repetición 18 Rosada Azul Amarilla (F,F,F)
Repetición 19 Azul Azul Roja (F,F,E)
Repetición 20 Azul Verde Roja (F,F,E)
Repetición 21 Roja Azul Rosada (E,F,F)
Repetición 22 Amarilla Amarilla Azul (F,F,F)
Repetición 23 Amarilla Rosada Roja (F,F,E)
Repetición 24 Roja Roja Azul (E,E,F)
Repetición 25 Azul Rosada Roja (F,F,E)
Repetición 26 Verde Azul Rosada (F,F,F)
Repetición 27 Amarilla Verde Roja (F,F,E)
Repetición 28 Rosada Azul Azul (F,F,F)
Repetición 29 Amarilla Amarilla Rosada (F,F,F)
Repetición 30 Verde Azul Verde (F,F,F)

Tabla 1.3.3

Desde la tabla podemos observar que:


en 0 ocasión se obtuvo el resultado (E, E, E) (las tres veces la pelotita sacada fue la roja),
en 14 oportunidades se obtuvo el resultado (F, F, F ) (las tres veces la pelotita sacada no
fue la roja),
en 7 ocasiones se obtuvo (E, F, F ) (en la primera extracción salió la pelotita roja, en la
segunda no salió la pelotita roja y en la tercera no salió la pelotita roja),
en 1 ocasión se obtuvo el resultado (F, E, F ), esto es, en la primera extracción no salió
roja, en la segunda salió roja y en la tercera no salió roja,
en 7 ocasiones resultó (F, F, E), o sea, en la primera y segunda extracción la pelotita no
salió roja y en la tercera sı́,
en 1 oportunidad se obtuvo (E, E, F ), es decir, tanto en la primera como en la segunda
extracción la pelotita fue roja mientras que en la tercera no lo fue,

- 33 -
1.3 Modelo Binomial

en 0 ocasión se obtuvo el resultado (E, F, E), esto es, de las tres extracciones sólo en la
segunda no salió la pelotita roja,
en 0 oportunidad se obtuvo el resultado (F, E, E), o sea, en la primera sacada la pelotita
no fue roja y en la segunda y tercera sacada si lo fue.

Realizamos nuevamente 30 repeticiones del experimento, obteniéndose ahora que:


en 1 ocasión resultó (E, E, E),
en 16 oportunidades se obtuvo (F, F, F ),
en 5 ocasiones resultó (E, F, F ),
en 4 ocasiones resultó (F, E, F ),
en 2 oportunidades se obtuvo (F, F, E),
en 1 oportunidad se obtuvo (E, E, F ),
en 0 ocasión se obtuvo (E, F, E),
en 1 ocasión resultó (F, E, E).

En consecuencia, podrı́amos concluir que el número de éxitos (0 éxito, 1 éxito, 2 éxitos


ó 3 éxitos) que se obtienen al extraer 3 pelotitas (con reposición) desde la bolsa con 5,
depende del azar.
Nuevamente buscaremos modelar la proporción de éxitos (que dependen del azar) que
se obtienen después de repetir “muchas” veces el experimento. La siguiente tabla muestra
los resultados obtenidos a través de simulaciones computacionales.

Columna uno: indica el número de veces que se sacaron (con reposición) las 3 pelotitas
desde la bolsa con 5.
Columna dos: indica el número de veces que se obtuvo el resultado (F, F, F ), cuando el
“experimento” se repite el número de veces que indica la columna uno.
Columna tres: indica el número de veces que se obtuvo el resultado (E, F, F ), cuando el
“experimento” se repite el número de veces que indica la columna uno.
Análogas interpretaciones tienen las columnas cuatro, cinco, seis, siete, ocho y nueve.
Columna diez: indica el número total de veces que se sacó la pelotita roja (número total de
éxitos), al repetir el “experimento” el número de veces que indica la columna uno. Nótese
que esta columna se obtiene al sumar las columnas tres, cuatro y cinco, más 2 veces las
columnas seis, siete y ocho, más 3 veces la columna nueve.

- 34 -
Simulación

No de veces No de veces No de veces No de veces No de veces No de veces No de veces No de veces No de veces No total de veces
que se extraen que aparece que aparece que aparece que aparece que aparece que aparece que aparece que aparece que se sacó
3 pelotitas (con el resultado el resultado el resultado el resultado el resultado el resultado el resultado el resultado la pelotita roja
reposición) de la (F,F,F) (E,F,F) (F,E,F) (F,F,E) (E,E,F) (E,F,E) (F,E,E) (E,E,E) (No total de éxitos)
bolsa con 5 (0 éxito) (1 éxito) (1 éxito) (1 éxito) (2 éxitos) (2 éxitos) (2 éxitos) (3 éxitos)
10 6 3 1 0 0 0 0 0 4
50 30 4 5 5 1 2 3 0 26
100 46 18 17 8 3 2 5 1 66
250 128 27 28 33 11 11 12 0 156
500 257 76 51 63 17 15 18 3 299
1000 514 105 143 147 35 26 25 5 582
2000 1016 231 258 264 65 61 85 20 1235

- 35 -
3000 1599 369 351 380 84 106 91 20 1722
4000 2110 483 488 511 119 117 136 36 2334
5000 2540 615 655 648 176 155 178 33 3035
6000 3084 748 774 750 216 183 180 65 3625
7000 3507 899 897 970 202 231 235 59 4279
8000 4071 1016 1023 1075 247 241 253 74 4818
9000 4582 1146 1166 1176 296 270 288 76 5424
10000 5091 1269 1274 1308 336 318 332 72 6039

Tabla 1.3.4a
1.3 Modelo Binomial
1.3 Modelo Binomial

La tabla siguiente se obtiene a partir de la Tabla 1.3.4a de la siguiente forma:

Columna uno se obtiene al dividir columna 2 con columna 1 de la Tabla 1.3.4a, la


llamaremos frecuencia relativa del resultado (F, F, F ) y se anotará f(F,F,F ) . Análogas
interpretaciones tienen el resto de las columnas de la Tabla 1.3.4b.

Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia


relativa de relativa de relativa de relativa de relativa de relativa de relativa de relativa de relativa del
(F, F, F ) (E, F, F ) (F, E, F ) (F, F, E) (E, E, F ) (E, F, E) (F, E, E) (E, E, E) No total de
éxitos
f(F,F,F ) f(E,F,F ) f(F,E,F ) f(F,F,E) f(E,E,F ) f(E,F,E) f(F,E,E) f(E,E,E) e3
0.6 0.3 0.1 0 0 0 0 0 0.4
0.6 0.08 0.1 0.1 0.02 0.04 0.06 0 0.52
0.46 0.18 0.17 0.08 0.03 0.02 0.05 0.01 0.66
0.512 0.108 0.112 0.132 0.044 0.044 0.048 0 0.624
0.514 0.152 0.102 0.126 0.034 0.030 0.036 0.006 0.598
0.514 0.105 0.143 0.147 0.035 0.026 0.025 0.005 0.582
0.508 0.116 0.129 0.132 0.033 0.031 0.043 0.010 0.618
0.533 0.123 0.117 0.127 0.028 0.035 0.030 0.007 0.574
0.528 0.121 0.122 0.128 0.030 0.030 0.034 0.009 0.584
0.508 0.123 0.131 0.130 0.035 0.031 0.036 0.007 0.607
0.514 0.125 0.129 0.125 0.036 0.031 0.030 0.011 0.604
0.501 0.128 0.128 0.139 0.029 0.033 0.034 0.008 0.611
0.509 0.127 0.128 0.134 0.031 0.030 0.032 0.009 0.602
0.509 0.127 0.130 0.131 0.033 0.030 0.032 0.008 0.603
0.509 0.127 0.127 0.131 0.034 0.032 0.033 0.007 0.604

Tabla 1.3.4b

Las gráficas siguientes muestran el número de veces que se extraen 3 pelotitas versus
f(F,F,F ) (respectivamente f(E,F,F ) , f(E,E,F ) , f(E,E,E) y e3 ).

f(F,F,F )
1

....
...
... ..
0.512 ... .................................................................................................. .......................................................................................................................................................................................................................................................
.....

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de veces que se
extraen 3 pelotitas

Figura 1.3.8

- 36 -
1.3 Modelo Binomial

f(E,F,F )
1

...
...
...
...
......
........ ............
0.128 ..... ....... ...........................................................................................................................................................................................................................................................................................................................................
..

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de veces que se
extraen 3 pelotitas

Figura 1.3.9

f(E,E,F )
1

.
0.032 ................................................................................................................................................................................................................................................................................................................................................................
..
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de veces que se
extraen 3 pelotitas

Figura 1.3.10

- 37 -
1.3 Modelo Binomial

f(E,E,E)
1

.............
0.008 ............................................................................................................................................................................................................... .......................................................................................................................................

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de veces que se
extraen 3 pelotitas

Figura 1.3.11

e3
1

....
.. ....
.. ............................................................................................... ............................................................................................................................................................................................
0.6 ... ................................................................
.
...
.
..
..
...
.

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de veces que se
extraen 3 pelotitas

Figura 1.3.12

Las gráficas asociadas a f(F,E,F ) y f(F,F,E) son similares a la Figura 1.3.9 y las gráficas
asociadas a f(E,F,E) y f(F,E,E) son similares a la Figura 1.3.10.
Cabe señalar que los únicos resultados posibles al extraer 3 pelotitas (con reposición)
desde la bolsa son: (F, F, F ), (E, F, F ), (F, E, F ), (F, F, E), (E, E, F ), (E, F, E), (F, E, E)
y (E, E, E), que provienen de las siguientes 125 posibilidades.

- 38 -
1.3 Modelo Binomial

1a extracción 2a extracción 3a extracción

amarillo
azul
amarillo rosado
rojo
verde

amarillo
azul
azul rosado
rojo
verde

amarillo
azul
Amarillo rosado rosado
rojo
verde

amarillo
azul
rojo rosado
rojo
verde

amarillo
azul
verde rosado
rojo
verde

1a extracción 2a extracción 3a extracción

amarillo
azul
amarillo rosado
rojo
verde

amarillo
azul
azul rosado
rojo
verde

amarillo
azul
Azul rosado rosado
rojo
verde

amarillo
azul
rojo rosado
rojo
verde

amarillo
azul
verde rosado
rojo
verde

- 39 -
1.3 Modelo Binomial

Estos dos diagramas generan 50 posibilidades. Otros tres diagramas similares (que se
obtienen colocando en la primera extracción los colores Rosado, Rojo y Verde, respectiva-
mente) generan las otras 75 posibilidades.

Sin embargo, el espacio muestral para este experimento resulta contener sólo 8 elemen-
tos,

Ω = {(F, F, F ), (E, F, F ), (F, E, F ), (F, F, E), (E, E, F ), (E, F, E), (F, E, E), (E, E, E)}.

La Tabla 1.3.4b sugiere la siguiente definición de probabilidad para cada uno de los
sucesos elementales que componen Ω.

P ({(F, F, F )}) = 0.512 P ({(E, F, F )}) = 0.128

P ({(F, E, F )}) = 0.128 P ({(F, F, E)}) = 0.128

P ({(E, E, F )}) = 0.032 P ({(E, F, E)}) = 0.032

P ({(F, E, E)}) = 0.032 P ({(E, E, E)}) = 0.008 .


Otra vez, según este modelo de probabilidades, los sucesos elementales no son equipro-
bables.
En general, si A es un suceso cualquiera, esto es, un subconjunto (no vacı́o) de Ω,
definimos P (A) a través de la relación

P (A) = P ({a}) .
a∈A

Por ejemplo, A = {(F, F, F ), (E, F, F ), (F, E, F ), (F, F, E)}, representa el suceso de


que en las tres extracciones no salió la pelotita roja, o bien, en sólo una de las tres
extracciones salió la pelotita roja. Entonces,

P (A) = P ({(F, F, F )}) + P ({(E, F, F )}) + P ({(F, E, F )}) + P ({(F, F, E)})

= 0.512 + 0.128 + 0.128 + 0.128

= 0.896 .

Es decir, este modelo asigna probabilidad 0.896 al suceso A. Observando la Tabla


1.3.4b, vemos que la frecuencia relativa del conjunto A (cuando el número de repeticiones
es “grande”), es similar a la probabilidad que le asigna este modelo al conjunto A.
El siguiente árbol muestra los resultados posibles que contiene Ω.

- 40 -
1.3 Modelo Binomial

F
F
E
F
F
E
E

F
F
E
E
F
E
E
1a extracción 2a extracción 3a extracción

El árbol anterior tiene 8 ramas, observándose que


1 vez ocurre la rama con tres fracasos y cero éxito,
3 veces ocurre la rama con dos fracasos y un éxito,
3 veces ocurre la rama con un fracaso y dos éxitos,
1 vez ocurre la rama con tres éxitos y cero fracaso.

La clasificación de las ramas descrita más arriba, puede escribirse, en forma horizontal,
como la siguiente secuencia de números

1 3 3 1.

Usando el modelo equiprobable vemos que la probabilidad de que ocurra éxito en la


primera extracción es 51 (hay un caso favorable, que corresponde a la pelotita roja y hay
5 casos totales, que corresponden al total de pelotitas en la bolsa). Como las extracciones
son con reposición, la probabilidad de éxito tanto en la segunda extracción como en la
tercera es la misma que en la primera extracción. Es decir, la probabilidad de éxito en la
segunda extracción es 51 y la probabilidad de éxito en la tercera extracción también es 51 .
El siguiente diagrama muestra las probabilidades de los sucesos elementales como dia-
grama de árbol.

- 41 -
1.3 Modelo Binomial

4 4 4 4 64
· · = 125
5 5 5 5

4
5

1 4 4 1 16
· · = 125
5 5 5 5

4
5

4 4 1 4 16
· · = 125
5 5 5 5

1
5

1 4 1 1 4
· · = 125
5 5 5 5

4 1 4 4 16
· · = 125
5 5 5 5

4
5

1 1 4 1 4
· · = 125
5 5 5 5

1
5

4 1 1 4 4
· · = 125
5 5 5 5

1
5

1 1 1 1 1
· · = 125
5 5 5 5

1a extracción 2a extracción 3a extracción

Resumiendo:
Sólo en una rama del árbol anterior ocurren tres fracasos y cero éxito, y esta rama tiene
64
probabilidad 125 = 0.512.
En tres ramas ocurren dos fracasos y un éxito, y cada rama tiene la misma probabilidad,
16
ésta es 125 = 0.128.
En tres ramas ocurre un fracaso y dos éxitos, y cada rama tiene la misma probabilidad,
4
ésta es 125 = 0.032.
1
Sólo en una rama ocurre 0 fracaso y tres éxitos, y esta rama tiene probabilidad 125 = 0.008.

- 42 -
1.3 Modelo Binomial

Ahora, al igual que en los experimentos anteriores de esta sección, mostramos una
forma alternativa de escribir las probabilidades
(4 de
) cada suceso elemental como producto,
el cual contenga potencias de 5 y 5 5 = 1 − 5 ,
1 4 1

( )0 ( )3
1 4
P ({(F, F, F )}) = 0.512 =
5 5
( )1 ( )2
1 4
P ({(E, F, F )}) = 0.128 =
5 5
( )1 ( )2
1 4
P ({(F, E, F )}) = 0.128 =
5 5
( )1 ( )2
1 4
P ({(F, F, E)}) = 0.128 =
5 5
( )2 ( )1
1 4
P ({(E, E, F )}) = 0.032 =
5 5
( )2 ( )1
1 4
P ({(E, F, E)}) = 0.032 =
5 5
( )2 ( )1
1 4
P ({(F, E, E)}) = 0.032 =
5 5
( )3 ( )0
1 4
P ({(E, E, E)}) = 0.008 = .
5 5

Si denotamos por Ak al suceso que ocurran exactamente k-éxitos al extraer tres pelotitas
desde la bolsa con 5 (cada extracción es con reposición), entonces:

A0 = {(F, F, F )} A1 = {(E, F, F ), (F, E, F ), (F, F, E)}

A2 = {(E, E, F ), (E, F, E), (F, E, E)} A3 = {(E, E, E)},

y además, se verifica que Ω es la unión disjunta de los sucesos A0 , A1 , A2 y A3 , esto es,

Ω = A0 ∪ A1 ∪ A2 ∪ A3 .

También, este modelo asigna las siguientes probabilidades a los sucesos Ak , para cada
k ∈ {0, 1, 2, 3}:

- 43 -
1.3 Modelo Binomial

( )0 ( )3
1 4
P (A0 ) =
5 5
( )1 ( )2 ( )1 ( )2 ( )1 ( )2 ( )1 ( )2
1 4 1 4 1 4 1 4
P (A1 ) = + + =3
5 5 5 5 5 5 5 5
( )2 ( )1 ( )2 ( )1 ( )2 ( )1 ( )2 ( )1
1 4 1 4 1 4 1 4
P (A2 ) = + + =3
5 5 5 5 5 5 5 5
( )3 ( )0
1 4
P (A3 ) = .
5 5

Pero,
( ) ( ) ( ) ( )
3 3 3 3
=1 ; =3 ; =3 ; =1
0 1 2 3

o sea, P (Ak ) puede ser escrito en la forma

( ) ( )k ( )
3 1 1 3−k
P (Ak ) = 1− , k ∈ {0, 1, 2, 3}
k 5 5
( ) [ ] n◦
n◦ de pelotitas extraı́das de éxitos
= · enprobabilidad de éxito
cualquier extracción
n◦ de éxitos

[ ] 3 - n◦ de éxitos
probabilidad de éxito
· 1− en cualquier extracción

Observación 1.3.3: Notemos que

0 · P (A0 ) + 1 · P (A1 ) + 2 · P (A2 ) + 3 · P (A3 ) = 0 + 0.384 + 0.192 + 0.024

= 0.6

1
= 3·
5
[ ] [ ]
n◦ de pelotitas probabilidad de éxito
= extraı́das · en cualquier extracción .

Este valor lo definimos como E3 , esto es, E3 = 3 · 51 . Entonces, observando la última


columna de la Tabla 1.3.4b, vemos que si el número de repeticiones es “grande”, la fre-
cuencia relativa del número total de éxitos es aproximadamente igual a E3 . Esto es, E3
es un modelo matemático para el promedio de pelotitas rojas que se obtienen al extraer 3
desde la bolsa con 5 (promedio de éxitos).

- 44 -
1.3 Modelo Binomial

Observación 1.3.4: Por el Teorema del Binomio, vemos también que


(( ) )
1 1 3
1= 1− +
5 5
( ) ( ) ( ) ( ) ( ) ( )3
1 3 1 2 1 1 1 1 1 2 1
= 1− +3 1− +3 1− +
5 5 5 5 5 5

= P (A0 ) + P (A1 ) + P (A2 ) + P (A3 ).

¿Qué elementos se repiten en los tres experimentos de esta sección?

a) En cada uno de ellos se realiza un cierto “ensayo” cuyos resultados dependen del
azar.
En los Experimentos 1 y 2 el “ensayo” consiste en lanzar el dado, mientras en el
Experimento 3 el “ensayo” significa extraer una pelotita de la bolsa.

b) Un resultado del “ensayo” representa una determinada caracterı́stica. Si la realiza-


ción de un ensayo da como resultado la caracterı́stica, se dice que ocurrió éxito, en
caso contrario se dice que ocurrió fracaso.
En los Experimentos 1 y 2 la caracterı́stica es que el dado muestre un número primo,
mientras en el Experimento 3, la caracterı́stica es que la pelotita extraı́da sea roja.

c) Se repite n veces el “ensayo”. Cada repetición del “ensayo” se llama intento.


En el Experimento 1 el “ensayo” se intenta 1 vez (se lanza un dado). En el Expe-
rimento 2 el “ensayo” se intenta 2 veces (se lanzan 2 dados, se lanza uno y luego el
otro). En el Experimento 3 el “ensayo” se intenta 3 veces (en 3 ocasiones se extrae
una pelotita de la bolsa).

d) Los ensayos son independientes, esto es, el resultado de un “ensayo” no tiene influ-
encia alguna en el resultado de cualquier otro “ensayo”.
En el Experimento 2, el resultado del lanzamiento del dado 1 no tiene ninguna
relación con el resultado del lanzamiento del dado 2. En el Experimento 3, la pelotita
que se saca en cualquiera de las 3 extracciones, no influye (debido a que la pelotita se
repone en la bolsa) en la pelotita que se sacará en cualquiera de las otras extracciones.

e) La probabilidad de obtener éxito, digamos p, en cualquiera de los “ensayos” es


siempre la misma.
En el Experimento 2, la probabilidad de obtener éxito (número primo) en el dado 1
es 23 y la probabilidad de obtener éxito en el dado 2 también es 23 . En el Experimento
3, la probabilidad de obtener éxito (sacar la pelotita roja) en la primera extracción
es 15 y la probabilidad de obtener éxito en la segunda o tercera extracción también
es 15 (debido a que la pelotita escogida se regresa a la bolsa).

- 45 -
1.3 Modelo Binomial

Los experimentos que poseen las caracterı́sticas a), b), c), d) y e) se dice que
siguen un Esquema Bernoulli de parámetros (n, p).
f ) Existe un número finito de resultados (digamos r) posibles del experimento. Cada
resultado lo llamamos suceso elemental y la unión de todos los sucesos elementales
es el espacio muestral Ω.
En el Experimento 1, r = 2, en el Experimento 2, r = 4 = 22 y en el Experimento
3, r = 8 = 23 .
g) Los sucesos elementales son vectores con n componentes (n es el número de intentos
del “ensayo”) y cada componente es una F (fracaso) o una E (éxito).
En el Experimento 1 los sucesos elementales fueron F y E, en el Experimento 2 los
sucesos elementales eran {(F, F )}, {(F, E)}, {(E, F )}, {(E, E)} y en el Experimento
3 los sucesos elementales eran {(F, F, F )}, {(E, F, F )}, {(F, E, F )}, {(F, F, E)},
{(E, E, F )}, {(E, F, E)}, {(F, E, E)}, {(E, E, E)}.
h) La probabilidad de cada suceso elemental depende del número de éxitos (E) que
tenga este.
i) Todo suceso A, es la unión de m sucesos elementales, donde m ≤ r.

Definición 1.3.1: Sea n natural, Ω = {(x1 , . . . , xn ) : xi ∈ {0, 1}} y p número


real tal que 0 < p < 1.
Si A = {(x1 , . . . , xn )} es suceso elemental, se define la probabilidad de A
como
P (A) = P ({(x1 , . . . , xn )})

= px1 +···+xn (1 − p)n−(x1 +···+xn ) .


Claramente los sucesos elementales no son equiprobables, ya que dependerán
de la suma x1 + · · · + xn . Además, x1 + · · · + xn , representa el número de
éxitos que aparecen en el vector (x1 , . . . , xn ) y n−(x1 +· · ·+xn ) corresponde
al número de fracasos en dicho vector.
En general, si A ⊂ Ω, se define
∑

 P ({a}) si A ̸= ϕ

a∈A
P (A) =



0 si A = ϕ

Al par (Ω, P ), se le conoce como Modelo de Probabilidades Binomial.

En los experimentos previos, podemos identificar el cero con la letra F y el uno a la letra
E. Por ejemplo, en el Experimento 3,
Ω = {(x1 , x2 , x3 ) : xi ∈ {0, 1}}

= {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1)} .

- 46 -
1.3 Modelo Binomial

También, en este ejemplo, el valor de p es 1


5 y si A = {(1, 0, 1)}, entonces

P (A) = px1 +x2 +x3 (1 − p)3−(x1 +x2 +x3 )


( )1+0+1 ( )
1 1 3−(1+0+1)
= 1−
5 5
( )2 ( )1
1 4
=
5 5

= 0.032.

Si deseamos calcular la probabilidad del suceso que ocurran exactamente k-éxitos al


intentar n veces el “ensayo” (a este suceso lo anotamos Ak ), el Experimento 2 y el Expe-
rimento 3 nos hacen conjeturar que P (Ak ) deberı́a ser igual a
( )
n k
P (Ak ) = p (1 − p)n−k , k ∈ {0, 1, . . . , n}
k
( )
n◦ de ensayos ◦ ◦ de ensayos − n◦ de éxitos
= pn de éxitos
(1 − p) n .
n◦ de éxitos

En efecto, Ak es la unión de todos los sucesos elementales (x1 , . . . , xn ), que satisfacen


la condición que tengan k unos (k -éxitos) y n − k ceros. O sea, en cada uno de estos
vectores pertenecientes a Ak resulta que x1 + · · · + xn = k. Por lo tanto, la probabilidad
de cada uno de los sucesos elementales que componen Ak es igual a

px1 +···+xn (1 − p)n−(x1 +···+xn ) = pk (1 − p)n−k ,

es decir, todos los sucesos elementales de Ak tienen igual probabilidad.

¿Cuántos sucesos elementales conforman Ak ?


El número de sucesos elementales que conforman Ak es igual al número de permuta-
( )
ciones que pueden realizarse con k unos y n − k ceros. Este valor corresponde a nk .
Ası́,

P (Ak ) = pk (1 − p)n−k + pk (1 − p)n−k + · · · + pk (1 − p)n−k


| {z }
(nk) veces

( )
n k
= p (1 − p)n−k . (∗)
k

Por ejemplo, si el número de “ensayos” es 4, esto es n = 4, y la probabilidad de éxito


en cualquiera de los ensayos es p, 0 < p < 1, entonces

- 47 -
1.3 Modelo Binomial

Ω = {(x1 , x2 , x3 , x4 ) ; xi ∈ {0, 1}}

= {(0, 0, 0, 0), (1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0), (0, 0, 0, 1), (1, 1, 0, 0), (1, 0, 1, 0),

(1, 0, 0, 1), (0, 1, 1, 0), (0, 1, 0, 1), (0, 0, 1, 1), (1, 1, 1, 0), (1, 0, 1, 1), (1, 1, 0, 1),

(0, 1, 1, 1), (1, 1, 1, 1)},

#Ω = 16 = 24 .
( )
4
A0 = {(0, 0, 0, 0)} ; #A0 = 1 =
0
( )
4
A1 = {(1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0), (0, 0, 0, 1)} ; #A1 = 4 =
1

A2 = {(1, 1, 0, 0), (1, 0, 1, 0), (1, 0, 0, 1), (0, 1, 1, 0),


( )
4
(0, 1, 0, 1), (0, 0, 1, 1)} ; #A2 = 6 =
2
( )
4
A3 = {(1, 1, 1, 0), (1, 0, 1, 1), (1, 1, 0, 1), (0, 1, 1, 1)} ; #A3 = 4 =
3
( )
4
A4 = {(1, 1, 1, 1)} ; #A4 = 1 =
4

Ω= A0 ∪ A1 ∪ A2 ∪ A3 ∪ A4 .
Ası́ por ejemplo, en A3 todos los sucesos elementales tienen tres unos (3 éxitos) y un cero
(1 fracaso), esto debido a que 4 − 3 = 1. Además, la suma de los xi es siempre igual a 3,
o sea, k = 3. Luego,

P (A3 ) = p3 (1 − p)1 + p3 (1 − p)1 + p3 (1 − p)1 + p3 (1 − p)1


| {z }
(43) veces
= 4p3 (1 − p)1 .

- 48 -
1.3 Modelo Binomial

Algunas propiedades que se desprenden de la definición del Modelo Binomial

i) Si A ∩ B = ∅, entonces P (A ∪ B) = P (A) + P (B).


Esta propiedad es inmediata de la definición, ya que

P (A ∪ B) = P ({c})
c∈(A∪B)

∑ ∑
= P ({c}) + P ({c})
c∈A c∈B

= P (A) + P (B).

ii) P (Ω) = 1.
En efecto, Ω es la unión disjunta de los sucesos Ak , esto es,

Ω = A0 ∪ A1 ∪ . . . ∪ An .

Luego, desde i),

P (Ω) = P (A0 ) + P (A1 ) + · · · + P (An )


( ) ( ) ( )
n 0 n 1 n n
= p (1 − p)n−0 + p (1 − p)n−1 + · · · + p (1 − p)n−n .
0 1 n

Pero, esta última expresión corresponde exactamente al desarrollo del binomio


(p + (1 − p))n , por lo que

P (Ω) = (p + (1 − p))n
= 1n
= 1.

iii) Para todo suceso A, 0 ≤ P (A) ≤ 1.


Esta propiedad resulta desde que la probabilidad de cada suceso elemental es un
valor mayor que cero y menor que uno. Por lo que
∑ ∑ ∑
P (A) = P ({a}) ≤ P ({a}) + P ({a})
a∈A a∈A a∈Ac

= P (A) + P (Ac ) .

Pero, Ω es la unión disjunta de A con Ac , entonces de i) y ii) resulta que


1 = P (A ∪ Ac ) = P (A) + P (Ac ). En consecuencia,

0 ≤ P (A) ≤ 1 .

- 49 -
1.3 Modelo Binomial

iv) Para todo suceso A, P (Ac ) = 1 − P (A).


Este resultado es inmediato de la relación

1 = P (Ω) = P (A) + P (Ac ).

v) Si A ⊂ B, entonces P (A) ≤ P (B).


En efecto, como B = A ∪ (Ac ∩ B),
∑ ∑ ∑
P (B) = P ({b}) = P ({b}) + P ({b})
b∈B b∈A b∈(Ac ∩B)


≥ P ({b})
b∈A

= P (A) .

Nota: Los Experimentos 2 y 3 de esta sección nos permiten conjeturar que el valor En ,
definido por
En = 0 · P (A0 ) + 1 · P (A1 ) + · · · + n · P (An )
( ) ( ) ( )
n 0 n 1 n n
= 0 p (1 − p)n + 1 p (1 − p)n−1 + · · · + n p (1 − p)0 ,
0 1 n

deberı́a ser igual a np, esto es,


En = n p .
Efectivamente, este resultado es válido y su verificación se basa en el desarrollo del binomio
(1 + (1 − p))n−1 .

Ejemplo 1.3.1: Se lanza 3 veces un dado normal. Deseamos calcular la probabilidad de


que sólo en dos ocasiones la cara del dado muestre un número que sea mayor que 4.

Primera solución.
Usamos el modelo binomial con:
• ensayo : lanzar un dado
• éxito : la cara del dado muestra un número mayor que 4
• ◦
n de intentos : n=3
• probabilidad de éxito : p = 26 = 13
En este caso

Ω = {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1)}

y el suceso que representa el hecho que sólo en dos ocasiones la cara del dado muestre un
número que sea mayor que 4 es

A = {(1, 1, 0), (1, 0, 1), (0, 1, 1)} .

- 50 -
1.3 Modelo Binomial

Recordemos nuevamente que 0 simboliza fracaso y 1 éxito, es decir, en este caso 0


simboliza que la cara del dado muestra un número menor que 5 y 1 simboliza que la cara
del dado es un número mayor que 4.
Por lo tanto, según el modelo binomial,

( )1+1+0 ( ) ( )1+0+1 ( )
1 1 3−(1+1+0) 1 1 3−(1+0+1)
P (A) = 1− + 1−
3 3 3 3
( )0+1+1 ( )
1 1 3−(0+1+1)
+ 1−
3 3
( )2 ( )1
1 2
= 3
3 3

2
= .
9

Segunda solución.
Usamos el modelo equiprobable con

Ω = {(a, b, c) : a, b, c ∈ {1, 2, 3, 4, 5, 6}} .

La primera componente de cada trio representa el número que apareció en el primer


lanzamiento del dado, la segunda componente representa el número que apareció en el
segundo lanzamiento, y la tercera componente el número que muestra el tercer lanzamiento.
En la tabla siguiente se observan los 216 trios que contiene Ω. Cada celda corresponde
a un trio.

111 112 113 114 115 116 121 122 123 124 125 126 131 132 133
134 135 136 141 142 143 144 145 146 151 152 153 154 155 156
161 162 163 164 165 166 211 212 213 214 215 216 221 222 223
224 225 226 231 232 233 234 235 236 241 242 243 244 245 246
251 252 253 254 255 256 261 262 263 264 265 266 311 312 313
314 315 316 321 322 323 324 325 326 331 332 333 334 335 336
341 342 343 344 345 346 351 352 353 354 355 356 361 362 363
364 365 366 411 412 413 414 415 416 421 422 423 424 425 426
431 432 433 434 435 436 441 442 443 444 445 446 451 452 453
454 455 456 461 462 463 464 465 466 511 512 513 514 515 516
521 522 523 524 525 526 531 532 533 534 535 536 541 542 543
544 545 546 551 552 553 554 555 556 561 562 563 564 565 566
611 612 613 614 615 616 621 622 623 624 625 626 631 632 633
634 635 636 641 642 643 644 645 646 651 652 653 654 655 656
661 662 663 664 665 666

Tabla 1.3.5

- 51 -
1.3 Modelo Binomial

Además, cada trio (es decir, cada suceso elemental) es igualmente probable (lo que
puede verificarse experimentalmente, lanzando “muchas” veces tres dados y calculando las
frecuencias relativas de cada resultado). Por esta razón usamos el modelo de Laplace para
calcular la probabilidad de cualquier suceso, esto es, cualquier subconjunto de Ω.
En consecuencia, si A ⊂ Ω, entonces
#A
P (A) =
#Ω

#A
= .
216
En este modelo, ¿cuál es el conjunto A que representa el suceso que sólo en dos lan-
zamientos del dado la cara de éste muestra un número mayor que 4? Las siguientes 48
celdas, que muestra la tabla siguiente, forman el conjunto A.

155 156 165 166 255 256 265 266


355 356 365 366 455 456 465 466
515 516 525 526 535 536 545 546
551 552 553 554 561 562 563 564
615 616 625 626 635 636 645 646
651 652 653 654 661 662 663 664

Tabla 1.3.6
48 2
Por lo tanto, según el modelo de Laplace, P (A) = = .
216 9
En resumen

• Ω = {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1)


(1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1)}

• #Ω = 8
¡ 1 ¢x1 +x2 +x3 ¡ 1 3−(x1 +x2 +x3 )
¢
• P ({(x1 , x2 , x3 )}) = 1−
Según Modelo 3 3
Binomial
• Suceso que se desea calcular su probabilidad
A = {(1, 1, 0), (1, 0, 1), (0, 1, 1)}

• #A = 3
¡ 1 ¢2 ¡ 2 ¢1 2
• P (A) = 3 3 3
= 9
Solución del
problema
planteado
• Ω = {(a, b, c) : a, b, c ∈ {1, 2, 3, 4, 5, 6}}

• #Ω = 216

1
• P ({(a, b, c)}) = 216
Según Modelo
de Laplace • Suceso que se desea calcular su probabilidad
A = {todos los trios de la Tabla 1.3.6}

• #A = 48

48 2
• P (A) = 216
= 9

- 52 -
1.3 Modelo Binomial

Observación 1.3.5: Es común que el modelo binomial sea descrito en términos de


una variable cuantitativa discreta (este tipo de variable la estudiaremos en el Capı́tulo 2,
Sección 1), que en lenguaje de probabilidades se conoce como variable aleatoria discreta.
La forma de enunciar el modelo binomial es la siguiente:
Sea X variable aleatoria discreta, n entero positivo y p un valor entre 0 y 1.
Se dice que la variable aleatoria X tiene distribución binomial de parámetros (n, p), se
anota X ∼ B(n, p), si para todo k ∈ {0, 1, . . . , n}, la probabilidad de que X asuma el
valor k es igual a P (Ak ), con P dada por el modelo binomial y Ak el suceso de que ocurran
exactamente k éxitos.
Es común anotar P (X = k), a la probabilidad de que X asuma el valor k, por lo tanto,
X ∼ B(n, p) si, para todo k ∈ {0, 1, . . . , n},

P (X = k) = P (Ak )
( )
n k
= p (1 − p)n−k .
k
En general, si A es subconjunto de R, entonces∑la probabilidad de que X pertenezca al
conjunto A, que se anota P (X ∈ A), es igual a k∈A∩{0,1,...,n} P (Ak ), esto es,

P (X ∈ A) = P (Ak ).
k∈A∩{0,1,...,n}

Notar que si X ∼ B(n, p), entonces X cuenta el número de éxitos que ocurren en un
esquema Bernoulli de parámetros (n, p).

Comentario Histórico: Jacob Bernoulli nació el 6 de enero de 1655 en Basilea, Suiza.


Fue el primero de toda una familia de matemáticos suizos, Jacob Bernoulli era hermano
de Johann Bernoulli y tı́o de Daniel Bernoulli. La historia de la familia Bernoulli está
plagada de historias de disputas entre hermanos, originadas en problemas matemáticos.
Su familia lo obligó a estudiar teologı́a, obteniendo un grado de Teologı́a de Basilea en el
año 1676. Pero se interesó en las Matemáticas a pesar de la oposición de su padre.
Rechazando una nominación en la Iglesia, aceptó una cátedra de Matemáticas en la
Universidad de Basilea en 1687, gracias a sus conocimientos de los trabajos de Wa-
llis, Barrow, Descartes, Leibniz, que le permitirı́a luego comenzar con su producción ori-
ginal.
En una disputa matemática con su hermano Johann, inventó el cálculo de las varia-
ciones, por lo que su nombre está ligado a la introducción de los primeros principios del
Cálculo de Variaciones.
También fueron fundamentales sus contribuciones al desarrollo de la Combinatoria y
fue el primero en usar el término integral en el año 1690. Utilizó tempranamente las
coordenadas polares y descubrió el isócrono, la curva que se forma al caer verticalmente
un cuerpo con velocidad uniforme.
En una primera etapa se dedicó a aplicar el naciente cálculo diferencial e integral a
problemas de ingenierı́a. El trabajo más importante de Bernoulli, “Ars Conjectandi” (El
Arte de conjeturar), contiene su teorı́a de las permutaciones y el inicio de la combinatoria,

- 53 -
1.3 Modelo Binomial

la serie exponencial y los llamados hoy “números de Bernoulli”. Incluye también el tema
de las probabilidades y el descubrimiento de la primera ley del azar: la Ley de los Grandes
Números en su versión débil. Esta obra fue publicada en forma póstuma en 1713.
Bernoulli falleció en Basilea el 16 de Agosto de 1655.

- 54 -
1.3 Modelo Binomial

PROBLEMAS
Problema 1.3.A: Chevalier de Meré, jugador del siglo XVII, creı́a que los dos siguientes
casos eran igualmente probables.

Caso I: Le saldrı́a el 6 cuando menos una vez al echar el dado 4 veces.


Caso II: La suma de las caras serı́a 12, cuando menos una vez, al echar dos dados 24
veces.

¿Tendrı́a razón Chevalier de Meré?

Problema 1.3.B: Una prueba de selección múltiple contiene 50 preguntas y, en cada una
de ellas se debe elegir entre tres respuestas a), b), c) (sólo una es la correcta). Suponga
que el estudiante responde todas las preguntas al azar, por ejemplo, tiene una bolsa con
a) , b) , c)
tres fichas idénticas, marcadas , y para responder cada pregunta escoge una
de las tres fichas y responde la alternativa que le indica la ficha. Calcule la probabilidad
de que obtenga entre 10 y 16 respuestas correctas, ambos extremos incluidos.

Problema 1.3.C: Se construyen dos versiones de un calefactor eléctrico, uno con cuatro
componentes de calor y otro con dos componentes de calor. Las componentes de calor
actúan en forma independientes, es decir, el que funcione o no una componente de calor
no tiene incidencia en que funcione o no funcione cualquier otra componente.
Por datos históricos, se sabe que cualquiera de las componentes tiene probabilidad θ,
0 < θ < 1, de que falle. Los calefactores no funcionan si falla más de la mitad de sus
componentes.

a) Encuentre la probabilidad de que el calefactor de dos componentes funcione.

b) Encuentre la probabilidad de que el calefactor de cuatro componentes funcione.

c) ¿Qué valores de θ hacen igualmente fiables los dos calefactores?

- 55 -
1.4. MODELO GENERAL DE KOLMOGOROV

1.4 Modelo General de Kolmogorov

El Modelo de Probabilidades General, fue desarrollado en 1933 por el matemático ruso


A. Kolmogorov, quien definió este modelo mediante un sistema de axiomas. La idea con
la que l partió fue: si siempre se pudiera definir la probabilidad de un suceso como el
lı́mite de sus frecuencias relativas, es decir, si siempre se pudiera definir la probabilidad
de un suceso como lo hemos hecho en el modelo de Laplace y en el modelo Binomial, ¿qué
propiedades básicas tendrı́a que cumplir?
Tanto en el modelo de Laplace como en el Binomial, se cumplen, entre otras, las propiedades
siguientes:

a) La probabilidad de cualquier suceso es un número mayor o igual a cero y menor o


igual a 1.

b) La probabilidad de todo el espacio muestral es igual a uno.

c) La probabilidad de una unión disjunta de dos sucesos, es igual a la suma de las


probabilidades de cada suceso.
Algunas de estas propiedades básicas son las que se transforman en los axiomas que
debe cumplir un modelo general de probabilidades.

Definición 1.4.1: Sea Ω conjunto no vacı́o (lo llamaremos espacio muestral). Una
función P definida para todos los subconjuntos de Ω (a estos subconjuntos los llamaremos
sucesos) es una probabilidad si cumplen los axiomas siguientes:

i) Para todo A suceso, P (A) ≥ 0.

ii) P (Ω) = 1.

iii) Si A y B son sucesos disjuntos, es decir, A ∩ B = ∅, entonces

P (A ∪ B) = P (A) + P (B).

iv) Si A1 ⊆ A2 ⊆ A3 ⊆ · · · ⊆ An ⊆ An+1 ⊆ · · · es una sucesión infinita de sucesos


crecientes, entonces (∞ )

P An = lim P (An ).
n→∞
n=1

Una forma equivalente de enunciar este axioma es:

iv’) Si A1 ⊇ A2 ⊇ A3 ⊇ · · · ⊇ An ⊇ An+1 ⊇ · · · es una sucesión infinita de sucesos


decrecientes, entonces (∞ )

P An = lim P (An ).
n→∞
n=1

El axioma iv) o su equivalente iv’) es necesario por “razones técnicas”, ya que muchos
resultados importantes no podrı́an demostrarse sin el.

- 56 -
1.4 Modelo General de Kolmogorov

Al par (Ω, P ), donde Ω es un conjunto no vacı́o y P es una probabilidad sobre


los subconjuntos de Ω, se le llama Modelo de Probabilidades de Kolmogorov
(también conocido como Modelo de Probabilidades o Espacio de Probabilida-
des).

Ejemplo 1.4.1: Sea Ω el conjunto que muestra el gráfico siguiente.

0 a b x

Figura 1.4.1

Es decir, Ω = {(x, y) : a ≤ x ≤ b , c ≤ y ≤ d}.

Para cada A ⊂ Ω, se define P (A) como

área (A)
P (A) = .
área (Ω)

A partir de esta definición, es simple verificar que los axiomas i) - iii) se verifican. Es
decir, P es una probabilidad sobre los subconjuntos Ω, o dicho de otra forma, (Ω, P ) es un
Modelo de Probabilidades.
Por ejemplo, si A = {(x, y) ∈ Ω : a ≤ x ≤ b , y = b−a d−c
x − b−a
d−c
a + c} , es decir, A
representa la diagonal del rectángulo que muestra el gráfico siguiente.

A
c

a b x

Figura 1.4.2

- 57 -
1.4 Modelo General de Kolmogorov

entonces,

área (A)
P (A) =
área (Ω)

0
=
(b − a)(d − c)

= 0.

Observar que P (A) = 0, pero A ̸= ∅. Cabe señalar que en el Modelo de Laplace y en el


Modelo Binomial, P (A) = 0, si y sólo si A = ∅.

También, si A es el conjunto que muestra el gráfico siguiente

d
A

a a+b b x
2

Figura 1.4.3
b−a
entonces, el área de A, corresponde al área de un triángulo rectángulo de base 2 y
altura d − c. En consecuencia,
b−a
2 (d − c)
Área (A) = ,
2
por lo que

área (A)
P (A) =
área (Ω)
b−a
2
(d−c)
2
=
(b − a)(d − c)

1
= .
4

Observación 1.4.1: La siguiente tabla muestra, en un Diagrama de Venn, relaciones


entre conjuntos y su respectiva traducción a lenguaje de sucesos.

- 58 -
1.4 Modelo General de Kolmogorov

Diagrama de Venn Notación Lenguaje de Lenguaje de


Conjuntista Conjuntos Sucesos

Ω Conjunto Universal Espacio Muestral

A Subconjunto de Ω Suceso

∅ Conjunto vacı́o Suceso imposible


A

Ac Complemento de A No ocurre
el suceso A

A B
A∪B Unión de A y B Ocurre el suceso A
o el suceso B o ambos

A B
A∩B Intersección de A y B Ocurren ambos sucesos,
AyB

A B
A∩B =∅ A y B son disjuntos Los sucesos A
y B son mutuamente
excluyentes

- 59 -
1.4 Modelo General de Kolmogorov

Diagrama de Venn Notación Lenguaje de Lenguaje de


Conjuntista Conjuntos Sucesos

B
A⊆B A es subconjunto de B Si ocurre el suceso
A entonces ocurre
el suceso B

A B
A ∩ Bc = A \ B Diferencia de A y B Ocurre el suceso
A y no ocurre
el suceso B

A1
A2
A
A = A1 ∪ A2 Partición de A en A1
con y A2 . Por analogı́a,
A1 ∩ A2 = ∅ se obtiene una partición
de A en A1 , . . . , An

Tabla 1.4.1
La siguiente Proposición muestra algunas reglas generales que se desprenden de los
axiomas i)- iii) que definen un Modelo de Probabilidades cualquiera.
Para su verificación usaremos ilustraciones con el diagrama de Venn. En este diagrama
podemos imaginarnos la probabilidad como si estuviese definida por áreas relativas (al
estilo del Ejemplo 1.4.1).

Proposición 1.4.1: Sea (Ω, P ) modelo de probabilidades cualquiera


a) Regla del complemento: La probabilidad del complemento de A es

P (Ac ) = 1 − P (A).

En efecto, como Ω puede ser particionado entre A y Ac , esto es, Ω = A ∪ Ac con


A ∩ Ac = ∅,

A

Ac

Figura 1.4.4

- 60 -
1.4 Modelo General de Kolmogorov

entonces, de axiomas ii) y iii), 1 = P (A) + P (Ac ), por lo que

P (Ac ) = 1 − P (A).

Observar que si A = Ω, entonces Ac = ∅ y P (A) = 1. Luego, la regla del comple-


mento implica que 1 = 1 + P (∅), de donde P (∅) = 0.
También, por axioma i), P (Ac ) ≥ 0, es decir, 1 − P (A) ≥ 0, lo que implica
P (A) ≤ 1. En consecuencia,

0 ≤ P (A) ≤ 1.

b) Regla de la Diferencia: Si la ocurrencia de A implica la ocurrencia de B, esto


es, si A ⊂ B, entonces P (A) ≤ P (B). Además, la diferencia entre estas
probabilidades es igual la probabilidad que B ocurra y A no ocurra. Es decir,

P (B) − P (A) = P (Ac ∩ B).

Esta regla es consecuencia del hecho que B puede ser particionado en A y (B pero
no A), esto es, B = A ∪ (Ac ∩ B) y A ∩ (Ac ∩ B) = ∅.


B

Ac ∩B=B−A

Figura 1.4.5

Entonces, por axioma iii),

P (B) = P (A) + P (Ac ∩ B),

por lo que
P (B) − P (A) = P (Ac ∩ B).
Además, de axioma i), P (Ac ∩ B) ≥ 0, es decir, P (B) − P (A) ≥ 0. Esta última
expresión implica que P (A) ≤ P (B).

c) Regla de la Aditividad: Si B1 , B2 , . . . , Bn , forman una partición de B, entonces

P (B) = P (B1 ) + P (B2 ) + · · · + P (Bn ).

Esta regla, generaliza el axioma iii), para el caso de n sucesos (n ≥ 3).


Para el caso n = 3,
B = B1 ∪ B2 ∪ B3

- 61 -
1.4 Modelo General de Kolmogorov

y además, B1 ∩ B2 = ∅ , B1 ∩ B3 = ∅ , B2 ∩ B3 = ∅. Ası́,

(B1 ∪ B2 ) ∩ B3 = (B1 ∩ B3 ) ∪ (B2 ∩ B3 )


= ∅∪∅
= ∅.

Usando el axioma iii) con los sucesos (B1 ∪ B2 ) y B3 , se obtiene que

P (B) = P ((B1 ∪ B2 ) ∪ B3 )
= P (B1 ∪ B2 ) + P (B3 ).

Nuevamente usando axioma iii), pero ahora con los sucesos B1 y B2 , resulta
P (B1 ∪ B2 ) = P (B1 ) + P (B2 ). En consecuencia,

P (B) = (P (B1 ) + P (B2 )) + P (B3 )


= P (B1 ) + P (B2 ) + P (B3 ).

Inductivamente se obtiene el caso general, n > 3.

d) Regla de la Diferencia Generalizada: Si A y B son sucesos cualquiera, entonces

P (A ∩ B c ) = P (A) − P (A ∩ B)

y
P (Ac ∩ B) = P (B) − P (A ∩ B).
Esta regla generaliza la regla b), ya que en este caso no se pide que un suceso esté
incluido en el otro. En particular, si A ⊂ B, entonces A ∩ B = A, de donde
P (Ac ∩ B) = P (B) − P (A), que resulta ser la regla b).
Observando el diagrama de Venn, vemos que A ∩ B c y A ∩ B forman una partición
de A, esto es, (A ∩ B c ) ∩ (A ∩ B) = ∅ y A = (A ∩ B c ) ∪ (A ∩ B).

A∩B
A∩B c

A B

Figura 1.4.6

Ası́, axioma iii) implica que

P (A) = P (A ∩ B c ) + P (A ∩ B),

de donde
P (A ∩ B c ) = P (A) − P (A ∩ B).

- 62 -
1.4 Modelo General de Kolmogorov

Similarmente, Ac ∩ B y A ∩ B forman una partición de B,

A∩B
Ac ∩B

A B

Figura 1.4.7

de donde
P (B) = P (Ac ∩ B) + P (A ∩ B),
o sea
P (Ac ∩ B) = P (B) − P (A ∩ B).
e) Regla de Inclusión - Exclusión:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Esta regla es una modificación del axioma iii), para el caso en que los sucesos A y
B tienen intersección no vacı́a. Observar que si A ∩ B = ∅, entonces P (A ∩ B) = 0,
por lo que esta regla se reduce al axioma iii).
Como lo muestra el diagrama siguiente, los conjuntos A ∩ B c , A ∩ B y Ac ∩ B
forman una partición de A ∪ B.

A∩B
A∩B c
Ac ∩B

A B

Figura 1.4.8

Por lo que, regla c) implica


P (A ∪ B) = P (A ∩ B c ) + P (A ∩ B) + P (Ac ∩ B).
Pero, como vimos en la regla d),
P (A ∩ B c ) = P (A) − P (A ∩ B) y P (Ac ∩ B) = P (B) − P (A ∩ B).
En consecuencia,
P (A) + P (B) = [P (A ∩ B c ) + P (A ∩ B)] + [P (Ac ∩ B) + P (A ∩ B)]
= [P (A ∩ B c ) + P (A ∩ B) + P (Ac ∩ B)] + P (A ∩ B)
= P (A ∪ B) + P (A ∩ B),
o sea,
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

- 63 -
1.4 Modelo General de Kolmogorov

Nota: Otras reglas que se cumplen en cualquier modelo de probabilidades (regla de


probabilidades totales y regla de Bayes) y que son de gran utilidad al momento de
hacer cálculos explı́citos, se desarrollarán en la Sección 5.

Ahora mostraremos algunos ejemplos en los cuales se aplican las reglas que hemos visto
recientemente.

Ejemplo 1.4.2: Sea (Ω, P ) modelo de probabilidades cualquiera. Supongamos que A y


B son sucesos tales que P (A) = 0.6, P (B) = 0.4 y P (A ∩ B) = 0.2. Entonces:

a)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
= 0.6 + 0.4 − 0.2
= 0.8.

b)

P (Ac ) = 1 − P (A)
= 1 − 0.6
= 0.4
y
P (B c ) = 1 − P (B)
= 1 − 0.4
= 0.6.

c) Como Ac ∩ B y A ∩ B forman una partición de B, entonces

P (B) = P (Ac ∩ B) + P (A ∩ B),

de donde
P (Ac ∩ B) = P (B) − P (A ∩ B)
= 0.4 − 0.2
= 0.2.

Un error que podrı́a cometerse en c), es ocupar la regla de la diferencia, esto es,

P (Ac ∩ B) = P (B) − P (A)


= 0.4 − 0.6
= −0.2.

Evidentemente este resultado es incorrecto ya que la probabilidad de cualquier suceso


es un número no negativo.
La razón por la cual no es posible usar la regla de la diferencia, es que no tenemos
la hipótesis de que A sea subconjunto de B.

- 64 -
1.4 Modelo General de Kolmogorov

#A
Por ejemplo, si Ω = {1, 2, 3, . . . , 10} y para D ⊂ Ω, definimos P (D) = #Ω (es
decir, (Ω, P ) es el modelo de Laplace), entonces

P (A) = 0.6 si A = {1, 2, 4, 8, 9, 10},

P (B) = 0.4 si B = {3, 4, 5, 9},

P (A ∩ B) = 0.2, pues A ∩ B = {4, 9}.

Pero, A no es subconjunto de B.

d) Por analogı́a con c),

P (A ∩ B c ) = P (A) − P (A ∩ B)
= 0.6 − 0.2
= 0.4,

de donde
P (A ∪ B c ) = P (A) + P (B c ) − P (A ∩ B c )
= 0.6 + 0.6 − 0.4
= 0.8.

e) Como Ac ∩ B c = (A ∪ B)c ,

A B

Ac ∩B c =(A∪B)c

Figura 1.4.9

entonces,
P (Ac ∩ B c ) = P ((A ∪ B)c )
= 1 − P (A ∪ B),
ahora usando a), se tiene que P (Ac ∩ B c ) = 1 − 0.8 = 0.2.

Ejemplo 1.4.3: Sean (Ω, P ) modelo de probabilidad cualquiera y A, B, C sucesos. En-


tonces, usando la regla de la inclusión - exclusión, para los sucesos (A ∪ B) y C, se obtiene
que
P (A ∪ B ∪ C) = P ((A ∪ B) ∪ C)
= P (A ∪ B) + P (C) − P ((A ∪ B) ∩ C)
= P (A ∪ B) + P (C) − P ((A ∩ C) ∪ (B ∩ C)).
Nuevamente por la regla e),

P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

- 65 -
1.4 Modelo General de Kolmogorov

y
P ((A ∩ C) ∪ (B ∩ C)) = P (A ∩ C) + P (B ∩ C) − P ((A ∩ C) ∩ (B ∩ C))
= P (A ∩ C) + P (B ∩ C) − P (A ∩ B ∩ C).
En consecuencia,

P (A ∪ B ∪ C) = [P (A) + P (B) − P (A ∩ B)] + P (C)


− [P (A ∩ C) + P (B ∩ C) − P (A ∩ B ∩ C)]

= P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C)


−P (B ∩ C) + P (A ∩ B ∩ C).

Ejemplo 1.4.4: Una “liguilla” final de basketball es disputada por 4 equipos: A, B, C


y D. Las estadı́sticas muestran que es 3 veces más probable que el equipo A le gane al B,
2 veces más probable que B le gane a C y 3 veces más probable que el equipo C le gane a
D. ¿Cuál es la probabilidad que tiene cada equipo de ganar la “liguilla”?
Indicaremos por Ω = {ω1 , ω2 , ω3 , ω4 }, el espacio muestral que consiste de los cuatro
posibles resultados del experimento, donde:

ω1 corresponde a que el equipo A gane la “liguilla”,

ω2 corresponde a que el equipo B gane la “liguilla”,

ω3 corresponde a que el equipo C gane la “liguilla”,

ω4 corresponde a que el equipo D gane la “liguilla”.

Sea P una probabilidad sobre los subconjuntos de Ω. Si denotamos por p a la probabi-


lidad de que el equipo D gane la “liguilla”, esto es P ({ω4 }) = p, entonces de los datos del
problema se tienen las siguientes relaciones:

P ({ω3 }) = 3p,

P ({ω2 }) = 2P ({ω3 }) = 6p,

P ({ω1 }) = 3P ({ω2 }) = 18p.

Por axioma ii), 1 = P (Ω), de donde

1 = P ({ω1 , ω2 , ω3 , ω4 }).

Usando ahora la regla de la aditividad, se obtiene que

1 = P ({ω1 }) + P ({ω2 }) + P ({ω3 }) + P ({ω4 })

= 18p + 6p + 3p + p

= 28p,

- 66 -
1.4 Modelo General de Kolmogorov

esto es,
1
p= .
28
En consecuencia,
18 6
P ({ω1 }) = , P ({ω2 }) = ,
28 28
3 1
P ({ω3 }) = , P ({ω4 }) = .
28 28

Ejemplo 1.4.5: Sea (Ω, P ) modelo de probabilidades. Supongamos que A y B son suce-
sos tales que P (A) = 23 y P (B) = 94 . Verifiquemos que las siguientes relaciones se
cumplen:

i) P (A ∪ B) ≥ 23 ,

ii) 2
9 ≤ P (A ∩ B c ) ≤ 59 ,

iii) 1
9 ≤ P (A ∩ B) ≤ 49 .

En efecto, como A ⊂ A ∪ B, entonces la regla de la diferencia implica que

2
= P (A) ≤ P (A ∪ B),
3
es decir, i) se satisface.
También, A ∩ B c ⊂ B c , por lo que nuevamente la regla de la diferencia implica que

P (A ∩ B c ) ≤ P (B c ),

pero, de la regla del complemento se obtiene que

P (B c ) = 1 − P (B)

4
= 1−
9
5
= ,
9
o sea,
5
P (A ∩ B c ) ≤ .
9
Por otra parte, por la regla de la diferencia generalizada,

P (A ∩ B c ) = P (A) − P (A ∩ B)

2
= − P (A ∩ B),
3

- 67 -
1.4 Modelo General de Kolmogorov

y como A ∩ B es subconjunto de B, entonces, la regla de la diferencia implica que


P (A ∩ B) ≤ P (B) = 94 . Es decir,

2
P (A ∩ B c ) = − P (A ∩ B)
3
2 4
≥ −
3 9
2
= .
9
En consecuencia,
2 5
≤ P (A ∩ B c ) ≤ ,
9 9
por lo que ii) también se satisface.

Finalmente, como A ∩ B ⊂ B , entonces P (A ∩ B) ≤ P (B) = 49 . Además,


P (Ac ∩ B) = P (B) − P (A ∩ B), de donde resulta que P (A ∩ B) = P (B) − P (Ac ∩ B).
Pero, Ac ∩ B ⊂ Ac , por lo que

P (Ac ∩ B) ≤ P (Ac )

= 1 − P (A)

2
= 1−
3
1
= ,
3
o sea,
P (A ∩ B) = P (B) − P (Ac ∩ B)

4
= − P (Ac ∩ B)
9
4 1
≥ −
9 3
1
= .
9
A partir de estas relaciones obtenemos que
1 4
≤ P (A ∩ B) ≤ ,
9 9
es decir, iii) se verifica.

- 68 -
1.4 Modelo General de Kolmogorov

Comentario Histórico: Andrei Nikolaievitch Kolmogorov nació en Tambov el 25 de


abril de 1903. Su padre era un agrónomo. Su madre murió al dar a luz y su educación
fue asumida por la hermana de su padre, Vera Yakovlevna, de quien se dice tenı́a ideas
avanzadas.
Los matemáticos del siglo XX se acostumbraron a encontrar su nombre en relación con
muchas teorı́as distintas, marcando siempre contribuciones fundamentales. La teorı́a de
series trigonométricas, la teorı́a de la medida, la teorı́a de conjuntos, la teorı́a de la integral,
la lógica constructiva, la topologı́a, la teorı́a de la aproximación, la teorı́a de probabilida-
des, la teorı́a de procesos estocásticos, teorı́a de la información, estadı́stica matemática,
sistemas dinámicos, autómatas finitos, teorı́a de algoritmos, lingüı́stica matemática, teorı́a
de la turbulencia, mecánica celeste, ecuaciones diferenciales, el XIII problema de Hilbert,
balı́stica, y las aplicaciones de las matemáticas a problemas de la biologı́a, geologı́a,
la cristalización de metales, la creación poética a partir de los estudios en lingüı́stica
matemática, y muchas otras. Su producción cuenta alrededor de 350 artı́culos y libros,
cada uno de ellos un “clásico” en su género.
Recibió siete medallas “Lenin”, el tı́tulo de “Héroe del Trabajo Socialista”, los premios
“Lenin” y del Estado; el premio Bolzano. Fue nombrado miembro de varias Academias de
Ciencias: la Neerlandesa (1963); la London Royal Society (1964); la National Academy of
Sciences de USA (1967); l’Académie des Sciences de Paris (1968); la Academia de Ciencias
de Rumania (1956); la Academia Alemana de Naturalistas Leopoldina (1959); la American
Academy of Sciences and Arts in Boston (1959).
Antes, en 1939 (a los 36 años de edad), Kolmogorov fue elegido miembro de número de
la Academia de Ciencias de la URSS y accedió al poco tiempo a la Secretarı́a Académica
de la sección Matemáticas y Fı́sica. El grado de Doctor Honoris Causa le fue conferido por
las Universidades de Parı́s, Estocolmo y Varsovia. Fue elegido Miembro Honorario de las
Sociedades de Matemática de Moscú (de la cual fue Presidente durante varios perı́odos),
de Londres, de Calcuta, de la India y de la Royal Statistical Society, del Internacional
Statistical Institute y de la American Meteorological Society.
Podrı́a decirse que Andrei Kolmogorov se atrajo la consideración de todos los hombres
de ciencia de su época. Pocos cientı́ficos han desarrollado un trabajo tan diverso y completo
en la historia de la humanidad. Tiene algo de Leonardo, de Aristóteles, de Euclides.
Gracias a Kolmogorov, el Cálculo de Probabilidades se transformó en una verdadera
Teorı́a, a partir de su célebre obra “Fundamentos de la Teorı́a de Probabilidades” publicada
en alemán por Springer-Verlag en 1933. Más aún, Andrei Kolmogorov dedicó en realidad
toda su vida a investigar sobre los modelos matemáticos del azar. Aplicando el principio
de que ninguna obra cientı́fica se agota en sı́ misma y que ninguna teorı́a puede explicar
completamente la realidad, llevó su investigación por diversas ramas de la Matemática,
buscando refinar siempre su comprensión del azar para ası́ generar nuevos modelos de
estos fenómenos. Su primer modelo basado en la Teorı́a de la Medida, fue seguido por
su desarrollo de la Teorı́a de la Información que le permitió analizar el concepto de azar
asociado a las nociones de complejidad. Hacia el final de su vida, sus investigaciones
en complejidad de algoritmos y las llamadas sucesiones aleatorias contenı́an sus últimas
contribuciones a esta búsqueda incesante.
La obra de Kolmogorov sintetizó gran parte de las leyes del azar que la humanidad
habı́a descubierto en los siglos precedentes (Ley de los Grandes Números, Teoremas del
Lı́mite Central, Ley del incremento de la complejidad), y abrió la posibilidad de exten-

- 69 -
1.4 Modelo General de Kolmogorov

der disciplinas ya confirmadas como el Análisis, la Teorı́a de Números, la Geometrı́a,


mediante aplicaciones de la Teorı́a de Probabilidades. Desde el punto de vista de las disci-
plinas básicas del edificio matemático actual, la obra fundacional de Kolmogorov puede ser
comparada con aquella de “Los Elementos” de Euclides: los jóvenes matemáticos que se
formen durante el siglo XXI deberı́an incluir en su cultura básica el Álgebra, la Geometrı́a,
el Análisis y la Teorı́a de Probabilidades.
Durante su vida habı́a mantenido un interés constante en la Fı́sica, ciencia a la cual
contribuyó con importantes trabajos. Nunca abordó, sin embargo, los problemas de natu-
raleza sub-atómica y, en consecuencia, no incursionó en la Mecánica Cuántica. De haberlo
hecho, su búsqueda de nuevos modelos del azar se habrı́a sin duda aproximado a los traba-
jos de Von Newmann, quien produjo un concepto de espacio de probabilidad que incluye
al de Kolmogorov y permite al mismo tiempo dar sentido a la Mecánica Cuántica.
Kolmogorov murió en Moscú el 20 de Octubre de 1987.

- 70 -
1.4 Modelo General de Kolmogorov

PROBLEMAS

Problema 1.4.A: Sea (Ω, P ) modelo de probabilidades y A, B, C sucesos. Asuma que


1 1 1
P (A) = 2, P (B) = 3, P (C) = 4,

P (A ∩ B) = 1
5, P (A ∩ C) = 1
6, P (B ∩ C) = 0.
Calcule:
a) P (A ∪ B ∪ C),
b) P (A − (B ∪ C)).

Problema 1.4.B: Sea (Ω, P ) modelo de probabilidades y (An ; n ≥ 1) sucesión de sucesos


disjuntos. Verifique que (∞ )
∪ ∞

P An = P (An ).
n=1 n=1

Problema 1.4.C: Sea (Ω, P ) modelo de probabilidades y (An ; n ≥ 1) sucesión de sucesos.


Verifique que
( r )
∪ ∑
r
a) P An ≤ P (An ), para todo r ≥ 2.
n=1 n=1
( ∞
) ∞
∪ ∑
b) P An ≤ P (An ).
n=1 n=1
( )

r ∑
r
c) P An ≥1− P (Acn ), para todo r ≥ 2.
n=1 n=1
( ∞
) ∞
∩ ∑
d) P An ≥1− P (Acn ).
n=1 n=1
Suponga ahora que, P (An ) ≥ 1 − ε, para n ∈ {1, . . . , r}. Verifique que
( r )

e) P An ≥ 1 − r ε.
n=1

Problema 1.4.D: Sea (Ω, P ) modelo de probabilidades. Suponga que A1 , A2 , . . . y


B1 , B2 , . . . son sucesos tales que
lim P (An ) = 1 y lim P (Bn ) = p.
n→∞ n→∞

Verifique que lim P (An ∩ Bn ) = p.


n→∞

Problema 1.4.E: Sea (Ω, P ) espacio de probabilidades y A, B ⊂ Ω sucesos. Asuma que


P (A) = 1 y P (B) = p, p ∈]0, 1[. Demuestre que P (A ∩ B) = p.

- 71 -
1.5. TEOREMA DE PROBABILIDADES TOTALES Y DE BAYES

1.5 Teorema de Probabilidades Totales y de Bayes

Para comenzar esta sección, introduciremos el concepto de probabilidad condicional. La


motivación para su definición en un espacio de probabilidades cualquiera la mostramos
con algunos ejemplos en el modelo de Laplace.

Ejemplo 1.5.1: Consideremos el Experimento 2 de la Sección 2 de este capı́tulo, esto


es, lanzar un dado honesto y observar su cara superior. Entonces, el espacio muestral
resultante es
Ω = {1, 2, 3, 4, 5, 6},
y un modelo adecuado para el cálculo de probabilidades de sucesos asociados a este expe-
rimento (o sea, subconjuntos de Ω) es el modelo de Laplace, esto es (Ω, P ), con

#A
P (A) = , A ⊂ Ω.
#Ω

De esta forma, si A = {1, 2, 3, 5}, o sea A representa el hecho que el dado muestre un
número primo, entonces
#A
P (A) =
#Ω

4
=
6
2
= .
3
Esta probabilidad es conocida como probabilidad a priori de A, esto quiere decir, antes
que el experimento se realize.
Supongamos que, una vez realizado el experimento, alguien nos informa que el resultado
de éste es un número par, esto es, que el suceso B = {2, 4, 6} ocurre.
Con esta información, nuestra opinión sobre la ocurrencia de A se modifica, ya que,
en este caso, solamente podrá haber ocurrido el suceso A si el resultado del experimento
ha sido el número 2.
O sea, con la información proporcionada, el número de casos favorables serı́a igual
a uno y el número de casos totales igual a tres (hay tres números pares entre 1 y 6),
por lo que la probabilidad bajo la información que se nos ha entregado (“probabilidad a
posteriori”) deberı́a ser 31 .
La “probabilidad a posteriori” deberı́a entonces cuantificar la información que se nos ha
entregado. La “probabilidad a posteriori”, más comúnmente conocida como probabilidad
condicional de A dado B, es definida en este ejemplo por

#(A ∩ B) 1
= .
#B 3

Notar que
#(A∩B)
#(A ∩ B) #Ω
= #B
,
#B
#Ω

- 72 -
1.5 Teorema de Probabilidades Totales y de Bayes

#(A∩B) P (A∩B)
o sea, bajo el modelo de Laplace, #B = P (B) , por lo que la probabilidad condicional
P (A∩B)
de A dado B es igual a P (B) .

Este ejemplo motiva la siguiente definición general.

Definición 1.5.1: Sea (Ω, P ) modelo de probabilidades cualquiera (véase Sección 4 de


este capı́tulo) y A, B dos sucesos, de modo que P (B) > 0.
La probabilidad condicional de A dado B, se anota P (A/B), se define como el
número real P P(A∩B)
(B) , esto es,
P (A ∩ B)
P (A/B) = .
P (B)

Observación 1.5.1: En el caso en que (Ω, P ) sea el modelo de Laplace, esto es,
Ω = {a1 , . . . , an }, A ⊂ Ω , y
#A
P (A) = ,
#Ω
entonces,
P (A ∩ B)
P (A/B) =
P (B)

#(A∩B)
#Ω
= #B
#Ω

#(A ∩ B)
= .
#B

Ejemplo 1.5.2: Consideremos el modelo de probabilidades (Ω, P ) del Ejemplo 1.4.1,


esto es,
Ω = {(x, y) : a ≤ x ≤ b , c ≤ y ≤ d}

a b

Figura 1.5.1

- 73 -
1.5 Teorema de Probabilidades Totales y de Bayes

y, para todo A ⊂ Ω,
área (A)
P (A) = .
área (Ω)
Supongamos que A es el suceso que muestra la figura sombreada

a a+b
2 b

Figura 1.5.2

y B es el suceso {(x, y) ∈ Ω : 3a+b


4 ≤x≤ 2 },
a+b
es decir, la figura sombreada que se
muestra a continuación.

a 3a+b a+b
4 2 b

Figura 1.5.3

Entonces,
área (A ∩ B)
P (A/B) =
área (B)

área (A ∩ B)
= 4· .
(b − a)(d − c)

Pero, A ∩ B es el triángulo rectángulo que muestra la figura sombreada siguiente

- 74 -
1.5 Teorema de Probabilidades Totales y de Bayes

A∩B
d ւ

c+d
2

a 3a+b a+b
4 2 b

Figura 1.5.4

el cual tiene base a+b


2 − 3a+b
4 =
b−a
4 y altura d − (c+d)
2 = d−c
2 , por lo que su área es igual
· 2
b−a d−c
a 4
2 . En consecuencia,
(b−a) (d−c)
4
· 2
P (A/B) = 4 · 2
(b − a)(d − c)

= 0.25.

Ejemplo 1.5.3: Un grupo de 125 profesores de matemática de la región Metropolitana


está clasificado de la siguiente forma:

Sexo Años de docencia realizados


a lo más 5 años más de 5 años y menos de 10 más de 10 años
Hombres 11 7 29
Mujeres 10 10 58

Tabla 1.5.1

Se escoge un profesor al azar. Sabiendo que este profesor ha realizado más de 10 años
de docencia, ¿cuál es la probabilidad de que sea hombre?
Como asumimos que cada profesor tiene igual chance de ser escogido, entonces usamos
el modelo de Laplace como modelo de probabilidades.
En este caso, Ω representa al grupo de los 125 profesores, por lo que #Ω = 125.
Además, si A representa el conjunto de los hombres de este grupo y B el conjunto de
profesores (del grupo) que ha realizado más de 10 años de docencia, entonces lo que se
pide calcular es P (A/B).
De los datos del problema (Tabla 1.5.1),

#A = 47, #B = 87, #(A ∩ B) = 29,

por lo que
47 87 29
P (A) = , P (B) = , P (A ∩ B) = ,
125 125 125

- 75 -
1.5 Teorema de Probabilidades Totales y de Bayes

y por tanto
P (A ∩ B)
P (A/B) =
P (B)
29
125
= 87
125

29
=
87

= 0.3333.

Ahora mostramos algunas propiedades básicas sobre la noción de probabilidad condicional.

Proposición 1.5.1: Sea (Ω, P ) modelo de probabilidades cualquiera y B ⊂ Ω suceso, tal


que P (B) > 0.

a) Para todo suceso A, P (A/B) ≥ 0.


En efecto, como P es una probabilidad sobre los subconjuntos de Ω, entonces axioma
i) en Definición 1.4.1, implica que P (A ∩ B) ≥ 0. Además, por hipótesis P (B) > 0,
por lo que el cuociente de estos dos valores es un número no negativo, esto es
P (A ∩ B)
P (A/B) = ≥ 0.
P (B)

b) P (Ω/B) = 1.
Este resultado es inmediato desde B ⊂ Ω, por lo que
P (Ω ∩ B)
P (Ω/B) =
P (B)

P (B)
=
P (B)

= 1.

c) Si A y C son sucesos disjuntos, entonces


P (A ∪ C / B) = P (A/B) + P (C/B).

Nuevamente, como P es una probabilidad sobre los subconjuntos de Ω, entonces


axioma iii) de la Definición 1.4.1 implica que P (A ∪ C) = P (A) + P (C). Además,
(A ∪ C) ∩ B = (A ∩ B) ∪ (C ∩ B),
y como A y C son disjuntos, entonces (A ∩ B) y (C ∩ B) también lo son, por lo que
nuevamente desde axioma iii) se obtiene
P ((A ∪ C) ∩ B) = P (A ∩ B) + P (C ∩ B).

- 76 -
1.5 Teorema de Probabilidades Totales y de Bayes

En consecuencia,

P ((A ∪ C) ∩ B)
P (A ∪ C / B) =
P (B)

P (A ∩ B) + P (C ∩ B)
=
P (B)

P (A ∩ B) P (C ∩ B)
= +
P (B) P (B)

= P (A/B) + P (C/B).

Observación 1.5.2: La Proposición anterior nos dice que la función P (·/B), definida
por P (A/B) = P P(A∩B)
(B) , satisface los axiomas i), ii) y iii) de la Definición 1.4.1, es decir,
la función P (·/B) es una probabilidad sobre los subconjuntos de Ω. Dicho de otro modo,
(Ω, P (·/B)) es un modelo de probabilidades.
En consecuencia, como Proposición 1.4.1 es válida para cualquier modelo de probabi-
lidades, entonces, las reglas a) - e) se traducen para este caso en:

α) Si A es suceso cualquiera,

P (Ac /B) = 1 − P (A/B) , P (∅/B) = 0 , 0 ≤ P (A/B) ≤ 1.

β) Si A ⊂ C, entonces

P (A/B) ≤ P (C/B) y P (C/B) − P (A/B) = P (Ac ∩ C / B).

γ) Si C1 , C2 , . . . , Cn forman una partición de C, entonces

P (C/B) = P (C1 /B) + P (C2 /B) + · · · + P (Cn /B).

δ) Si A y C son sucesos cualquiera

P (A ∩ C c / B) = P (A/B) − P (A ∩ C / B)

y
P (Ac ∩ C / B) = P (C/B) − P (A ∩ C / B).

ϵ)
P (A ∪ C / B) = P (A/B) + P (C/B) − P (A ∩ C / B).

Nota: Cabe señalar que


P (A/B c ) ̸= 1 − P (A/B)

- 77 -
1.5 Teorema de Probabilidades Totales y de Bayes

y
P (A / B ∪ C) ̸= P (A/B) + P (A/C).
Por ejemplo, si (Ω, P ) es el modelo de Laplace con Ω = {1, 2, 3, 4, 5, 6, 7}, A = {1, 2, 3},
B = {3, 4} y C = {3, 5, 6, 7}, entonces

#(A ∩ B c ) 2
P (A/B c ) = = ,
#(B c ) 5

#(A ∩ B) 1
P (A/B) = = ,
#B 2

#(A ∩ (B ∪ C)) 1
P (A / B ∪ C) = = ,
#(B ∪ C) 5

#(A ∩ C) 1
P (A/C) = = ,
#C 4
y

2 1 1 1 1
̸= 1 − , ̸= + .
5 2 5 2 4

La siguiente Proposición, conocida como regla del producto, muestra como calcular la
probabilidad de una intersección de dos sucesos, a partir de una probabilidad condi-
cional.

Proposición 1.5.2: Regla del producto. Sea (Ω, P ) modelo de probabilidades cualquiera
y A, B sucesos, de modo que P (B) > 0. Entonces

P (A ∩ B) = P (B) P (A/B). (∗)

Una forma habitual de usar esta regla es cuando B es un suceso que está determinado
en una “primera etapa”, y A es un suceso que depende de esa primera etapa (A está
determinado en una “segunda etapa”).
Escribir (∗) como
P (A1 ∩ A2 ) = P (A1 ) P (A2 /A1 ),
ayuda a pensar la regla de la multiplicación como una secuencia de “etapas”.

Cabe señalar que la verificación de la Proposición 1.5.2 es inmediata, ya que

P (A ∩ B)
P (A/B) = ,
P (B)

de donde
P (A ∩ B) = P (B) P (A/B).

- 78 -
1.5 Teorema de Probabilidades Totales y de Bayes

Ejemplo 1.5.4: Se sabe que el 80% de los penales marcados a favor de la Selección
Chilena son ejecutados por jugadores de Colo-Colo. La probabilidad de que un penal sea
convertido es de 70% (esto es, 0.7) si es ejecutado por un jugador de Colo-Colo y es de
un 25% en caso contrario. Un penal a favor de la Selección Chilena acaba de ser cobrado,
¿cuál es la probabilidad de que el penal sea ejecutado por un jugador de Colo-Colo y sea
convertido?
Sea (Ω, P ) modelo de probabilidades y A1 , A2 los sucesos siguientes:
A1 : penal ejecutado por un jugador de Colo-Colo , A2 : penal es convertido.
Según los datos del problema se tiene que

P (A1 ) = 0.8, P (A2 /A1 ) = 0.7, P (A2 /Ac1 ) = 0.25,

y se desea calcular P (A1 ∩ A2 ), que por la regla del producto resulta


P (A1 ∩ A2 ) = P (A1 ) P (A2 /A1 )
= 0.8 · 0.7
= 0.56.
Por otra parte, ¿cuál es la probabilidad de que un penal cobrado a favor de la Selección
Chilena sea convertido?, esto es, ¿cuál es el valor de P (A2 )?
Notemos que del enunciado del problema, sólo se saben probabilidades condicionales de
que el penal sea convertido, ya sea que el ejecutante sea de Colo-Colo o pertenezca a otro
club.
Para hacer uso de esas probabilidades condicionales, consideramos el hecho que los
sucesos (A1 ∩ A2 ) y (Ac1 ∩ A2 ) forman una partición de A2 (véase Proposición 1.4.1 d)),
esto es
A2 = (A1 ∩ A2 ) ∪ (Ac1 ∩ A2 ).
Luego,
P (A2 ) = P (A1 ∩ A2 ) + P (Ac1 ∩ A2 ).
Pero, por la regla del producto,
P (A1 ∩ A2 ) = P (A1 ) P (A2 /A1 )
= 0.8 · 0.7
= 0.56
y
P (Ac1 ∩ A2 ) = P (Ac1 ) P (A2 /Ac1 )
= (1 − 0.8) · 0.25
= 0.05.
En consecuencia,
P (A2 ) = 0.56 + 0.05
= 0.61.

Cabe señalar que la Observación 1.5.2 α) implica que


P (Ac2 / A1 ) = 1 − P (A2 / A1 )
= 1 − 0.7
= 0.3.

- 79 -
1.5 Teorema de Probabilidades Totales y de Bayes

y
P (Ac2 / Ac1 ) = 1 − P (A2 / Ac1 )
= 1 − 0.25
= 0.75.

Una forma práctica de resolver problemas como el anterior es recurrir a un diagrama


de árbol. Estos diagramas son útiles cuando el experimento aleatorio (subyacente a las
probabilidades que se desee obtener) posea una “secuencia de etapas”.
El diagrama de árbol para el ejemplo anterior es el siguiente:

A2
el penal
A1 es convertido
0.7
penal ejecutado
por un jugador
de Colo-Colo Ac2
0.3
0.8 el penal no
es convertido

A2
el penal
Ac1 es convertido
0.2
0.25
penal ejecutado
por un jugador
de otro equipo Ac2
0.75
el penal no
es convertido

Figura 1.5.5

Llamaremos ramas del árbol a las flechas del tipo ↗ o ↘ y caminos a secuencias
de ramas, por ejemplo, → →.
Los números en cada rama del árbol representan las probabilidades condicionales del
suceso asociado al final de la rama, dada la secuencia de sucesos que nos conducen a la
rama inicial.
Por ejemplo, 0.75 representa la probabilidad de que un penal cobrado en favor de la
Selección Chilena no sea convertido, dado que este fue ejecutado por un jugador que no
es de Colo-Colo. Esto es P (Ac2 / Ac1 ) = 0.75.
Un camino representa la ocurrencia conjunta de los sucesos involucrados en el camino.
Por ejemplo, el camino
0.7

0.8

Figura 1.5.6

- 80 -
1.5 Teorema de Probabilidades Totales y de Bayes

representa la ocurrencia del suceso A1 ∩ A2 , y su probabilidad se calcula como el producto


entre los números de cada una de las ramas (regla del producto). Ası́,

P (A1 ∩ A2 ) = 0.8 · 0.7


= 0.56.

La partición de A2 en (A1 ∩ A2 ) y (Ac1 ∩ A2 ), es decir, la descomposición del suceso


“penal convertido” en los sucesos “penal ejecutado por un jugador de Colo-Colo y conver-
tido” y “penal ejecutado por un jugador de otro equipo y convertido”, puede ser vista en
el diagrama tomando todos los caminos del árbol que conducen al suceso A2 (caminos de
linea punteada)
A2
0.7

A1
0.8
0.3
Ac2

A2
0.25
0.2
Ac1
0.75
Ac2

Figura 1.5.7

Luego, la probabilidad del suceso A2 será la suma de las probabilidades obtenidas en


cada camino.
Recordar que la probabilidad de cada camino es calculada usando la regla del producto
(producto de los números de cada rama del camino). Ası́,

P (Ac1 ∩ A2 ) = P (Ac1 ) P (A2 /Ac1 )


= 0.2 · 0.25
= 0.05.

En consecuencia,
P (A2 ) = 0.8 · 0.7 + 0.2 · 0.25
= 0.56 + 0.05
= 0.61.

Por otra parte, supongamos que un penal fue sancionado a favor de la Selección Chilena
y ha sido desperdiciado, ¿cuál es la probabilidad de que el ejecutante halla sido jugador
de Colo-Colo?
La probabilidad que se desea calcular es P (A1 / Ac2 ), la cual no fue dada en el enunciado del
problema. Para calcular P (A1 / Ac2 ), recurrimos a la definición de probabilidad condicional

- 81 -
1.5 Teorema de Probabilidades Totales y de Bayes

y al árbol siguiente
A2
0.7

A1
0.8
0.3
Ac2

A2
0.25
0.2
Ac1
0.75
Ac2

Figura 1.5.8

Entonces,
P (A1 ∩ Ac2 )
P (A1 /Ac2 ) =
P (Ac2 )
y además,

P (A1 ∩ Ac2 ) = 0.8 · 0.3


= 0.24 (siguiendo el camino correspondiente
en el árbol)

P (Ac2 ) = 0.8 · 0.3 + 0.2 · 0.75


= 0.39 (siguiendo los caminos del árbol que
conducen al suceso Ac2 )

Por lo tanto,
0.24
P (A1 / Ac2 ) =
0.39

= 0.615.

Ejemplo 1.5.5: Supongamos que hay dos componentes eléctricas. La chance que la
primera componente falle es de 10%. Si la primera componente falla, la chance que la
segunda componente falle es 20%. Pero, si la primera componente funciona, la chance que
la segunda componente falle es 5%. Calculemos la probabilidad de los siguientes sucesos:

a) al menos una de las componentes funciona,

b) exactamente una de las componentes funciona,

c) la segunda componente funciona.

El siguiente diagrama de árbol que presenta la Figura 1.5.9, muestra todos los posibles
resultados de la primera y segunda componente. Para calcular las probabilidades en a), b)
y c) usaremos la metodologı́a descrita en el ejemplo anterior.

- 82 -
1.5 Teorema de Probabilidades Totales y de Bayes

Primeramente, a partir de la Proposición 1.4.1 a) y la Observación 1.5.2 α), se con-


cluye que
P (A1 ) = 1 − P (Ac1 )
= 1 − 0.1
= 0.9,

P (A2 / Ac1 ) = 1 − P (Ac2 / Ac1 )


= 1 − 0.2
= 0.8,

P (A2 / A1 ) = 1 − P (Ac2 / A1 )
= 1 − 0.05
= 0.95.

Luego, el diagrama de árbol resultante es

A2

Segunda componente
A1 95% funciona

Primera componente
funciona Ac2

90% 5% Segunda componente


falla

A2

Segunda componente
10% Ac1 80% funciona

Primera componente
falla Ac2
20% Segunda componente
falla

Figura 1.5.9

Inspeccionando el diagrama vemos que

a)
P (al menos una componente funciona) = P (A1 ∪ A2 )
= P ((Ac1 ∩ Ac2 )c )
= 1 − P (Ac1 ∩ Ac2 )
= 1 − 0.1 · 0.2
= 0.98.

- 83 -
1.5 Teorema de Probabilidades Totales y de Bayes

b)
P (exactamente una componente funciona) = P (1a funciona y 2a falla)
+P ( 1a falla y 2a funciona )
= P (A1 ∩ Ac2 ) + P (Ac1 ∩ A2 )
= 0.9 · 0.05 + 0.1 · 0.8
= 0.125.

c)
P (2a componente funciona) = P (1a funciona y 2a funciona)
+P ( 1a falla y 2a funciona )
= P (A1 ∩ A2 ) + P (Ac1 ∩ A2 )
= 0.9 · 0.95 + 0.1 · 0.8
= 0.935.

La siguiente regla generaliza la Proposición 1.5.2 a n sucesos (n ≥ 3), esto es, muestra
como calcular la probabilidad de una intersección de n sucesos, a partir de probabilidades
condicionales.

Proposición 1.5.3: Regla del producto generalizado. Sea (Ω, P ) modelo de probabi-
lidades cualquiera y A1 , A2 , . . . , An (n ≥ 3) sucesos, de modo que se cumple
P (A1 ∩ A2 ∩ · · · ∩ An ) ̸= 0. Entonces,

P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 )P (A2 /A1 )P (A3 /A1 ∩ A2 ) · · · P (An /A1 ∩ A2 ∩ · · · ∩ An−1 ).

En el caso en que n = 3, la relación anterior se escribe como

P (A1 ∩ A3 ∩ A3 ) = P (A1 ) P (A2 /A1 ) P (A3 /A1 ∩ A2 )

y cuando n = 4,

P (A1 ∩ A3 ∩ A3 ∩ A4 ) = P (A1 ) P (A2 /A1 ) P (A3 /A1 ∩ A2 ) P (A4 /A1 ∩ A2 ∩ A3 ).

La verificación de esta Proposición la realizamos para el caso n = 4. El caso general


es totalmente análogo.
Usando la definición de probabilidad condicional obtenemos que

P (A1 ∩ A2 )
P (A2 / A1 ) = ,
P (A1 )

P (A1 ∩ A2 ∩ A3 )
P (A3 / A1 ∩ A2 ) = ,
P (A1 ∩ A2 )

P (A1 ∩ A2 ∩ A3 ∩ A4 )
P (A4 / A1 ∩ A2 ∩ A3 ) = .
P (A1 ∩ A2 ∩ A3 )

- 84 -
1.5 Teorema de Probabilidades Totales y de Bayes

En consecuencia,

P (A1 ∩ A2 ) P (A1 ∩ A2 ∩ A3 )
P (A1 )P (A2 / A1 )P (A3 / A1 ∩ A2 )P (A4 / A1 ∩ A2 ∩ A3 ) = P (A1 )
P (A1 ) P (A1 ∩ A2 )

P (A1 ∩ A2 ∩ A3 ∩ A4 )
·
P (A1 ∩ A2 ∩ A3 )

= P (A1 ∩ A2 ∩ A3 ∩ A4 ),

lo que concluye la demostración.

Veamos la regla del producto generalizado (caso n = 3) a través de diagramas de árbol.

Ejemplo 1.5.6: Considere tres urnas, A, C y E, de modo que la urna A contenga 3


fichas blancas y 2 negras, la urna C contenga 5 fichas blancas y 3 negras y la urna E
contenga 2 fichas blancas y 5 negras.
Se lanza un dado equilibrado: Si aparece el 1 ó 2, se extrae de la urna A una ficha, y
sin regresar ésta a la urna se extrae una segunda ficha. En tanto, si aparece el valor 3,
4 ó 5, la extracción de las fichas se hace de la urna C, y si en el dado aparece un 6, las
fichas se extraen de la urna E.

a) ¿Cuál es la probabilidad de que la segunda ficha extraı́da sea negra?

b) Dado que la primera ficha extraı́da fue negra, ¿cuál es la probabilidad de que la
segunda también lo haya sido?

Primeramente, A, C, E, B1 , B2 , N1 , N2 denotan los siguientes sucesos:

A = el dado muestra el número 1 ó 2,


C = el dado muestra el número 3, 4 ó 5,
E = el dado muestra el número 6,
B1 = la ficha escogida en la primera extracción es blanca,
B2 = la ficha escogida en la segunda extracción es blanca,
N1 = la ficha escogida en la primera extracción es negra,
N2 = la ficha escogida en la segunda extracción es negra.

El diagrama de árbol para este ejemplo es el siguiente:

- 85 -
1.5 Teorema de Probabilidades Totales y de Bayes

Urna A

2
◦•
Urna A 4 •
la 2a ficha
◦•◦ escogida es blanca
• Urna A
3 la 1a ficha 2
5 escogida es blanca
4 ◦•◦
Urna A
la 2a ficha
◦•◦◦ escogida es negra
• Urna A
el resultado del
dado es 1 ó 2 2 3
◦•◦
5 Urna A 4
la 2a ficha
◦•◦◦ escogida es blanca

Urna A
la 1a ficha 1
escogida es negra
4
◦◦◦
la 2a ficha
2 escogida es negra
6
Urna C

4
◦◦◦•
Urna C 7 ••
la 2a ficha
◦◦◦• escogida es blanca
••◦ Urna C
5 la 1a ficha 3
escogida es blanca
◦◦◦
8 7 ••◦
Urna C
la 2a ficha
◦◦◦• escogida es negra
3 ••◦◦ Urna C
6 el resultado del
dado es 3, 4 ó 5 3 5
◦◦◦•
8 Urna C 7 •◦
la 2a ficha
◦◦◦• escogida es blanca
•◦◦ Urna C
la 1a ficha 2
escogida es negra
◦◦◦
7 •◦◦
la 2a ficha
1 escogida es negra
6
Urna E

1
•••
Urna E 6 ••
la 2a ficha
•••◦ escogida es blanca
•• Urna E
2 la 1a ficha 5
escogida es blanca
•••◦
7 6 •
Urna E
la 2a ficha
•••◦ escogida es negra
••◦ Urna E
el resultado del
dado es 6 5 2
•••
7 Urna E 6 •◦
la 2a ficha
•••◦ escogida es blanca
•◦ Urna E
la 1a ficha 4
escogida es negra
6
••◦
•◦
la 2a ficha
escogida es negra

Figura 1.5.10

El diagrama anterior, en forma sintetizada, se escribe como en la figura siguiente.

- 86 -
1.5 Teorema de Probabilidades Totales y de Bayes

2 B2
4

3
B1
5

2
4 N2
A 3 B2
4

2
N1
5
2
6 1
4 N2
4 B2
7

5
B1
8

3
7 N2
C
3 5 B2
7
6
3
N1
8

2
7 N2
1 B2
6
1
6
2
B1
7

5
6 N2
E 2 B2
6

5
N1
7

4
6 N2

Figura 1.5.11

Por ejemplo, la rama que indica 65 significa la probabilidad de que la segunda ficha escogida
sea negra, dado que el dado mostró el número 6 y que la primera ficha escogida fue blanca,
esto es,
5
P (N2 / E ∩ B1 ) = .
6
También, por la regla del producto generalizado, 62 · 52 · 43 = 10
1
, representa la ocurrencia
del suceso A ∩ N1 ∩ B2 , esto es, el dado mostró el número 1 ó 2, la primera ficha escogida

- 87 -
1.5 Teorema de Probabilidades Totales y de Bayes

fue negra y la segunda fue blanca,

P (A ∩ N1 ∩ B2 ) = P (A) P (N1 / A) P (B2 / A ∩ N1 )

2 2 3
= · ·
6 5 4
1
= .
10

Para ver la probabilidad de que la segunda ficha extraı́da sea negra, debemos sumar las
probabilidades obtenidas en cada camino que conduzca al suceso N2 . Ası́,

2 3 2 2 2 1 3 5 3 3 3 2 1 2 5 1 5 4
P (N2 ) = · · + · · + · · + · · + · · + · ·
6 5 4 6 5 4 6 8 7 6 8 7 6 7 6 6 7 6
93114
=
211680

= 0.44.

Para responder la parte b) de la pregunta, debemos calcular P (N2 / N1 ). Sin embargo,


esta probabilidad condicional no aparece en ninguna rama del árbol. Las probabilidades
que si aparecen son
1
P (N2 / A ∩ N1 ) = ,
4
2
P (N2 / C ∩ N1 ) = ,
7
4
P (N2 / E ∩ N1 ) = .
6

Por esta razón, calculamos P (N2 / N1 ) usando la definición de probabilidad condicional

P (N1 ∩ N2 )
P (N2 / N1 ) = .
P (N1 )

Siguiendo los caminos respectivos en el árbol, vemos que

2 2 1
P (A ∩ N1 ∩ N2 ) = · · ,
6 5 4
3 3 2
P (C ∩ N1 ∩ N2 ) = · · ,
6 8 7
1 5 4
P (E ∩ N1 ∩ N2 ) = · · ,
6 7 6

pero, A, C, E forman una partición de {1, 2, 3, 4, 5, 6}, luego

- 88 -
1.5 Teorema de Probabilidades Totales y de Bayes

(
P (A ∩ N1 ∩ N2 ) + P (C ∩ N1 ∩ N2 ) + P (E ∩ N1 ∩ N2 ) = P (A ∩ N1 ∩ N2 ))∪ (C ∩ N1 ∩ N2 )
∪ (E ∩ N1 ∩ N2 )
= P ((A ∪ C ∪ E) ∩ (N1 ∩ N2 ))
= P (Ω ∩ (N1 ∩ N2 ))
= P (N1 ∩ N2 ).

Por lo tanto,
2 2 1 3 3 2 1 5 4
P (N1 ∩ N2 ) = · · + · · + · ·
6 5 4 6 8 7 6 7 6
8799
=
52920

= 0.166.
O sea, P (N1 ∩ N2 ) corresponde a la suma de las probabilidades obtenidas en cada camino
que contenga a N1 y N2 .
Por otra parte, al igual en el Ejemplo 1.5.4, P (N1 ) corresponde a la suma de las
probabilidades obtenidas en cada camino que “termina” en el suceso N1 . Observando el
árbol anterior vemos que
2 2 3 3 1 5
P (N1 ) = · + · + ·
6 5 6 8 6 7
2217
=
5040

= 0.44,

en consecuencia,
P (N1 ∩ N2 )
P (N2 / N1 ) =
P (N1 )

0.166
=
0.44

= 0.377.

Ejemplo 1.5.7: Carlo Antonio quiere enviar un e-mail a Joel. La probabilidad de que
Carlo Antonio escriba el e-mail es 0.8. Se sabe además que el servidor de correo de Carlo
Antonio tiene probabilidad 0.99 de funcionar, mientras que el servidor de correo de Joel
tiene probabilidad 0.05 de no funcionar. Dado que Joel no recibió un e-mail de Carlo
Antonio, ¿cuál es la probabilidad de que Carlo Antonio no lo halla escrito?
Primeramente, a partir la Proposición 1.4.1 a) y la Observación 1.5.2 α), se obtiene que

P (Ac1 ) = 1 − P (A1 )
= 1 − 0.8
= 0.2,

- 89 -
1.5 Teorema de Probabilidades Totales y de Bayes

P (Ac2 / A1 ) = 1 − P (A2 / A1 )
= 1 − 0.99
= 0.01,

P (A3 / A1 ∩ A2 ) = 1 − P (Ac3 / A1 ∩ A2 )
= 1 − 0.05
= 0.95,

Ası́, el diagrama de árbol resultante es


A3
Servidor de
correo de Bc
Joel 1
A2 0.95 funciona
Joel recibe
el e-mail de
Servidor de
Carlo Antonio
correo de
Carlo Antonio
A1 0.99 funciona
Ac3
Servidor de
Carlo Antonio 0.05 correo de
escribe el
Joel
e-mail Ac2 no funciona
Servidor de
0.8 0.01 correo de
Carlo Antonio 1
no funciona

1 B
Joel no recibe
el e-mail de
0.2 Ac1 Carlo Antonio

Carlo Antonio 1
no escribe
el e-mail

Figura 1.5.12

La probabilidad condicional P (Ac1 / B) , no aparece en el enunciado del problema. Para


calcularla, recurrimos a la definición de probabilidad condicional y al árbol anterior.
Primeramente,
P (Ac1 ∩ B)
P (Ac1 / B) = ,
P (B)
por lo que debemos calcular P (Ac1 ∩ B) y P (B) .
La probabilidad P (Ac1 ∩ B), corresponde a la suma de las probabilidades obtenidas en cada
camino que contenga a Ac1 y B. Como hay un único camino que contiene a Ac1 y B, y este
tiene probabilidad 0.2 · 1, se concluye que

P (Ac1 ∩ B) = 0.2 · 1
= 0.2.

También, P (B) corresponde a la suma de las probabilidades obtenidas en cada camino que
“termine” en el suceso B. Ası́,

P (B) = 0.8 · 0.99 · 0.05 · 1 + 0.8 · 0.01 · 1 + 0.2 · 1


= 0.2476.

- 90 -
1.5 Teorema de Probabilidades Totales y de Bayes

En consecuencia,
0.2
P (Ac1 /B) =
0.2476

= 0.81.

Veamos ahora una especie de promedio de probabilidades condicionales, más conocido


como Fórmula de Probabilidades Totales.
Ilustramos esta especie de promedio de probabilidades condicionales con el Ejemplo
1.5.5 .

Sea A el suceso “exactamente una componente funciona”. Recordemos que los sucesos
A1 y A2 fueron definidos como:
A1 = primera componente funciona, A2 = segunda componente funciona.

Primeramente, de la definición de probabilidad condicional,

P (A ∩ A1 ) = P (A / A1 ) P (A1 ) y P (A ∩ Ac1 ) = P (A / Ac1 ) P (Ac1 ) .

Además,

P (A ∩ A1 ) = P (exactamente una componente funciona y 1a componente funciona)


= P (1a componente funciona y 2a componente falla)
= P (A1 ∩ Ac2 )
y

P (A ∩ Ac1 ) = P (exactamente una componente funciona y 1a componente falla)


= P (1a componente falla y 2a componente funciona)
= P (Ac1 ∩ A2 ).

Pero, la parte b) del Ejemplo 1.5.5 indica que

P (A) = P (A1 ∩ Ac2 ) + P (Ac1 ∩ A2 ),

por lo que las relaciones anteriores nos conducen a la ecuación

P (A) = P (A/A1 ) P (A1 ) + P (A/Ac1 ) P (Ac1 ). (α)

Esta última relación nos entrega la probabilidad del suceso A como la suma de probabili-
dades de caminos conducentes al suceso A.
Observando el diagrama de árbol de la Figura 1.5.9 , vemos que la ecuación anterior
nos dice que P (A) puede ser calculada como la suma de las probabilidades de los caminos
en que ocurre el suceso A.
Cabe señalar que el suceso A1 define una partición del espacio muestral Ω en dos
sucesos: A1 y Ac1 , que corresponden a las dos ramas iniciales del árbol que muestra la
Figura 1.5.9.

- 91 -
1.5 Teorema de Probabilidades Totales y de Bayes

Existe una fórmula similar a (α), para cualquier suceso A y cualquier partición A1 , . . . , An
del espacio muestral Ω. En este caso, la partición determinará n ramas iniciales en el árbol
asociado. Esta fórmula se expresa en la siguiente proposición.

Proposición 1.5.4: Teorema de Probabilidades Totales.Sea (Ω, P ) modelo de pro-


babilidades cualquiera y A1 , . . . , An , partición de Ω, esto es,

Ω = A1 ∪ A2 ∪ · · · ∪ An y para i ̸= j, Ai ∩ Aj = ∅.

Si A es suceso cualquiera y P (Ai ) > 0, para todo i ∈ {1, . . . , n}, entonces

P (A) = P (A / A1 ) P (A1 ) + P (A / A2 ) P (A2 ) + · · · + P (A / An ) P (An ).

En otras palabras, la probabilidad P (A), es el promedio de las probabilidades P (A / Ai )


con pesos P (Ai ).
La demostración de esta proposición es bastante simple, y la ilustraremos con n = 4
para simplificar las notaciones.
Como Ω = A1 ∪ A2 ∪ A3 ∪ A4 , entonces

A= A∩Ω
= A ∩ (A1 ∪ A2 ∪ A3 ∪ A4 )
= (A ∩ A1 ) ∪ (A ∩ A2 ) ∪ (A ∩ A3 ) ∪ (A ∩ A4 ).

Además, los sucesos que componen esta unión son disjuntos, pues A1 , A2 , A3 , A4 son
disjuntos (por ser una partición de Ω)


A1 A3

A
A∩A1 A∩A2 A∩A3 A∩A4

A2 A4

Figura 1.5.13

Entonces, por la regla de la aditividad (Proposición 1.4.1, c)),

P (A) = P (A ∩ A1 ) + P (A ∩ A2 ) + P (A ∩ A3 ) + P (A ∩ A4 ).

Ahora, por la regla del producto (Proposición 1.5.2)

P (A ∩ Ai ) = P (A / Ai ) P (Ai ), para i ∈ {1, 2, 3, 4},

- 92 -
1.5 Teorema de Probabilidades Totales y de Bayes

de donde,

P (A) = P (A / A1 ) P (A1 ) + P (A / A2 ) P (A2 ) + P (A / A3 ) P (A3 ) + P (A / A4 ) P (A4 ).

Ejemplo 1.5.8: Los huevos de una avı́cola se colocan en cajas de 12 unidades y se envı́an
a un cierto establecimiento comercial. Los controles de calidad de este indican que el 77.9%
de las cajas no contiene huevos quebrados, el 19.4% contiene un huevo quebrado, el 2.6%
contiene dos huevos quebrados y el 0.1% de las cajas contiene tres huevos quebrados. La
probabilidad de que haya más de tres huevos quebrados es cero.
Se elige, al azar, un huevo de una caja, ¿cuál es la probabilidad de que esté quebrado?
Sea (Ω, P ) modelo de probabilidades y A1 , A2 , A3 , A4 , A, los siguientes sucesos:
A1 = la caja contiene cero huevos quebrados,
A2 = la caja contiene un huevo quebrado,
A3 = la caja contiene dos huevos quebrados,
A4 = la caja contiene tres huevos quebrados,
A = huevo escogido está quebrado.

Según los datos del problema,

P (A1 ) = 0.779, P (A2 ) = 0.194, P (A3 ) = 0.026, P (A4 ) = 0.001

y
1 2 3
P (A/A1 ) = 0, P (A/A2 ) =
, P (A/A3 ) = , P (A/A4 ) = .
12 12 12
En consecuencia, por el Teorema de Probabilidades Totales,
P (A) = P (A / A1 ) P (A1 ) + P (A / A2 ) P (A2 ) + P (A / A3 ) P (A3 ) + P (A / A4 ) P (A4 )

1 2 3
= 0 · 0.779 + · 0.194 + · 0.026 + · 0.001
12 12 12

= 0.02075.

Ahora veremos una última regla acerca de probabilidades condicionales. Esta regla
entrega una forma de “actualizar” probabilidades y es conocida como regla de Bayes.
Antes de mostrar la regla en forma general, veamos un ejemplo que ilustre las ideas
básicas.

Ejemplo 1.5.9: Supongamos que hay tres cajas similares. La caja i contiene i fichas
blancas y una ficha negra, i = 1, 2, 3.

◦ ◦ ◦
◦ • ◦ • ◦ •

Caja 1 Caja 2 Caja 3

Figura 1.5.14

- 93 -
1.5 Teorema de Probabilidades Totales y de Bayes

Asumiremos también que todas las fichas son similares (mismo tamaño y misma textura).
Supongamos que yo escojo una caja al azar y entonces saco una ficha al azar desde esta
caja, mostrándote a ti sólo el color de la ficha. Yo te ofrezco un premio si tu puedes
adivinar de que caja provenı́a la ficha que te he mostrado.

Problema: ¿Qué caja deberı́as escoger si la ficha que yo te muestro es blanca? y ¿cuál
es la chance que tienes de acertar?
Solución: Es intuitivamente razonable que tu escojas la caja 3, ya que ésta es la caja
que tiene una mayor proporción de fichas blancas. Para confirmarlo, realicemos, para
i = 1, 2, 3 , el cálculo de
P (caja escogida es la N o i y ficha extraı́da es blanca)
P (caja escogida es la N o i/ficha extraı́da es blanca) = .
P (ficha extraı́da es blanca)
La siguiente Figura muestra el diagrama de árbol asociado al problema
Caja escogida Ficha extraı́da

1
2
◦ •
1 1
3 2

2
1 3
3 ◦
◦ • 1
3


1 3
3 4
◦ ◦
1
◦ • 4

Figura 1.5.15
De la Figura anterior, y por la regla del producto,
1 1
P (caja escogida es la N o 1 y ficha extraı́da es blanca) = · ,
3 2
1 2
P (caja escogida es la N o 2 y ficha extraı́da es blanca) = · ,
3 3
1 3
P (caja escogida es la N o 3 y ficha extraı́da es blanca) = · ,
3 4
es decir, para i = 1, 2, 3,
1 i
P (caja escogida es la N o i y ficha extraı́da es blanca) = · .
3 i+1

- 94 -
1.5 Teorema de Probabilidades Totales y de Bayes

Los sucesos Ai = caja escogida es la N o i, con i ∈ {1, 2, 3}, forman una partición del
espacio muestral. Aplicando el Teorema de Probabilidades Totales al suceso A =ficha
extraı́da es blanca, y usando el árbol anterior, obtenemos que

1 1 2 1 3 1
P (ficha extraı́da es blanca) = · + · + ·
2 3 3 3 4 3
23
= .
36
En consecuencia,
1
3 · i
i+1
P (caja escogida es la N o i / ficha extraı́da es blanca) = 23
36

12 i
= · (i = 1, 2, 3).
23 i + 1
i
Sustituyendo i+1 , para i = 1, 2, 3, obtenemos los siguientes resultados:

i 1 2 3

6 8 9
P (caja escogida es la N o i / ficha extraı́da es blanca) 23 23 23

Tabla 1.5.2

Esta tabla confirma la idea intuitiva de que escoger la caja 3 es lo más razonable, si se
está informado(de que la )ficha extraı́da fue blanca. Además, la chance de acertar es del
orden del 39% 23 9
≃ 0.39 .

Supongamos, más generalmente, que los sucesos A1 , . . . , An , representan n posibles


resultados (mutuamente excluyentes) de la “primera etapa” de un experimento aleatorio.
Se asume que los resultados de esta primera etapa son desconocidos. Sin embargo, el
resultado de un suceso A que ocurre en una “segunda etapa” y cuya chance depende de
cual de los Ai ha ocurrido, es conocido.
En el ejemplo previo A era el suceso que la ficha extraı́da fuese blanca y Ai el suceso
que la caja elegida fuese la N o i, i = 1, 2, 3.
El problema general es calcular las probabilidades de los sucesos Ai , dada la ocurrencia
del suceso A (llamadas probabilidades a posteriori), en términos de

a) la probabilidad (no condicional) P (Ai ),

b) las probabilidades condicionales P (A / Ai ).

Proposición 1.5.5: Teorema de Bayes. Sea (Ω, P ) modelo de probabilidades cualquiera


y A1 , . . . , An , partición de Ω. Si A es un suceso cualquiera de modo que P (A) > 0 y
P (Ai ) > 0, para i ∈ {1, . . . , n}, entonces

- 95 -
1.5 Teorema de Probabilidades Totales y de Bayes

P (A / Ai ) P (Ai )
P (Ai / A) = , i ∈ {1, . . . , n}.
P (A / A1 ) P (A1 ) + · · · + P (A / An ) P (An )

En efecto, de la definición de probabilidad condicional,


P (A ∩ Ai )
P (Ai / A) =
P (A)
y por la regla del producto,
P (A ∩ Ai ) = P (A / Ai ) P (Ai ).
Además, por el Teorema de Probabilidades Totales,
P (A) = P (A / A1 ) P (A1 ) + · · · + P (A / An ) P (An ).
En consecuencia, la fórmula que entrega el Teorema de Bayes se verifica.

Ejemplo 1.5.10: Durante el mes de julio la probabilidad de que llueva en un dı́a deter-
5
minado es 30 . Universidad de Chile gana un partido en un dı́a con lluvia con probabilidad
6 3
10 y en un dı́a sin lluvia con probabilidad 10 . Sabiendo que Universidad de Chile ganó un
partido en un dı́a de julio, ¿cuál es la probabilidad de que ese dı́a lloviera?
Sea (Ω, P ) modelo de probabilidades y A1 , A2 , A, los siguientes sucesos:
A1 = dı́a de julio llueve,
A2 = dı́a de julio no llueve,
A = Universidad de Chile gana el partido.

Según los datos del problema,


5 6 3
P (A1 ) = , P (A / A1 ) = , P (A / A2 ) =
30 10 10
25
y como A1 , A2 forman una partición de Ω, esto es, A2 = Ac1 , entonces P (A2 ) = 30 .
La siguiente figura muestra el diagrama de árbol para este ejemplo
A
Universidad de Chile
A1 6 gana el partido
10

Dı́a de Julio
llueve
5
30 Universidad de Chile
no gana el partido

A
Universidad de Chile
25 3 gana el partido
30 A2 10

Dı́a de Julio
no llueve

Universidad de Chile
no gana el partido

Figura 1.5.16

- 96 -
1.5 Teorema de Probabilidades Totales y de Bayes

Además, como el problema consiste en calcular P (A1 / A), utilizaremos el Teorema de


Bayes para resolverlo. Ası́,

P (A / A1 ) P (A1 )
P (A1 / A) =
P (A / A1 ) P (A1 ) + P (A / A2 ) P (A2 )

10 · 30
6 5
= 6
10 · 5
30 + 10
3
· 25
30

2
= .
7

Ejemplo 1.5.11: En una fábrica de neumáticos, se sabe que 7 de cada 10000 neumáticos
presenta algún tipo de falla. Un test para detectar si un neumático está fallado da resul-
tado positivo (es decir, avisa que el neumático tiene fallas) el 98% de las veces que éste
efectivamente está fallado y da resultado positivo el 9% de las veces que el neumático está
bueno. Es decir, el 9% de las veces el test avisa que el neumático está fallado cuando éste
efectivamente está bueno.
Se elige al azar un neumático de esta fábrica y se le aplica el test. Calculemos la probabi-
lidad de que:

i) el neumático esté fallado y el resultado del test sea positivo,

ii) el neumático esté fallado y el resultado el test sea negativo, es decir, que el neumá-
tico esté fallado y que el test lo detecte como bueno,

iii) el neumático esté bueno y el resultado del test sea positivo,

iv) el neumático esté fallado sabiendo que el resultado del test es positivo.

La Figura siguiente muestra el diagrama de árbol asociado a este ejemplo.


+

Resultado del test


F 0.98 es positivo

Neumático
está fallado −
7 0.02
10000 Resultado del test
es negativo

Resultado del test


9993 es positivo
10000 B 0.09
Neumático
está bueno −
0.91 Resultado del test
es negativo

Figura 1.5.17

- 97 -
1.5 Teorema de Probabilidades Totales y de Bayes

Sea (Ω, P ) espacio de probabilidades y F , B, +, − sucesos como los definidos en la


figura anterior. En estas condiciones, los datos del problema se traducen en
7
P (F ) = , P (+ / F ) = 0.98, P (+ / B) = 0.09.
10000
9993
También, por el hecho de que B = F c , se obtiene P (B) = 10000 y como el complemento
de + es −, Observación 1.5.2 α) implica que

P (− / F ) = 0.02, P (− / B) = 0.91.

En consecuencia, por la regla del producto se obtiene que

i)
P (F ∩ +) = P (F ) P (+ / F )
= 0.0007 · 0.98
= 0.000686

ii)
P (F ∩ −) = P (F ) P (− / F )
= 0.0007 · 0.02
= 0.000014

iii)
P (B ∩ +) = P (B) P (+ / B)
= 0.9993 · 0.09
= 0.089937

Ahora, utilizando el Teorema de Bayes resulta

iv)
P (+ / F ) P (F )
P (F / +) =
P (+)

P (+ / F ) P (F )
=
P (+ / F ) P (F ) + P (+ / B) P (B)

0.000686
=
0.000686 + 0.089937

= 0.00757.

Notar que P (+) = 0.090623, es decir, la proporción de neumáticos que resultan con
test positivo es del orden de 9 en 100.
Supongamos ahora que se aplica un segundo test más exacto a todos los neumáticos
que dieron positivo en el primer test. El segundo test da resultado positivo en el 99% de
los casos en que el neumático efectivamente está fallado y entrega resultado positivo el 1%
de las veces que el neumático está bueno. Veamos ahora cuál es la probabilidad de que un
neumático esté fallado dado que el segundo test también dio resultado positivo.
La figura siguiente muestra el diagrama de árbol para esta nueva situación

- 98 -
1.5 Teorema de Probabilidades Totales y de Bayes

Neumático Resultado 1o test Resultado 2o test

0.99 +
+
0.98 −
F
0.0007 0.02

0.01 +
+
0.9993 0.09 −
B
0.91

Figura 1.5.18
Utilizando Teorema de Bayes,

P (2o test da positivo / F ) P (F )


P (F / 2o test da positivo) = .
P (2o test da positivo)
Para ver la probabilidad de que el segundo test de positivo, debemos sumar las probabili-
dades obtenidas en cada camino del árbol que conduzca a + (resultado del 2o test). Ası́,
P (2o test da positivo) = 0.0007 · 0.98 · 0.99 + 0.9993 · 0.09 · 0.01
= 0.00158.
También, desde el árbol anterior vemos que
P (F ) P (2o test da positivo / F ) = 0.0007 · 0.98 · 0.99
= 0.00068.
En consecuencia,
P (F / 2o test da positivo) = 0.43.

Para finalizar esta sección introduciremos la noción de independencia de sucesos (que


no debe confundirse con la noción de sucesos disjuntos). Si A y B son sucesos en algún
espacio de probabilidades, la idea intuitiva de que A y B sean independientes, es que la
probabilidad de A no dependa de la ocurrencia o no ocurrencia del suceso B, llamemos p
a esta probabilidad. En sı́mbolos,
P (A / B) = p y P (A / B c ) = p.
Ahora, del Teorema de Probabilidades Totales,
P (A) = P (A / B) P (B) + P (A / B c ) P (B c )
= p P (B) + p P (B c )
= p (P (B) + P (B c ))
= p [P (B) + (1 − P (B))]
= p.

- 99 -
1.5 Teorema de Probabilidades Totales y de Bayes

Es decir,
P (A / B) = P (A).

Ejemplo 1.5.12: Una urna contiene dos fichas blancas y tres rojas. Se extraen dos
fichas al azar, sin reposición. Es decir, se elige la primera ficha, se observa su color y no
la devolvemos a la urna; ahora extraemos la segunda ficha.
Sea (Ω, P ) modelo de probabilidades y Bi , Ri , los siguientes sucesos:
Bi = ficha elegida en la i-ésima extracción es blanca,
Ri = ficha elegida en la i-ésima extracción es roja.
Entonces,
1 2
P (B2 / B1 ) = , P (B2 / R1 ) =
4 4
y
2 1 3 2
P (B2 ) = · + ·
5 4 5 4
2
= ,
5
por lo que
P (B2 / B1 ) ̸= P (B2 ).
El siguiente diagrama de árbol representa la situación anterior.
Primera extracción Segunda extracción
B2
Ficha elegida en
a
la 2 extracción
1
B1 4 es blanca
Ficha elegida en
a
la 1 extracción
es blanca R2
2 3 Ficha elegida en
5 4 a
la 2 extracción
es roja

B2
Ficha elegida en
a
la 2 extracción
3 2
5 R1 4 es blanca
Ficha elegida en
a
la 1 extracción
es roja R2
2 Ficha elegida en
4 a
la 2 extracción
es roja

Figura 1.5.19
En consecuencia, los sucesos B1 y B2 no podrı́an ser independientes. Intuitivamente, es
claro que la chance que se tiene de extraer la segunda ficha blanca dependerá (pues la
ficha no se regresa a la urna) de si la primera ficha es blanca o es roja.

Ejemplo 1.5.13: Imaginemos ahora que las fichas se extraen con reposición. Es decir,
se elige la primera ficha, se observa su color y luego se regresa a la urna. Ahora se extrae
la segunda ficha.

- 100 -
1.5 Teorema de Probabilidades Totales y de Bayes

En este caso,
2 2
P (B2 / B1 ) = , P (B2 / R1 ) =
5 5
y
2 2 3 2
P (B2 ) = · + ·
5 5 5 5
2
= .
5

El árbol que representa ahora esta situación es

B2
2
5

B1
2 3
5 5
R2

B2
3 2
5 5

R1
3
5
R2

Figura 1.5.20

Es decir, los sucesos B1 y B2 serı́an independientes. Intuitivamente, la chance de extraer


la segunda ficha blanca no depende (pues la ficha elegida regresa a la urna) de si la
primera ficha es blanca o es roja.

Definición 1.5.2: Sea (Ω, P ) modelo de probabilidades cualquiera y A, B sucesos. Se


dice que A y B son independientes si

P (A ∩ B) = P (A) P (B).

Observar que si P (B) > 0, entonces por la regla del producto

P (A ∩ B) = P (A / B) P (B),

de donde obtenemos que


P (A) P (B) = P (A / B) P (B),
o sea,
P (A) = P (A / B).

- 101 -
1.5 Teorema de Probabilidades Totales y de Bayes

Observación 1.5.3:

a) Si A y B son sucesos mutuamente excluyentes, esto es A ∩ B = ∅, entonces


P (A ∩ B) = 0, por lo que A y B son independientes si P (A) P (B) = 0, es decir, si
P (A) = 0 ó P (B) = 0.
Sin embargo, dos sucesos pueden ser independientes, pero no mutuamente excluyentes,
es decir, A ∩ B ̸= ∅.
A modo de ejemplo, si Ω = {1, 2, 3, 4, 5, 6}, A = {1, 3}, B = {1, 4, 5} y (Ω, P ) es
el modelo de Laplace, entonces
#(A ∩ B)
P (A ∩ B) =
#Ω

1
=
6
y
#A #B
P (A) P (B) =
#Ω #Ω

23
=
66
1
= .
6
Por lo tanto, los sucesos A y B son independientes, sin embargo A ∩ B ̸= ∅.

b) En general, se dice que los sucesos A1 , A2 , . . . , An son independientes si, para todo
m ∈ {2, 3, . . . , n} y todo {i1 , i2 , . . . , im } ⊂ {1, 2, . . . , n},

P (Ai1 ∩ Ai2 ∩ · · · ∩ Aim ) = P (Ai1 ) P (Ai2 ) · · · · · P (Aim ).

A modo de ejemplo, los sucesos A1 , A2 , A3 son independientes si

P (A1 ∩ A2 ) = P (A1 ) P (A2 ),

P (A1 ∩ A3 ) = P (A1 ) P (A3 ),

P (A2 ∩ A3 ) = P (A2 ) P (A3 ),

P (A1 ∩ A2 ∩ A3 ) = P (A1 ) P (A2 ) P (A3 ).

c) Si A, B son sucesos independientes, entonces también son independientes

i) Ac y B c .
ii) Ac y B.

- 102 -
1.5 Teorema de Probabilidades Totales y de Bayes

iii) A y B c .

En efecto,
P (Ac ∩ B c ) = P ((A ∪ B)c )
= 1 − P (A ∪ B)
= 1 − [P (A) + P (B) − P (A ∩ B)]
= 1 − [P (A) + P (B) − P (A) P (B)]
= (1 − P (A)) − (P (B) − P (A) P (B))
= P (Ac ) − P (B)(1 − P (A))
= P (Ac ) − P (B) P (Ac )
= P (Ac )(1 − P (B))
= P (Ac ) P (B c ),

o sea, Ac y B c son independientes.


También, por la regla de la diferencia generalizada (Proposición 1.4.1, d)),

P (Ac ∩ B) = P (B) − P (A ∩ B)

y
P (A ∩ B c ) = P (A) − P (A ∩ B)

es decir,
P (Ac ∩ B) = P (B) − P (A) P (B)
= P (B) (1 − P (A))
= P (B) P (Ac )
y
P (A ∩ B c ) = P (A) − P (A) P (B)
= P (A) (1 − P (B))
= P (A) P (B c ),

o sea, tanto Ac y B como A y B c son independientes.

d) Más generalmente, si A1 , . . . , An son independientes, entonces h1 (A1 ), . . . , hn (An )


son independientes, donde hi (Ai ) = Ai ó hi (Ai ) = Aci .

Ejemplo 1.5.14: Un sistema consiste de dos componentes C1 y C2 , cada una de las


cuales debe permanecer operativa para que el sistema completo funcione. En este caso se
dice que las componentes están conectadas en serie, y se acostumbra a representarlas como
en el diagrama siguiente

C1 C2

Figura 1.5.21

- 103 -
1.5 Teorema de Probabilidades Totales y de Bayes

Sea Ti el suceso que la componente Ci trabaja sin fallar por un perı́odo de tiempo, digamos
un dı́a. El suceso que el sistema completo trabaje sin fallar por un perı́odo de un dı́a es el
suceso que ambos operen sin fallar, esto es, el suceso T1 ∩ T2 .
Las probabilidades P (T1 ) y P (T2 ) son llamadas confiabilidades de las componentes C1 y
C2 respectivamente. La probabilidad P (T1 ∩ T2 ) es la confiabilidad del sistema completo.
Supongamos que las confiabilidades P (T1 ) y P (T2 ) son conocidas debido a datos empı́ricos
de comportamientos de componentes similares. Por ejemplo, asumimos que P (T1 ) = 0.9
y P (T2 ) = 0.8. Si las particulares componentes C1 y C2 nunca han sido usadas en
conjunto, P (T1 ∩ T2 ) no podrı́a conocerse empı́ricamente. Pero, puede aún ser razonable
asumir que los sucesos T1 y T2 sean independientes. Entonces, la confiabilidad del sistema
completo deberı́a ser igual a
P (sistema funcione) = P (T1 ∩ T2 )
= P (T1 ) P (T2 )
= 0.9 · 0.8
= 0.72.
Sin embargo, el supuesto de independencia de T1 y T2 podrı́a no ser correcto. Por ejemplo,
si la falla de ambas componentes se debe a una causa común (fluctuación de voltaje de un
generador, corte circuito, etc.). En este caso, para encontrar la confiabilidad del sistema,
deberı́amos usar la regla del producto
P (T1 ∩ T2 ) = P (T2 / T1 ) P (T1 )
y asumir que P (T2 / T1 ) puede ser determinado empı́ricamente.

Un método para hacer crecer la confiabilidad de un sistema es colocar las componentes


C1 y C2 en paralelo. Ası́, para que el sistema completo funcione basta con que alguna
de las dos componentes funcione. Las dos componentes C1 y C2 colocadas en paralelo
pueden ser representadas como lo muestra el diagrama siguiente.

C1

C2

Figura 1.5.22
En este caso, el suceso que el sistema completo trabaje sin fallar por un perı́odo de un dı́a,
es el suceso T1 ∪T2 , esto es, opera la componente C1 o la C2 . Por lo tanto, la confiabilidad
del sistema completo es en este caso
P (sistema funcione) = P (T1 ∪ T2 )
= P (T1 ) + P (T2 ) − P (T1 ∩ T2 ).

Para el ejemplo en que P (T1 ) = 0.9, P (T2 ) = 0.8 y T1 , T2 independientes,


P (sistema funcione) = 0.9 + 0.8 − 0.9 · 0.8
= 0.98.

- 104 -
1.5 Teorema de Probabilidades Totales y de Bayes

Recordar que en el caso en que las componentes están conectadas en serie,


P (sistema funcione) = 0.72.
Una forma alternativa de calcular la probabilidad que el sistema funcione, esto es,
calcular P (T1 ∪ T2 ), es la siguiente:

P (T1 ∪ T2 ) = 1 − P ((T1 ∪ T2 )c )
= 1 − P (T1c ∩ T2c ).

Pero, T1 y T2 son independientes, por lo que T1c y T2c también lo son (Observación
anterior, parte c)). En consecuencia

P (T1 ∪ T2 ) = 1 − P (T1c ∩ T2c )


= 1 − P (T1c ) P (T2c )
= 1 − [(1 − P (T1 ))(1 − P (T2 ))]
= 1 − [(1 − 0.9)(1 − 0.8)]
= 1 − 0.1 · 0.2
= 0.98.

Ejemplo 1.5.15: Sea (Ω, P ) modelo de probabilidades y A, B sucesos tales que


P (A) = 0.5 y P (A ∪ B) = 0.8.
a) ¿Para qué valor de P (B), los sucesos A y B serı́an mutuamente excluyentes?

b) ¿Para qué valor de P (B), los sucesos A y B serı́an independientes?


Primeramente, los sucesos A y B son mutuamente excluyentes si A ∩ B = ∅, por lo
que P (A ∩ B) = 0. Pero, de la regla e) en Proposición 1.4.1,

P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Ası́, obtenemos la ecuación


0.8 = 0.5 + P (B) − 0,
de donde P (B) = 0.3.
También, si A y B son independientes, P (A ∩ B) = P (A) P (B), por lo que ahora
obtenemos la ecuación
0.8 = 0.5 + P (B) − 0.5 P (B),
de donde P (B) = 0.6.

Comentario Histórico: Se sabe que Thomas Bayes nació en Londres, Inglaterra, en


1702, pero no se ha encontrado registro de la fecha exacta de su nacimiento. Su padre
fue uno de los primeros seis ministros presbiterianos que fueron ordenados en Inglaterra.
La educación de Thomas fue privada, un hecho que se antoja necesario para el hijo de
un ministro presbiteriano de aquellos tiempos. Parece ser que de Moivre fue su maestro
particular, pues se sabe que por ese entonces ejercı́a como profesor en Londres.
Bayes fue ordenado ministro presbiteriano y asistió a su padre en Holborn. Al final de
la década iniciada en 1720 fue nombrado pastor en Turnbridge Wells (Kent, Inglaterra).

- 105 -
1.5 Teorema de Probabilidades Totales y de Bayes

Aunque trató de retirarse de su puesto eclesiástico en 1749, permaneció en él hasta 1752;
una vez retirado siguió viviendo en Turnbridge Wells hasta el dı́a de su muerte.
En reconocimiento al importante trabajo que realizó Thomas Bayes en probabilidad,
su tumba fue restaurada en 1969 con donativos de estadı́sticos de todo el mundo. Teólogo,
matemático y miembro de la Royal Society desde 1742, Bayes fue el primero en utilizar
la probabilidad inductivamente y establecer una base matemática para la inferencia pro-
babilı́stica (la manera de calcular, a partir de la frecuencia con la que un acontecimiento
ocurrió, la probabilidad de que ocurrirá en el futuro).
Los únicos trabajos que se sabe que Thomas Bayes publicó en vida son: Divine Provi-
dence and Government Is the Happiness of His Creatures (1731) y An Introduction to the
Doctrine of Fluxions, and a Defence of The Analyst (1736), que fueron blanco de crı́ticas
por parte del obispo Berkeley, quien sustentaba sus ideas en los fundamentos lógicos del
cálculo de Newton.
En 1763 se publicó póstumamente Essay Towards Solving a Problem in the Doctrine
of Chances, donde el reverendo Bayes abordó el problema de las causas a través de los
efectos observados, y donde se enuncia el teorema que lleva su nombre. Este trabajo fue
entregado a la Royal Society por Richard Price (Phil. Trans. Roy. Soc. 53, 370-418)
y resulta ser la base para la técnica estadı́stica conocida como estadı́stica bayesiana, que
se utiliza para calcular la probabilidad de la validez de una proposición tomando como
bases la estimación de la probabilidad previa y las evidencias relevantes más recientes.
Las desventajas de este método, señaladas por estadı́sticos posteriores a Bayes, incluyen
las diferentes maneras de asignar las distribuciones de parámetros previas y la posible
sensibilidad en las conclusiones según se escojan las distribuciones.
La fórmula de Bayes encuentra aplicaciones importantes, entre otras, en la teorı́a de
artillerı́a de largo alcance como es conocer con más precisión las condiciones de tiro. Las
técnicas de Bayes permiten abordar en forma diferente el área de “toma de decisiones”,
formulándola en términos de pérdidas o ganancias económicas y no en términos de la
probabilidad de tomar la decisión correcta. Ası́, por ejemplo, tomar una o dos decisiones
que pudieran ser incorrectas puede ser benéfico en términos económicos.
Thomas Bayes murió el 17 de abril de 1761. Sus restos descansan en el cementerio
londinense de Bunhill Fields.

- 106 -
1.5 Teorema de Probabilidades Totales y de Bayes

PROBLEMAS
Problema 1.5.A: En una urna hay n fichas, de las cuales m son blancas. Se extraen
al azar dos fichas, sin reposición. Sean B1 y B2 , respectivamente, los eventos de que la
primera (la segunda) ficha extraı́da sea blanca. Verifique que P (B2 / B1 ) P (B2 ) tiende a
1 cuando m y n tienden a infinito.

Problema 1.5.B: Una ruleta de casino está formada por 16 números de color rojo, 16
números de color negro y un número de color verde. Indique la probabilidad de que el
color rojo salga 10 veces, 4 veces el negro y 1 vez el verde, en una secuencia de 15 jugadas
(las jugadas sucesivas son independientes).

Problema 1.5.C: Dos personas A y B, juegan un partido de tenis. La probabilidad de


que A gane un set cualquiera es de 0.55 y es independiente del resultado de cualquier otro
set. El primero que gana 3 sets gana el partido. Halle la probabilidad de que A gane el
partido en:

i) un total de 3 sets,

ii) un total de 4 sets,

iii) un total de 5 sets,

iv) los sets que necesite.

Problema 1.5.D: Un sistema electrónico avisa peligro solamente cuando dos de sus tres
componentes fallan. Suponga que las componentes se denotan por 1, 2, 3. Asuma que la
probabilidad de que falle la componente 1 es 0.10, la 2 es 0.15 y la 3 es 0.20. Suponga,
además, que la falla de la componente 3 es independiente de las otras dos componentes,
mientras que la probabilidad de que falle la componente 2 sabiendo que la componente 1
ha fallado es 0.5. Calcule la probabilidad de que el sistema avise peligro.

Problema 1.5.E: Tres ciudades; A, B y C, están unidas por diferentes carreteras (como
en 1.5.23), en cada una de las cuales existe un puente pi . Asuma que la probabilidad de
que un temporal destruya un puente cualquiera es p y que la destrucción de una carretera
no afecta el estado de las otras. ¿Cuál es la probabilidad que después de un temporal:

a) no haya paso de A a B?,

b) no haya paso de A a B, si dos puentes fueron destruidos?

p3 p1

C B
p2

Figura 1.5.23

- 107 -
1.5 Teorema de Probabilidades Totales y de Bayes

Problema 1.5.F: Los cinco nodos en el diagrama siguiente, corresponden a interruptores


en un circuito eléctrico. Se dice que el interruptor está cerrado si este deja fluir la corriente
eléctrica. Suponga que los interruptores se comportan de manera independiente y que la
probabilidad de que un interruptor esté cerrado es la misma para todos los interruptores.
Esta probabilidad común se denotará por p.

a) Calcule la probabilidad de que fluya corriente entre B y C.

b) Dado que fluye corriente entre B y C, calcule la probabilidad condicional de que el


interruptor 2 esté abierto

4 5

B 1 C

Figura 1.5.24

Problema 1.5.G: Se dispone de tres urnas, digamos V , W y Z. Suponga que la urna


V contiene 5 fichas blancas y 3 negras, la urna W contiene 4 fichas blancas y 6 negras.
El experimento consiste en extraer, al azar, una ficha de cada urna V , W , y depositarlas
en la urna Z. Se extrae ahora, al azar, una ficha de la urna Z. Calcule la probabilidad de
que la ficha sea negra.

Problema 1.5.H: Para seleccionar sus funcionarios, una empresa ofrece a sus candidatos
un curso de entrenamiento durante una semana. Al final, los candidatos son sometidos a
una prueba, siendo clasificados el 25% como buenos (B), 50% como satisfactorios (S) y el
25% restante como malos (M).
Como medida de economı́a, el departamento de selección pretende sustituir el entre-
namiento por un test. Pero, para esto, la empresa gustarı́a de conocer cuál es la proba-
bilidad de que un individuo aprobado en el test fuese considerado malo en el caso en que
este hubiese hecho el curso. Ası́, ese año, antes del inicio del curso, los candidatos fueron
sometidos al test y, de acuerdo con los resultados, recibieron la calificación aprobado (A) y
reprobado (R). Al final del curso se obtuvieron las siguientes probabilidades condicionales:

P (A/B) = 0.8, P (A/S) = 0.5, P (A/M ) = 0.2.

¿Cuál es la probabilidad de que un individuo aprobado en el test fuese considerado


malo en el caso en que este hubiese hecho el curso?

Problema 1.5.I: Una empresa publica en un periódico del dı́a domingo 3 de diciembre de
2000 un aviso buscando un ingeniero. El aviso indica que los postulantes deben concertar,
telefónicamente, una entrevista con el Sr. Pérez. De las personas que llaman el dı́a lunes
4 de diciembre sólo el 60% logra concertar la entrevista para ese mismo dı́a, del 40%
restante, el 75% concerta la entrevista dentro del resto de la semana y el 25% para la
semana próxima. Dada la alta demanda existente por ingenieros, sólo un 80% de los

- 108 -
1.5 Teorema de Probabilidades Totales y de Bayes

postulantes que tienen la entrevista el mismo dı́a lunes 4 de diciembre asisten, mientras
que el 60% y 40% de los postulantes que concertaron la entrevista para el resto de la
semana y la próxima asisten a ella, respectivamente. ¿Cuál es la probabilidad de que un
postulante que asiste a la entrevista, sea uno de los que concertó la entrevista para el resto
de la semana?

Problema 1.5.J: Se sabe que 7 de cada 1000 artı́culos son defectuosos. Un test para
detectar si un artı́culo es defectuoso da un resultado positivo con una probabilidad de 0.98
de que el artı́culo sea defectuoso y un resultado positivo con una probabilidad de 0.09 de
que el artı́culo sea bueno. Es decir, con probabilidad de 0.98 el test avisa que el artı́culo
es defectuoso, cuando este efectivamente lo es, y con probabilidad 0.09, el test avisa que
el artı́culo es defectuoso cuando efectivamente el artı́culo está bueno. Se elige, al azar, un
artı́culo y se le aplica el test.

a) Halle la probabilidad de que:

i) el artı́culo sea defectuoso y el resultado sea positivo,


ii) el artı́culo sea defectuoso y el resultado sea negativo,
iii) el artı́culo sea bueno y el resultado sea positivo,
iv) el artı́culo sea defectuoso sabiendo que el resultado es positivo.

b) Halle la proporción de artı́culos que da un resultado positivo.

c) Se aplica un test más exacto a todos los artı́culos que dan un resultado positivo en
el test anterior. El segundo test da un resultado positivo con una probabilidad de
0.99 de que el artı́culo sea defectuoso y un resultado positivo con una probabilidad
de 0.01 de que el artı́culo sea bueno.

Halle la probabilidad de que un artı́culo sea defectuoso cuando el segundo test entrega
también un resultado positivo.

Problema 1.5.K: Se dispone de una urna que contiene 5 fichas blancas y 10 negras y un
dado equilibrado. El experimento consiste en lanzar el dado y luego escoger de la urna,
sin reposición, tantas fichas como puntos se obtienen en el dado.

a) ¿Cuál es la probabilidad de que exactamente dos de las fichas extraı́das sean de color
blanco blancas?

b) ¿Cuál es la probabilidad de que el dado muestre 3 si todas las fichas extraı́das fueran
blancas?

- 109 -
1.5 Teorema de Probabilidades Totales y de Bayes

Problema 1.5.L: Una máquina produce, en serie, cierto tipo de piezas que son ubicadas
al azar en cajas que contienen 1200 unidades. La experiencia ha anotado los siguientes
resultados:
% de piezas defectuosas Proporción de cajas que
en la caja contienen este porcentaje
0 0.78
1 0.17
2 0.034
3 0.009
4 0.005
5 0.002
6 0.000
Se considera aceptable una caja que contiene el 2% o menos de piezas defectuosas. El
objeto de la inspección es rechazar aquellas cajas que tienen un % de defectuosas mayor
que el 2%. La inspección normal consiste en el examen de 50 piezas de cada caja. Una
caja inspeccionada dio 6 piezas defectuosas. Indique la probabilidad de que esta caja sea
rechazable.

Problema 1.5.M: Se dispone de tres dados A, B y C. El dado A es equilibrado, mientras


que B está cargado a favor de los números impares y C lo está a favor de los pares.
Sea p > 12 (respectivamente q < 21 ) la probabilidad de obtener un número impar al
lanzar el dado B (respectivamente el dado C). El experimento consiste en elegir uno de
los dados de acuerdo al mecanismo que se indica a continuación y luego lanzarlo tres veces
(siempre el mismo dado).
El mecanismo de selección consiste en lanzar una moneda no equilibrada D (con probabi-
lidad de cara igual a α ) y seleccionar el dado A si sale cara, de salir sello se elige B o C
con igual probabilidad.

a) Calcule la probabilidad de que en el primer lanzamiento del dado aparezca un número


par.
b) Calcule la probabilidad condicional de que el dado A haya sido seleccionado en la
primera etapa si los dos primeros números obtenidos son impares.
c) Calcule la probabilidad de obtener un número impar en el tercer lanzamiento si se
ha obtenido un número impar en los dos anteriores.

Problema 1.5.N: Alternativamente, se lanza una moneda y un dado, honestos, comen-


zando con la moneda.
a) ¿Cuál es la probabilidad que en el n-ésimo lanzamiento de la moneda resulte “cara”,
sin que antes haya salido cara en los lanzamientos de la moneda, ni que el dado haya
mostrado un 5 ó 6?
b) ¿Cuál es la probabilidad de que la moneda registre una “cara” antes que el dado
muestre un 5 ó 6?

- 110 -
CAPÍTULO 2
VARIABLES ALEATORIAS

2.1 Variables Aleatorias Discretas

En el capı́tulo anterior hemos introducido algunos modelos probabilı́sticos, a través de


espacios muestrales relativamente simples. Esto facilita bastante la comprensión del con-
cepto de probabilidad y la obtención de algunas propiedades. Pero, para afrontar situa-
ciones prácticas más generales, necesitamos ampliar estos conceptos de modo que tengamos
modelos probabilı́sticos que representen todos los tipos de variables que habitualmente
aparecen en situaciones prácticas.
Introduzcamos el concepto de variable aleatoria discreta por medio de algunos ejemplos.

Ejemplo 2.1.1: Un empresario pretende establecer una empresa para el montaje de un


producto compuesto de una esfera y un cilindro. Las partes son adquiridas en fábricas dife-
rentes, y el montaje consistirá en soldar las dos partes y pintarlas. El producto terminado
tiene especificaciones dentro de ciertos lı́mites, respecto del largo, definido por el cilindro,
y el diámetro definido por la esfera. Esto será verificado una vez hecho el montaje.
Para estudiar la viabilidad de la empresa, el empresario quiere tener una idea de la dis-
tribución de la ganancia por cada montaje hecho.
Se sabe que cada componente puede ser clasificada como buena, larga y corta, conforme su
medida esté dentro de las especificaciones, y ésta sea mayor o menor que lo especificado.
Las componentes son adquiridas en dos fábricas diferentes (A y D) y su precio de costo
fue de 5 unidades de dinero (cada componente).

111
2.1 Variables Aleatorias Discretas

Distribución de la producción de las fábricas A y D


de acuerdo con las medidas de las piezas producidas

Fábrica A Fábrica D
Producto Cilindro Esfera

Dentro de las especificaciones . . . . . . . . . Buena (B) 0.8 0.7


Mayor que las especificaciones . . . . . . . . . Larga (L) 0.1 0.2
Menor que las especificaciones . . . . . . . . . Corta (C) 0.1 0.1

Tabla 2.1.1

Si el producto final presenta alguna componente con caracterı́stica C, este será irre-
cuperable, y en conjunto será vendido como oferta a un precio de 5 unidades. Cada
componente Larga puede ser recuperada a un costo adicional de 5 unidades. Si el precio
de venta de cada conjunto es de 25 unidades de dinero, ¿cómo será la distribución de
frecuencias de la variable X: ganancia por el montaje?
La construcción de esta distribución de frecuencias va a depender de ciertos supuestos
que haremos sobre el comportamiento del sistema considerado. En vista de esas suposi-
ciones, estaremos trabajando con un modelo de la realidad, y la distribución que obten-
dremos será una distribución teórica, tanto más próxima de la distribución de frecuencias
real cuanto más fieles a la realidad fueron los supuestos hechos.
Primeramente, veamos la construcción del espacio muestral para el montaje del con-
junto según las caracterı́sticas de cada componente y sus respectivas probabilidades. Como
las componentes provienen de fábricas diferentes, vamos a suponer que la clasificación de
los cilindros según sus caracterı́sticas y la clasificación de las esferas según sus carac-
terı́sticas serán sucesos independientes.

Cilindro Esfera
B 0.56
0.7

B L 0.16
0.2
0.1
C 0.08
0.8

B 0.07
0.7
0.1 0.02
C L
0.2
0.1 0.01
C
0.1
B 0.07
0.7

L L 0.02
0.2
0.1 0.01
C

Figura 2.1.1

- 112 -
2.1 Variables Aleatorias Discretas

Una representación del espacio muestral en cuestión fue obtenido de la figura anterior
y está representado por la tabla siguiente:

Montaje Probabilidad Ganancia por montaje (X)


BB 0.56 15
BL 0.16 10
BC 0.08 -5
LB 0.07 10
LL 0.02 5
LC 0.01 -5
CB 0.07 -5
CL 0.02 -5
CC 0.01 -5

Tabla 2.1.2

La primera columna de la Tabla 2.1.2 representa el espacio muestral Ω y la última


columna de la tabla fue construida en base a la información sobre los precios. Por ejemplo,
obteniendo un montaje LB, esto es, cilindro largo y esfera buena, el precio de venta es 25
unidades y debemos descontar: 10 unidades por el costo de las componentes y 5 unidades
para reparar el cilindro largo. Por lo tanto, la ganancia X de ese conjunto será 10 unidades
(las ganancias de los otros montajes se verifican similarmente). También, con los datos de
la tabla anterior, vemos que X puede asumir uno de los siguientes valores:

15 si ocurre el suceso A1 = {BB},

10 si ocurre el suceso A2 = {BL, LB},

5 si ocurre el suceso A3 = {LL}

-5 si ocurre el suceso A4 = {BC, LC, CB, CL, CC}.

Cada uno de estos sucesos tienen probabilidad:

P (A1 ) = 0.56, P (A2 ) = 0.23, P (A3 ) = 0.02, P (A4 ) = 0.19,

lo que permite escribir la función (x, pX (x)) en la tabla siguiente:

x pX (x)
15 0.56
10 0.23
5 0.02
-5 0.19
Total 1,00

Tabla 2.1.3

- 113 -
2.1 Variables Aleatorias Discretas

lo cual es un modelo teórico para la distribución de la variable X, que el empresario podrá


usar para juzgar la viabilidad económica del proyecto que el pretende realizar. En este
caso, x es un valor que puede asumir X, y pX (x) es la probabilidad de que X asuma el
valor x.
La función (x, pX (x)) de la Tabla 2.1.3 es llamada función de probabilidad (también dis-
tribución de probabilidad o densidad de probabilidad) de la variable X. Esquemáticamente
esta función puede ser representada de la siguiente forma.


A4 A2

A3 A1

−5 0 5 10 15 R

Figura 2.1.2
Es evidente que, al mismo espacio muestral Ω podemos asociar otras variables, como
veremos en el ejemplo siguiente.

Ejemplo 2.1.2: Consideremos la variable Y que representa el costo de reparación de


cada conjunto producido. Entonces, Y asume los siguientes valores:
0, si ocurre el suceso B1 = {BB, BC, LC, CB, CL, CC}.
5, si ocurre el suceso B2 = {BL, LB}.
10, si ocurre el suceso B3 = {LL}.
La función de probabilidad de la variable Y está representada por la tabla siguiente.

y pY (y)
0 0.75
5 0.23
10 0.02
Total 1.00

Tabla 2.1.4

Esquemáticamente, esta función puede verse en la forma siguiente.


B1

B2 B3

0 5 10 R

Figura 2.1.3

- 114 -
2.1 Variables Aleatorias Discretas

Entonces, una variable aleatoria discreta, X, estará bien caracterizada si indicamos los
posibles valores x1 , x2 , . . . , xk , . . ., que ésta puede asumir y las respectivas probabilidades
pX (x1 ), pX (x2 ), . . . , pX (xk ), . . ., o sea, conocer la función de distribución de probabilidad
(x, pX (x)). Es usual el uso de la notación pX (x) = P (X = x).

Ejemplo 2.1.3: Supongamos que en el Problema 1.5.A, n = 15 y m = 6, es decir, se


extraen al azar dos fichas, sin reposición, desde una urna que contiene en total 15 fichas,
de las cuales 6 son blancas. Definimos la variable X = número de fichas blancas obtenidas
después de las dos extracciones.
Entonces, se establece el siguiente esquema:

5
14 B2 Resultado Probabilidad X

B1 B1 B2 10
2
6 70
15
9
14
B2
B1 B2 c 18
70 1
6
14 B2
9 B1 c B2 18
1
B1
15 70

B1 c B2 c 24
70 0
8
14
B2

Figura 2.1.4 Tabla 2.1.5

Vemos ası́, que a cada resultado del experimento le está asociado un valor de la variable
X; estos valores son 0, 1 y 2.
Tenemos que al resultado X = 0, se le asocia probabilidad 24/70, pues la variable toma el
valor 0 sólo si ocurre el resultado B1 c B2 c .
Al resultado X = 1 se le asocia probabilidad 18 18 36
70 + 70 = 70 , debido a que la variable asume el
c c
valor 1 sólo si se obtienen los resultados B1 B2 o B1 B2 , que son mutuamente excluyentes.
Finalmente, para X = 2, la probabilidad asociada es 10 70 , pues la variable X, toma el valor
2 sólo cuando el resultado es B1 B2 .
Resumiendo,
24
pX (0) = P (X = 0) = P (B1 c B2 c ) = ,
70
36
pX (1) = P (X = 1) = P (B1 B2 o B1 c B2 ) = ,
2
70
10
pX (2) = P (X = 2) = P (B1 B2 ) = .
70
La tabla siguiente esquematiza la distribución de probabilidades de la variable X.

xi 0 1 2

24 36 10
pX (xi ) 70 70 70

Tabla 2.1.6

- 115 -
2.1 Variables Aleatorias Discretas

De los ejemplos estudiados, vemos que a cada punto del espacio muestral la variable en
consideración asocia un valor numérico, lo que corresponde en Matemática al concepto de
función, más precisamente, una función definida sobre el espacio muestral Ω y con valores
reales.

Definición 2.1.1: Una función X, definida sobre un espacio muestral Ω y con valores
en un conjunto de puntos de la recta real, se dice que es una variable aleatoria real.
Gráficamente, por ejemplo, se tiene que

ω1 ω2 ω3 ω4 Ω

x1 x2 x3 R
Figura 2.1.5
También, usamos la notación (X = xi ) para denotar al subconjunto de Ω, X −1 ({xi }),
es decir, (X = xi ) = {ω ∈ Ω : X(ω) = xi }. Más generalmente, si B ⊂ R, la notación
(X ∈ B) representa al conjunto X −1 (B), esto es, (X ∈ B) = {ω ∈ Ω : X(ω) ∈ B}.

Definición 2.1.2: Una distribución de probabilidad discreta es una función p(x),


definida sobre R, que satisface:
i) Existe C ⊂ R contable (finito o numerable), de modo que p(x) > 0, para todo x ∈ C.

ii) p(x) = 1.
x∈C

Además, una variable aleatoria X se dice que tiene distribución discreta si existe un
conjunto contable C, de modo que para todo x ∈ C,

P (X = x) > 0 y P (X = x) = 1.
x∈C

La función pX : R → [0, 1], definida por


{
P (X = x) si x ∈ C
pX (x) =
0 e.o.c.

se conoce como función de cuantı́a (o función de distribución de probabilidad). También,


el conjunto C se acostumbra a denotar por Rec X y se le llama recorrido de X.
O sea, la variable aleatoria X tiene distribución discreta si pX es una distribución de
probabilidad discreta.
Es común decir que X es variable aleatoria discreta en lugar de que X tiene distribución
discreta.
Además, para B ⊂ R,

P (X ∈ B) = pX (x).
x∈(B∩RecX)

- 116 -
2.1 Variables Aleatorias Discretas

En particular, si B = R,


1= pX (x).
x∈RecX

También, si se considera para cada x real, Bx =] − ∞, x], resulta que

P (X ≤ x) = P (X ∈ Bx )


= pX (u).
u≤x , u∈RecX

Definición 2.1.3: La función de distribución acumulada (o simplemente la función de


distribución) de una variable aleatoria discreta X , es la función FX : R → R, definida
por:

FX (x) = P (X ≤ x)

= pX (u).
u≤x , u∈RecX

Notar que el dominio de FX (x) es el conjunto de todos los reales.

Ejemplo 2.1.4: Volviendo al ejemplo del empresario y usando la función de distribución


de probabilidad de la variable aleatoria X, dada en la Tabla 2.1.3 , obtenemos que FX está
dada por 

 0 si x < −5


 0.19 si −5 ≤ x < 5
FX (x) = 0.21 si 5 ≤ x < 10



 0.44 si 10 ≤ x < 15

1 si x ≥ 15
cuyo gráfico es la función escalonada

FX (x)
1

0.8

0.6

0.4

0.2

-5 5 10 15 20 x

Figura 2.1.6

- 117 -
2.1 Variables Aleatorias Discretas

Observar que P (X = xi ) es igual al “salto” que la función FX da en xi , por ejemplo,


P (X = 10) = 0, 23 = FX (10) − FX (10− ), donde FX (10− ) = lim FX (t). Lo observado en
t→10−
este ejemplo es una propiedad general que veremos más adelante.

Ejemplo 2.1.5: Una variable aleatoria discreta X tiene una función de cuantı́a com-
pletamente definida del siguiente modo:

P (X = −2) = 0.20,
P (X = 0) = 0.35,
P (X = 1) = 2k,
P (X = 2) = k.

a) Calculemos k, F (0) y F (3).

b) Para 0 < α < 1 el cuantil α de una variable aleatoria X, es definido como cualquier
número xα que satisfaga la relación

P (X < xα ) ≤ α y P (X > xα ) ≤ 1 − α.

En el caso en que α = 0.5 el cuantil α recibe el nombre de mediana.


Para la variable aleatoria de este ejemplo encontremos su mediana (si existe).

Desde que ∑
P (X = i) = 1,
i∈{−2,0,1,2}

se obtiene que k = 0.15.


Además,

F (0) = pX (i)
i≤0
= P (X = −2) + P (X = 0)
= 0.55

y

F (3) = pX (i)
i≤3
= 1.

Finalmente, P (X < 0) ≤ 0.5 y P (X > 0) ≤ 1 − 0.5 , por lo que x0.5 = 0.

Veamos ahora las propiedades básicas que satisface la función de distribución acumu-
lada de una variable aleatoria discreta (más aún, estas propiedades también serán válidas
cuando estudiemos el caso de variables continuas).

Proposición 2.1.1: Sea F la función de distribución de la variable aleatoria X. En-


tonces:

- 118 -
2.1 Variables Aleatorias Discretas

a) 0 ≤ F (x) ≤ 1, para todo x real,

b) P (a < X ≤ b) = F (b) − F (a), para a < b,

c) F (a) ≤ F (b), para a < b (es decir, F es no decreciente),

d) lim F (x) = 1; lim F (x) = 0,


x→∞ x→−∞

e) lim F (x) = F (t) (es decir, F es continua por la derecha),


x→t+

f ) P (X = t) = F (t) − F (t− ), donde F (t− ) = lim F (x), es decir, P (X = t) es el


x→t−
tamaño del “salto” de F en t.

Demostración: Por definición de la función F , a) se cumple inmediatamente. También,


si a < b, y consideramos los sucesos A = (X ≤ a); B = (X ≤ b), entonces A ⊂ B, por lo
que la regla b) de la Proposición 1.4.1 implica que

P (B r A) = P (B) − P (A),

es decir,
P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a)
= F (b) − F (a).
En particular, se concluye que

0 ≤ P (a < X ≤ b) = F (b) − F (a),

es decir, F (a) ≤ F (b).


∪∞Además, considerando la sucesión de sucesos An = (X ≤ n), se tiene que A1 ⊆ A2 · · · ,
( n=1 An ) = Ω, por lo que axioma iv) de la Definición 1.4.1 implica que
(∞ )

P An = lim P (An ),
n→∞
n=1

es decir,
P (Ω) = lim F (n).
n→∞

Pero, F es monótona creciente y acotada, 0 ≤ F ≤ 1, en consecuencia limx→∞ F (x)


existe. Ası́, Teorema del enlace implica que, si (an ; n ≥ 1) es sucesión que converge
propiamente a ∞, entonces
lim F (x) = lim F (an ).
x→∞ n→∞

Si ahora se considera la sucesión an = n, para todo n, se concluye que

1 = P (Ω) = lim F (n) = lim F (x).


n→∞ x→∞
∩∞
Por otra parte, la sucesión An = (X < −n) verifica que A1 ⊇ A2 ⊃ · · · y ( n=1 An ) = ∅,
por lo que axioma iv’) implica que lim F (x) = 0.
x→−∞

- 119 -
2.1 Variables Aleatorias Discretas

Finalmente, si t es real y definimos la sucesión de sucesos


( )
1
Bn = X ≤ t + ,
n


entonces B1 ⊇ B2 ⊇ · · · , y Bn = (X ≤ t).
n=1
Aplicando axioma iv’) a la sucesión anterior, se concluye que
(∞ )

P Bn = lim P (Bn ),
n→∞
n=1

es decir, ( )
F (t) = P (X ≤ t) = lim P X ≤ t + n1
n→∞
( )
= lim F t + n1
n→∞

= lim F (x).
x→t+
( )
Razonando de igual forma,
∩ pero con la sucesión B n = t− 1
n <X ≤t+ 1
n , que satis-
face B1 ⊇ B2 ⊇ · · · y [ ∞
n=1 Bn ] = (X = t), se concluye que

P (X = t) = lim P (Bn )
n→∞
( ) ( )
= lim F t + n1 − F t − n1
n→∞

= lim F (x) − lim F (x)


x→t+ x→t−

= F (t) − F (t− ).

Observación 2.1.1: Se dice que las variables aleatorias discretas X e Y tienen la misma
distribución si FX (u) = FY (u), para todo u ∈ R , se acostumbra a denotar este hecho
por D(X) = D(Y ).
Dos variables aleatorias discretas X e Y , definidas en el mismo espacio Ω , pueden tener
la misma distribución, y sin embargo no ser iguales. Por ejemplo: se arroja una vez una
moneda equilibrada; sean X = 1 si sale cara, X = 0 si no; e Y = 1 − X. Entonces,
P (X = 1) = P (Y = 1) = 0.5, o sea que ambas tienen la misma distribución, pero
P (X = Y ) = 0.

2.1.1 Esperanza (o media) de una variable aleatoria discreta


Ejemplo 2.1.6: Una pregunta que se le podrı́a ocurrir al empresario del Ejemplo 2.1.1
es: ¿cuál es la ganancia esperada por conjunto montado? De la Tabla 2.1.3 observamos
que el 56% de los montajes deben producir una ganancia de 15 unidades, 23% una ganancia

- 120 -
2.1 Variables Aleatorias Discretas

de 10 unidades y ası́ sucesivamente. Luego, la ganancia esperada por montaje será dada
por:
ganancia esperada = 0.56 · 15 + 0.23 · 10 + 0.02 · 5 + 0.19 · (−5) = 9, 85 .
Esto es, suponiendo correctas las hipótesis hechas para determinar la distribución de la
variable aleatoria, el empresario espera tener una ganancia de 9,85 unidades por conjunto
montado.
Con la notación introducida en la subsección anterior, obtenemos la siguiente expresión
para la media de la variable aleatoria X.

xi pX (xi ), con RecX = {−5, 5, 10, 15}.
x∈RecX

Definición 2.1.4: Sea X variable aleatoria discreta, se llama valor medio o esperanza
matemática de la variable aleatoria X al valor

E(X) = x pX (x).
x∈RecX
También, llamaremos varianza de la variable aleatoria X al valor

V ar(X) = (x − E(X))2 pX (x),
x∈RecX
y desviación estándar de X a √
SD(X) = V ar(X).

Ejemplo 2.1.7: En el problema del empresario, se puede verificar que:

E(X) = 9.85, V ar(X) = 57.23 y SD(X) = 7.57 .

Ejemplo 2.1.8: Suponga que todos los precios determinados por el empresario estu-
viesen errados. En realidad, todos los valores deberı́an estar duplicados, esto es, costos y
precios de venta. Esto corresponde a la transformación Z = 2X.
La función de distribución de probabilidad de la variable aleatoria Z, pZ (z), está dada por:
z pZ (z) z pZ (z)
30 0.56 16,80
20 0.23 4.60
10 0.02 0.20
-10 0.19 -1.90
Total 1,00 19.70
Tabla 2.1.7
Entonces, la esperanza de la variable aleatoria Z será
∑ ∑
E(Z) = z pZ (z) = (2x) pX (x).
z∈RexZ x∈RecX

Supongamos ahora que queremos la distribución de probabilidad de la variable aleatoria


U = X 2 . Basado en la Tabla 2.1.3 obtenemos la tabla siguiente:

- 121 -
2.1 Variables Aleatorias Discretas

u pU (u) u pU (u)
225 0.56 126
100 0.23 23
25 0.21 5.25
Total 1.00 154.25

Tabla 2.1.8

Observemos que el suceso (U = 25) ocurre cuando (X = 5) ó (X = −5), por tanto,


P (U = 25) = P (X = 5 ó X = −5).
Ası́, la esperanza de la variable U es

E(U ) = u pU (u)
u∈RecU
= 225 · 0.56 + 100 · 0.23 + 25 · 0.21
= 225 · 0.56 + 100 · 0.23 + 25 · 0.02 + 25 · 0.19

= x2 pX (x)
x∈RecX
= 154.25.

Proposición 2.1.2: Dada una variable aleatoria discreta X, y h función real, la espe-
ranza matemática de la variable aleatoria h(X) puede ser calculada por la fórmula

E(h(X)) = h(x) pX (x).
x∈RecX

En particular,

(i) Si h(t) = a t + b, entonces, E(h(X)) = a E(X) + b.

(ii) Si h(t) = (t − E(X))2 , entonces, V ar(X) = E(X 2 ) − (E(X))2 .

Desde (ii) se deduce que, para todo a, b ∈ R,

(iii) V ar(a X) = a2 V ar(X),

(iv) V ar(a X + b) = a2 V ar(X).

Demostración: Usamos las notaciones siguientes:

Y = h(X), Rec(Y ) = {y1 , . . .}, Ai = {x ∈ R : h(x) = yi }.

- 122 -
2.1 Variables Aleatorias Discretas

De esta forma,

E(Y ) = yi pY (yi )
yi ∈RecY
 
∑ ∑
= yi  pX (x)
yi ∈RecY x∈Ai
∑ ∑
= yi pX (x)
yi ∈RecY x∈Ai
∑ ∑
= h(x) pX (x)
yi ∈RecY x∈Ai

= h(x) pX (x).
x∈RecX

Observación 2.1.2: Es costumbre usar los siguientes sı́mbolos para indicar la esperanza
y varianza de una variable aleatoria X:

E(X) = µ(X) y V ar(X) = σ 2 (X)

o, simplemente µ y σ 2 , respectivamente, si no hay peligro de confusión.

Ejemplo 2.1.9: Usando los resultados de los Ejemplos 2.1.7 y 2.1.8, obtenemos que

V ar(X) = 154.25 − (9.85)2


= 57.23.

2.1.2 Algunos modelos probabilı́sticos para variables aleatorias discretas


Algunas variables aleatorias se adaptan muy bien a una serie de problemas prácticos que
aparecen con bastante frecuencia. Por lo tanto, un estudio acucioso de estas variables fa-
cilita bastante la construcción de las correspondientes distribuciones de probabilidad y la
determinación de sus principales parámetros. Además, existen tablas construidas que pre-
sentan las funciones de probabilidad para esos modelos en función de sus parámetros. En
este párrafo estudiaremos algunos modelos discretos, procurando enfatizar las condiciones
en que estos aparecen, sus funciones de probabilidad y sus parámetros.

Distribución uniforme discreta


La distribución uniforme discreta sobre el conjunto G = {a1 , . . . , an }, se define por la
función
1
p(x) = , x ∈ G.
n

- 123 -
2.1 Variables Aleatorias Discretas

La distribución uniforme es, entonces, una constante en cada punto de G, la que es


inversamente proporcional al cardinal del conjunto G.
La función de distribución acumulada, asociada a la distribución uniforme es,

F (x) = p(t)
t≤x
t∈G

# (] − ∞, x] ∩ G)
= .
n
Las figuras siguientes muestran los gráficos de las funciones p(x) y F (x), respectiva-
mente.

p(x)

• •
1 • • ... •
n

a1 a2 a3 a4 an x

Figura 2.1.7

F (x)
1

4 ...
n

3
n

2
n

1
n

a1 a2 a3 a4 an x

Figura 2.1.8

Una variable aleatoria discreta X, se dice que tiene distribución uniforme sobre
G = {a1 , . . . , an }, se anota X ∼ U {a1 , . . . , an }, si su función de distribución de pro-
babilidad pX , es una distribución uniforme discreta sobre G, esto es, si RecX = G y
pX (x) = P (X = x)
{
1
n si x ∈ G
=
0 e.o.c.

Cuando se habla de “escoger un punto al azar del conjunto {a1 , . . . , an }”, significa repre-
sentar por X el punto escogido y asumir que X ∼ U {a1 , . . . , an }.

- 124 -
2.1 Variables Aleatorias Discretas

También, si X ∼ U {a1 , . . . , an }, entonces



E(X) = x pX (x)
x∈RecX


n
1
= ai
n
i=1

a1 + · · · + an
= ,
n

es decir, E(X) es el promedio de los números a1 , · · · , an , y

V ar(X) = E(X 2 ) − E2 (X)

∑ ( ∑n )2
i=1 ai
= x pX (x) −
2
n
x∈RecX


n ( ∑n )2
1 i=1 ai
= a2i −
n n
i=1

∑n 2 ( ∑n )2
i=1 ai i=1 ai
= − .
n n

Nótese que el modelo equiprobable visto en la Sección 1.2 puede ser representado por la
variable aleatoria discreta X, con distribución uniforme sobre Ω = {ω1 , . . . , ωn }.

X : Ω −→ R
ωi ωi

P (X = ωi ) = P ({ωi })

1
= .
n

Distribución binomial

La distribución binomial de parámetros n (natural) y p (0 < p < 1), se define por la


función ( )
n x
p(x) = p (1 − p)n−x , x ∈ {0, 1, . . . , n}.
x
Una variable aleatoria discreta X, se dice que tiene distribución binomial de parámetros
(n, p), se anota X ∼ B(n, p), si su función de distribución de probabilidad pX , es una

- 125 -
2.1 Variables Aleatorias Discretas

distribución binomial de parámetros n y p, esto es, RecX = {0, 1, . . . , n} y

( )

 n x
 x p (1 − p) si x ∈ {0, 1, . . . , n}
n−x

pX (x) =



0 e.o.c.

En el caso particular en que n = 1, la distribución binomial recibe el nombre de distribución


Bernoulli de parámetro p. Además, si X ∼ B(1, p), entonces se usa la notación X ∼ B(p)
y se dice que la variable aleatoria X tiene distribución Bernoulli de parámetro p.
Por otra parte, si X ∼ B(n, p), entonces


E(X) = x pX (x)
x∈RecX


n ( )
n x
= x p (1 − p)n−x
x
x=0


n
n!
= x px (1 − p)n−x
x! (n − x)!
x=1


n
(n − 1)! n
= p px−1 (1 − p)(n−1)−(x−1)
(x − 1)! ((n − 1) − (x − 1))!
x=1

n (
∑ )
n−1
= np px−1 (1 − p)(n−1)−(x−1)
x−1
x=1

∑(
n−1 )
n−1 y
= np p (1 − p)(n−1)−y
y
y=0

= np (p + (1 − p))n−1

= np.

También, después de algún trabajo algebraico, se verifica que

V ar(X) = n p (1 − p).

La tabla siguiente muestra los valores de la función pX (x), para n = 10 y p = 23 .

- 126 -
2.1 Variables Aleatorias Discretas

x pX (x) x pX (x)

0 0.00001694 6 0.22760758

1 0.00033870 7 0.26012295

2 0.00304832 8 0.19509221

3 0.01625768 9 0.08670765

4 0.05690190 10 0.01734153

5 0.13656455

Tabla 2.1.9
La figura siguiente muestra el gráfico de pX , cuando n = 10 y p = 23 .

pX (x)

0.30


0.20 •

0.10 •

• •

0.00 • •

0 1 2 3 4 5 6 7 8 9 10 x

Figura 2.1.9

Esquema Bernoulli
Se realiza un cierto “ensayo” cuyos resultados dependen del azar. Un resultado del “en-
sayo” representa una determinada caracterı́stica. Si la realización de un ensayo, da como
resultado la caracterı́stica, se dice que ocurrió un éxito, en caso contrario se dice que ocu-
rrió un fracaso. Se repite n veces el “ensayo”, cada repetición del “ensayo” se llama in-
tento. Además, cada repetición del “ensayo” se hace en iguales condiciones y de forma que
una repetición no “interfiere” en la otra, esto es, el resultado de un “ensayo” no tiene in-
fluencia ninguna en el resultado de otro “ensayo”. Finalmente, la probabilidad de obtener
éxito, en cualquiera de los “ensayos”, es siempre la misma, digamos p.
Un “experimento” que cumple con las condiciones antes mencionadas se dice que sigue
un Esquema Bernoulli de parámetros (n, p).
La variable aleatoria X, con distribución binomial, puede interpretarse como la canti-
dad de éxitos que ocurren en un esquema Bernoulli de parámetros (n, p). En consecuencia,

- 127 -
2.1 Variables Aleatorias Discretas

la probabilidad de obtener k unos y n − k ceros en el modelo binomial de la Sección 1.3,


que se anotaba P (Ak ), corresponde ahora a la probabilidad de que una variable aleatoria
con distribución binomial de parámetros (n, p), sea igual a k, esto es,

P (Ak ) = P (X = k).

Distribución geométrica
La distribución geométrica de parámetro p, 0 < p < 1, se define por la función

p(x) = p (1 − p)x−1 , x ∈ {1, 2, 3, . . .}.

Una variable aleatoria discreta X, se dice que tiene distribución geométrica de parámetro
p, se anota X ∼ G(p), si su función de distribución de probabilidad pX , es una distribución
geométrica de parámetro p, es decir, RecX = {1, 2, . . .} y


p (1 − p)
x−1 si x ∈ {1, 2, . . .}
pX (x) =


0 e.o.c.

Para esta variable aleatoria,



E(X) = x pX (x)
x∈RecX



= x p (1 − p)x−1 .
x=1

Si α ∈] 0, 1 [, el desarrollo en serie de potencias, en torno de cero, de la función f (α) = 1


1−α ,
implica que
∑∞
1
= αn ,
1−α
n=0

de donde, derivando se obtiene que

∑ ∞
1
= n αn−1
(1 − α)2
n=1

y nuevamente derivando resulta




2
= n (n − 1)αn−2
(1 − α)3
n=2


∑ ∞

= n2 αn−2 − n αn−2
n=2 n=2

- 128 -
2.1 Variables Aleatorias Discretas

∞ ∞
1 ∑ 2 n−1 1 ∑
= n α − n αn−1
α α
n=2 n=2
[∞ ] [∞ ]
1 ∑ 2 n−1 1 ∑
= n α −1 − nα n−1
−1
α α
n=1 n=1


1 ∑ 2 n−1 1 1
= n α −
α α (1 − α)2
n=1
o sea,

∑ 2α 1
n2 αn−1 = + .
(1 − α)3 (1 − α)2
n=1
Tomando α = 1 − p, se deduce que


E(X) = x p (1 − p)x−1
x=1



= p x αx−1
x=1

1
= p
(1 − α)2

1
= .
p
Además,


E(X 2 ) = x2 p (1 − p)x−1
x=1



= p x2 (1 − p)x−1
x=1
[ ]
2 (1 − p) 1
= p +
(1 − (1 − p))3 (1 − (1 − p))2

2 (1 − p) 1
= + ,
p2 p
en consecuencia,
V ar(X) = E(X 2 ) − (E(X))2
( )2
2 (1 − p) 1 1
= + −
p2 p p

1−p
= .
p2

- 129 -
2.1 Variables Aleatorias Discretas

Una variable aleatoria X con distribución geométrica de parámetro p, puede interpre-


tarse como el número de ensayos necesarios para que ocurra el primer éxito en un esquema
Bernoulli de parámetro p.
En efecto, si Bi , i ≥ 1, denota el suceso:

Bi = en el i-ésimo ensayo ocurre éxito

entonces, usando la independencia entre los distintos ensayos,

P (X = 1) = P (B1 ) = p

P (X = 2) = P (B1C ∩ B2 ) = P (B1C ) P (B2 ) = (1 − p) p,

y para todo x ∈ {3, 4, . . .},


C ∩B )
P (X = x) = P (B1C ∩ · · · ∩ Bx−1 x

= P (B1C ) · · · P (Bx−1
C ) P (B )
x

= (1 − p) · · · (1 − p) p

= (1 − p)x−1 p.

Nótese además que, para m, n naturales,

P (X > m + n, X > n)
P (X > m + n / X > n) = .
P (X > n)

Pero, el suceso (X > m + n) está contenido en el suceso (X > n), de donde


(X > m + n, X > n) = (X > m + n). O sea,

P (X > m + n)
P (X > m + n/X > n) = .
P (X > n)

También,


P (X > n) = pX (k)
k=n+1



= p (1 − p)k−1
k=n+1



= p (1 − p)k−1
k=n+1

(1 − p)(n+1)−1
= p
1 − (1 − p)

= (1 − p)n .

- 130 -
2.1 Variables Aleatorias Discretas

Análogamente,
P (X > m + n) = (1 − p)m+n .

En consecuencia,
(1 − p)m+n
P (X > m + n/X > n) =
(1 − p)n

= (1 − p)m

= P (X > m).

En este sentido, si X representa el instante en que ocurre el primer éxito en un esquema


Bernoulli de parámetro p, entonces, la relación anterior nos dice que la probabilidad de
que tengamos que esperar más de m ensayos para observar el primer éxito, sabiendo ya
que hemos esperado más de n ensayos, no depende de n.

Distribución binomial negativa

La distribución binomial negativa de parámetros (m, p), con m natural y 0 < p < 1, se
define por la función
( )
x−1
p(x) = pm (1 − p)x−m , x ∈ {m, m + 1, . . .}.
m−1

Una variable aleatoria discreta X, se dice que tiene distribución binomial negativa de
parámetros (m, p), se anota X ∼ BN (m, p), si su función de distribución de probabilidad
pX , es una distribución binomial negativa de parámetros (m, p), esto es,
( )

 x−1
 m − 1 p (1 − p) , x ∈ {m, m + 1, . . .}
m x−m

pX (x) =



0 e.o.c.

En este caso, se puede verificar (después de algún trabajo algebraico) que

m m(1 − p)
E(X) = y V ar(X) = .
p p2

Notar que, en el caso en que m = 1, pX resulta la distribución geométrica de parámetro


p.
Una variable aleatoria con distribución binomial negativa de parámetros (m, p), se
puede interpretar como el número ensayos necesarios para que ocurra el m-ésimo éxito en
un esquema Bernoulli de parámetro p.
Por ejemplo, si X ∼ BN (4, p), entonces el suceso (X = 6) significa que el cuarto éxito
ocurre cuando se realiza el sexto ensayo.

- 131 -
2.1 Variables Aleatorias Discretas

En consecuencia, si Bi representa el suceso que en el i-ésimo ensayo ocurre éxito,


entonces
(X = 6) = (B1 ∩ B2C ∩ B3 ∩ B4C ∩ B5 ∩ B6 ) ∪ (B1 ∩ B2C ∩ B3 ∩ B4 ∩ B5C ∩ B6 )

∪(B1 ∩ B2C ∩ B3C ∩ B4 ∩ B5 ∩ B6 ) ∪ (B1 ∩ B2 ∩ B3C ∩ B4C ∩ B5 ∩ B6 )

∪(B1 ∩ B2 ∩ B3C ∩ B4 ∩ B5C ∩ B6 ) ∪ (B1 ∩ B2 ∩ B3 ∩ B4C ∩ B5C ∩ B6 )

∪(B1C ∩ B2C ∩ B3 ∩ B4 ∩ B5 ∩ B6 ) ∪ (B1C ∩ B2 ∩ B3 ∩ B4 ∩ B5C ∩ B6 )

∪(B1C ∩ B2 ∩ B3 ∩ B4C ∩ B5 ∩ B6 ) ∪ (B1C ∩ B2 ∩ B3C ∩ B4 ∩ B5 ∩ B6 ).

Pero, debido al esquema Bernoulli, B1 , . . . , B6 son sucesos independientes y para cada i,


P (Bi ) = p. En consecuencia,
P (B1 ∩ B2C ∩ B3 ∩ B4C ∩ B5 ∩ B6 ) = p (1 − p) p (1 − p) p p

= p4 (1 − p)6−4 .
Más aún, cada conjunto de esta unión tiene la misma probabilidad p4 (1 − p)2 . Además,
el número de conjuntos cuya reunión forma (X = 6) se puede determinar de la siguiente
forma:
Llenaremos cada uno de los 6 casilleros  con un uno si aparece el suceso Bi y
con un cero si aparece BiC . Ası́, el suceso B1 ∩ B2C ∩ B3 ∩ B4C ∩ B5 ∩ B6 queda representado
por 1 0 1 0 1 1 . Por lo tanto, el número de conjuntos cuya reunión es (X = 6),
es igual al número de permutaciones que se pueden obtener con los 5 primeros casilleros,
ubicando tres unos y dos ceros (el último casillero debe siempre
( ) tener el número uno, pues
en este lugar debe haber éxito), que corresponde a 3!5!2! = 6−14−1 = 10.
En conclusión, como los sucesos cuya reunión es ((X = ) 6), son disjuntos, tienen todos
probabilidad igual a p4 (1 − p)6−4 y hay un total de 6−1 4−1 , entonces
( )
6−1 4
P (X = 6) = p (1 − p)6−4 .
4−1

Ejemplo 2.1.10: Se lanza un dado honesto. Calculemos la probabilidad de que el


séptimo as salga en el trigésimo lanzamiento.
Si X (indica
) el número del lanzamiento en que ocurre el séptimo as, entonces
X ∼ BN 7, 61 , y se desea calcular P (X = 30). En consecuencia,
( ) ( )7 ( )
30 − 1 1 1 30−7
P (X = 30) = 1−
7−1 6 6
( ) ( )7 ( )23
29 1 5
=
6 6 6

= 0.025614.

- 132 -
2.1 Variables Aleatorias Discretas

Distribución Poisson
La distribución de Poisson de parámetro α, α > 0, se define por la función
αx −α
p(x) = e , x ∈ {0, 1, 2, . . .}.
x!
Una variable aleatoria discreta X, se dice que tiene distribución Poisson de parámetro
α, se anota X ∼ P(α), si su función de distribución de probabilidad pX , es una distribución
de Poisson de parámetro α. En consecuencia,
 x
 α −α

 x! e si x ∈ {0, 1, 2, . . .}
pX (x) =



0 e.o.c.

En forma análoga al desarrollo efectuado para el caso de la variable aleatoria con dis-
1
tribución geométrica, pero, considerando f (α) = eα , en lugar de f (α) = 1−α , se obtiene
que
E(X) = α y V ar(X) = α .
La variable aleatoria con distribución Poisson es usada cuando se desea contar el número
de “eventos” de un cierto tipo que ocurren en un intervalo de tiempo, superficie o volumen.
Por este motivo esta variable puede modelar, por ejemplo,

a) número de llamadas telefónicas recibidas en una central,

b) número de informes de accidentes enviados a una compañı́a de seguros en un mes


determinado,

c) número de clientes que llegan a una caja.

Ejemplo 2.1.11: Entidades llegan a un determinado sistema, por ejemplo, llamadas


telefónicas que llegan a una central. Calculemos la probabilidad de que lleguen exactamente
k llamadas telefónicas en el intervalo de tiempo [s, s + t[, para s, t ≥ 0 y k = 0, 1, 2, . . ..
Primeramente, para poder resolver este problema asumiremos las siguientes hipótesis:

• Hipótesis I. Incrementos Estacionarios.


La probabilidad de que lleguen exactamente k llamadas telefónicas en el intervalo
]s, s + t] depende sólo de t. Es decir, la probabilidad de que lleguen exactamente k
llamadas en un perı́odo de tiempo de duración t, depende sólo de t y no del instante
en que ocurrió.

• Hipótesis II. Incrementos Independientes.


El número de llamadas telefónicas que llegan durante intervalos de tiempo disjuntos
son independientes.

- 133 -
2.1 Variables Aleatorias Discretas

• Hipótesis III. Propiedad de Orden.


Dos llamadas no llegan simultáneamente. Es decir, las llamadas llegan de a una. En
términos probabilı́sticos esto significa que la probabilidad condicional de que lleguen
dos o más llamadas en el intervalo ]0, t], dado que llegó al menos una llamada en
]0, t], se va a cero cuando t se hace tender a cero.

El gráfico siguiente representa un posible resultado de este experimento, en el cual las


llamadas llegan en los instantes s1 , s2 , s3 , . . .

Número de llamadas

s1 s2 s3 Tiempo t

Figura 2.1.10
En consecuencia, el conjunto de todos los resultados posibles para este problema queda
representado por:

Ω = {ω : [0, ∞[→ N0 / existe sucesión (tn ; n ≥ 1), tal que 0 < t1 < t2 < · · · y
ω(t) = 0 para t ∈ [0, t1 [,
ω(t) = 1 para t ∈ [t1 , t2 [,
..
.
ω(t) = k, para t ∈ [tk , tk+1 [, . . .}.

Sea Xs,t la variable aleatoria que cuenta el número de llamadas que llegan en el in-
tervalo de tiempo ]s, s + t]. Nótese que el suceso (Xs,t = k), es decir, el suceso “llegan
exactamente k llamadas en el intervalo de tiempo ]s, s + t]” puede expresarse como

(Xs,t = k) = {ω ∈ Ω : ω(t) − ω(s) = k}.

Nuestro objetivo es calcular la probabilidad P (Xs,t = k), que denotamos pt (k) ya


que depende de t pero no de s.
Las hipótesis I,II y III se traducen en

• Hipótesis I’. P (Xs,t = k) = P (X0,t = k).

• Hipótesis II’. Si ]s, s + t]∩]u, u + v] = ∅, entonces


P (Xs,t = k, Xu,v = j) = P (Xs,t = k) P (Xu,v = j).

• Hipótesis III’. (1 − p0 (t) − p1 (t))/(1 − p0 (t)) → 0, cuando t → 0.

A continuación, probaremos que p0 (t) es una función exponencial del tiempo, de la forma
e−αt .

- 134 -
2.1 Variables Aleatorias Discretas

Como no llega ninguna llamada en el intervalo ]0, t] si y sólo si no llega ninguna


llamada en los n intervalos
] ] ] ] ] ]
t t 2t (n − 1)t
0, , , ,..., ,t ,
n n n n
entonces
n (
∩ )
(X0,t = 0) = X (k−1)t , t = 0 .
n n
k=1
Por la hipótesis II’ se tiene que, para todo t > 0 y todo n ∈ N,


n ( )
p0 (t) = P X (k−1)t , t = 0 (11.1)
n n
k=1
( )
t
= pn0 ,
n
luego,
p0 (mt) = pm
0 (t). (11.2)
t
En particular, si se reemplaza n en lugar de t,
(m ) ( )
m t
p0 t = p0
n n
( )m
1/n
= p0 (t) (11.3)

m/n
= p0 (t), (11.4)
para todo m, n ∈ N. En otras palabras, si r es un racional positivo, entonces, considerando
t = 1 en esta última ecuación se tiene

p0 (r) = pr0 (1). (11.5)

Además, p0 es función decreciente, ya que, si s ≤ t, entonces (X0,t = 0) está contenido


en (X0,s = 0), lo cual implica que

p0 (s) ≥ p0 (t).

Sean t > 0 fijo y r1 , r2 racionales positivos tales que r1 ≤ t ≤ r2 . Entonces

pr01 (1) = p0 (r1 ) ≥ p0 (t) ≥ p0 (r2 ) = pr02 (1).

Ahora, si r1 crece y converge a t y r2 decrece y converge a t, entonces

pr01 (1) ↓ pt0 (1) y pr02 (1) ↑ pt0 (1),

por lo tanto,
p0 (t) = pt0 (1), (11.6)
para todo t > 0. En el razonamiento anterior hemos asumido que 0 < p0 (1) < 1, para
evitar situaciones extremas. En efecto,

- 135 -
2.1 Variables Aleatorias Discretas

i) Si p0 (1) = 1, se sigue de (11.6) que p0 (t) = 1, para todo t > 0. Es decir, con
probabilidad uno nunca llegarı́a una llamada telefónica, situación que no es de mayor
interés en la práctica.

ii) Si p0 (1) = 0, se sigue de (11.6) que p0 (t) = 0, para todo t > 0. Es decir, para cada
t > 0, se tendrı́a probabilidad uno de que llegase al menos una llamada en el intervalo
]0, t]. Por lo tanto, tendrı́an que llegar al menos dos llamadas, con probabilidad uno,
en el intervalo ]0, t], pues debe llegar al menos una llamada en el intervalo ]0, t/2]
con probabilidad uno y al menos una llamada en el intervalo ]t/2, t] con probabilidad
uno. En resumen, para todo t > 0,

1 − p0 (t) = 1 y 1 − p0 (t) − p1 (t) = 1,

lo cual contradice la hipótesis III’.


Definiendo α = − log p0 (1), la ecuación (11.6) se transforma en

p0 (t) = e−αt , t > 0.

Nótese que también p0 (0) = 1 pues el evento “ninguna llamada llega en un intervalo
vacı́o de tiempo” corresponde al evento seguro, es decir, Ω. En consecuencia,

p0 (t) = e−αt , t ≥ 0. (11.7)

A continuación obtenemos las probabilidades pk (t), para todo k ≥ 1.


Sean k ≥ 1, s ≥ 0 y t ≥ 0. Entonces, que lleguen k llamadas telefónicas en ]0, s + t] es
equivalente a que no llegue ninguna en ]0, s] y k en ]s, s + t] o una en ]0, s] y k − 1 en
]s, s + t] o dos en ]0, s] y k − 2 en ]s, s + t], etc. Es decir,


k
(X0,s+t = k) = (X0,s = i, Xs,t = k − i) .
i=0

En la relación anterior, los conjuntos que conforman la unión son disjuntos y para
todo i, (X0,s = i) y (Xs,t = k − i) son sucesos independientes. Ası́,


k
pk (s + t) = P (X0,s = i) P (Xs,t = k − i)
i=0


k
= pi (s) pk−i (t)
i=0


k−2
= pi (s) pk−i (t) + pk−1 (s) p1 (t) + pk (s) p0 (t),
i=0
de modo que,

∑k−2
pk (s + t) − pk (s) i=0 pi (s) pk−i (t) pk−1 (s) p1 (t) pk (s) (e−αt − 1)
= + + .
t t t t

- 136 -
2.1 Variables Aleatorias Discretas

Pero,
e−αt − 1
lim = −α (11.8)
t→0+ t
entonces, hipótesis III’ implica que:
p1 (t) p1 (t) 1 − p0 (t)
lim = lim = 1α = α (11.9)
t→0+ t t→0 1 − p0 (t)
+ t
y
1 − p0 (t) − p1 (t) 1 − p0 (t) − p1 (t) 1 − p0 (t)
lim = lim = 0 α = 0. (11.10)
t→0+ t t→0 + 1 − p0 (t) t
Además,

1∑ 1∑
k−2 k−2
0≤ pi (s)pk−i (t) ≤ pk−i (t)
t t
i=0 i=0

1∑
k
= pj (t)
t
j=2

 
1 ∑k
= pj (t) − p0 (t) − p1 (t)
t
j=0

 
∑∞
1
≤ pj (t) − p0 (t) − p1 (t)
t
j=0

= (1 − p0 (t) − p1 (t))/t .

Usando ahora ecuaciones (11.8), (11.9), (11.10) y la desigualdad anterior, se obtiene


que la derivada por la derecha de pk en s satisface la relación

p′k (s) = αpk−1 (s) − αpk (s). (11.11)


También es posible demostrar, usando la expresión


k
pk (s) = pi (s − t) pk−i (t) , 0 ≤ t ≤ s,
i=0

que la derivada por la izquierda de pk en s coincide con la derivada por la derecha de pk


en s.
Resta, entonces, resolver la ecuación diferencial (11.11), con condición inicial

pk (0) = P (X0,0 = k) = 0,

para cada k ≥ 1. La solución puede ser obtenida por inducción en k, resultando


(αs)k
pk (s) = e−αs (11.12)
k!

- 137 -
2.1 Variables Aleatorias Discretas

para s ≥ 0 y k = 0, 1, . . ..
Por lo tanto,
(αt)k
P (Xs,t = k) = e−αt .
k!

Es decir, bajo las hipótesis I, II, III, Xs,t ∼ P(αt).


El problema anterior es conocido como modelo de Poisson temporal.

La Aproximación de Poisson

La probabilidad P (X = k), cuando X ∼ B(n, p), es difı́cil de calcular directamente para


valores un poco “grandes” de k y n. Se puede hacer mediante tablas apropiadas, pero,
muchas veces es preferible sustituir la expresión P (X = k) por otra de mejor manejo para el
cálculo y suficientemente aproximada en las aplicaciones. La aproximación es “razonable”
para valores pequeños de p, tales que el producto n p sea relativamente pequeño, aún para
valores grandes de n.
En el caso en que p se “acerca” a cero, al mismo tiempo que n se hace muy “grande”,
de manera que el valor n p permanece “cercano” a una constante α, o sea n p ∼ α, se tiene
que
( )
n k
P (X = k) = p (1 − p)n−k
k
( )( ) (
n α k α )n−k
≃ 1−
k n n

n (n − 1) · · · (n − k − 1) ( α )k ( α )n
= ( )k 1 −
k! 1 − αn n n
( )( ) ( ) (
αk 1 − n1 1 − n2 · · · 1 − k−1
α )n
= ( )k
n
1− .
k! 1 − αn n

Para n muy “grande” (manteniendo k fijo), el numerador de la segunda fracción del


miembro derecho se “acerca” a uno, puesto que es el producto de un número finito de
factores, cada uno de los cuales de “acerca” a uno. El denominador de esta misma fracción
α
también se “aproxima” a uno, ya ( que )el valor n es “cercano” a cero cuando n es muy
α n −α
grande. Finalmente, el término 1 − n se “acerca” a e cuando n es muy “grande”.
Por lo tanto, la expresión P (X = k) es “cercana” a αk! e−α , donde α es el valor n p.
k

El valor α e−α corresponde a la probabilidad P (X


k
e = k), donde X e ∼ P(α).
k!
El siguiente gráfico muestra los valores de las distribuciones binomial, para
n = 10, p = 23 y Poisson para α = 10 23 = 20 3 , evaluadas en k ∈ {0, 1, . . . , 10}. Las ba-
rras negras corresponden a la distribución binomial y las barras blancas a la distribución
Poisson.

- 138 -
2.1 Variables Aleatorias Discretas

0.30

0.20

0.10

0.00
0 1 2 3 4 5 6 7 8 9 10

Figura 2.1.11

Ejemplo 2.1.12: La probabilidad de que una persona gane el premio gordo de la loterı́a,
en una semana particular, es 1/140000. Supongamos que una persona juega a la loterı́a
cada semana, durante 2184 semanas (casi 42 años), calculemos ahora la probabilidad de
que a dicha persona le caiga el premio gordo cuando menos una vez.
Representemos por X al número total de veces que la persona gana el premio gordo en
las 2184 semanas. Entonces, la probabilidad que se desea( calcular es ) P (X ≥ 1) .
Para responder la pregunta asumiremos que X ∼ B 2184, 140000 1
, por lo que

P (X ≥ 1) = 1 − P (X = 0)
( )2184
139999
= 1−
140000

= 0.015479.
¿Cuál serı́a el valor de la probabilidad buscada anteriormente si usáramos la aproximación
de Poisson? ( )
Con la aproximación de Poisson, el valor buscado serı́a P (Xe ≥ 1), con Xe ∼ P 2184 1
140000 .
Pero,
e ≥ 1) = 1 − P (X
P (X e = 0)
( 2184 )
= 1 − exp − 140000

= 0.0154789,
por lo que el valor aproximado de P (X ≥ 1) serı́a 0.0154789 .

Ejemplo 2.1.13: Un artillero dispara a un blanco y sabe que la probabilidad de acertar


1
es p = 100 . ¿Cuántos disparos tendrá que realizar para tener probabilidad 0.9 de dar en el
blanco por lo menos una vez?
Si X es la variable que cuenta el número de éxitos (dar en el blanco) en( n disparos,
)
1
entonces, se puede asumir que X tiene distribución binomial de parámetros n, 100 , por
lo que

- 139 -
2.1 Variables Aleatorias Discretas

P (X ≥ 1) = 1 − P (X = 0)
( )
1 n
= 1− 1−
100

= 1 − (0.99)n .
Las condiciones del problema imponen que

1 − (0.99)n > 0.9,

de donde n > (2 − log 99)−1 = 229.


Como p es pequeño, en vez del cálculo directo, se puede aplicar la aproximación de
Poisson para la distribución binomial. La probabilidad de no dar nunca en el blanco es
e−α , con α = n 100
1
, y la probabilidad de dar por lo menos una vez será 1−e−α . El problema
impone la condición 1 − e−α > 0.9, o sea, 0.1 > e−0.01 n , de donde n > log100
e = 230.

- 140 -
2.1 Variables Aleatorias Discretas

PROBLEMAS
Problema 2.1.A: Suponga que X es variable aleatoria tal que: P (X = 0) = 0.25,
P (X = 1) = 0.125, P (X = 2) = 0.125 y P (X = 3) = 0.5. Grafique la función de
distribución acumulada de X, es decir, FX .

Problema 2.1.B: Se lanzan dos dados comunes. La variable aleatoria X queda definida
como la suma de los valores de los dos dados. Calcule:
a) P (X = 3).
b) P (X es divisible por 3).
Se lanzan los dados dos veces y los valores de X obtenidos son X1 y X2 .
146
c) Demuestre que P (X1 = X2 ) = 1296 .

d) Usando c), determine P (X1 > X2 ).


e) Halle P (X1 = 3/X1 > X2 ).

Problema 2.1.C: Sea X variable aleatoria discreta con función de cuantı́a



|u|

 22 si u ∈ {−2, −1}







 4|u| si u ∈ {1, 2}
22
pX (u) =


 7
 si u = 5

 22




0 e.o.c.

Considere la variable aleatoria Y = X 2 .


a) Encuentre la función de cuantı́a para Y .
b) Calcule P (Y ≤ 3 / Y ≤ 4).

Problema 2.1.D: Sea X variable aleatoria discreta con distribución binomial (n, p), esto
es, X ∼ B(n, p) . Considérese los radios sucesivos R(k), k = 1, . . . , n, definidos por
P (X = k)
R(k) = , 1 ≤ k ≤ n.
P (X = k − 1)
Verifique que
p n−k+1
R(k) = · , 1 ≤ k ≤ n.
1−p k
Además, encuentre el valor de k que maximiza la probabilidad P (X = k) . Este valor es
llamado la moda de la distribución.

Problema 2.1.E: Se sabe que el 2% de las bombillas que salen desde cierta fábrica son
imperfectas. En un supermercado se venden en paquetes de 3 unidades.

- 141 -
2.1 Variables Aleatorias Discretas

a) Determine la probabilidad de que en un paquete haya exactamente dos bombillas


defectuosas.

b) Determine la probabilidad de que en un paquete haya, cuando menos, una bombilla


defectuosa.

La probabilidad de que un cliente encuentre i bombillas defectuosas en un paquete y vaya


i2
a quejarse al supermercado es 10 , i = 0, 1, 2, 3. El supermercado no acepta un nivel de
quejas mayor que el 0.5%.

c) ¿Deberı́a el supermercado seguir vendiendo este producto?

Problema 2.1.F: Un computador está programado para generar una sucesión x1 , x2 , . . .,


de dı́gitos al azar, cada uno de los cuales toma un valor entre 0 y 9, ambos inclusive. Cada
dı́gito tiene la misma probabilidad de ser generado.

a) Si el computador genera una sucesión de 8 dı́gitos, halle:


(i) la probabilidad de no obtener ningún “4” en la sucesión,
(ii) la probabilidad de obtener, exactamente, tres “4” en la sucesión.

b) El computador genera una sucesión de 100 dı́gitos al azar. Halle la media y desviación
estandar del número de “4” en la sucesión.

- 142 -
2.2. VARIABLES ALEATORIAS CONTINUAS

2.2 Variables Aleatorias Continuas

Veamos ahora como construir modelos probabilı́sticos teóricos para variables aleatorias
continuas. Para esto, vamos a recurrir nuevamente al auxilio de ejemplos.

Ejemplo 2.2.1: El puntero de los segundos de un reloj mecánico puede parar en cualquier
instante por algún defecto técnico, indicaremos por X el ángulo que forma este puntero
con el eje imaginario que pasa por el centro del reloj y por el número XII, como se muestra
en el siguiente gráfico
XII

270Æ IX III 90Æ

VI
180Æ

Figura 2.2.1

Asumiremos que:

(i) la variable aleatoria X, mide el ángulo en grados,

(ii) el puntero debe dar 60 “saltos” (da un salto cada segundo) para completar una vuelta,

(iii) el puntero tiene igual probabilidad de detenerse en cualquier punto, esto es, la varia-
ble aleatoria X tiene distribución uniforme discreta (sección anterior), cuya función
de cuantı́a está dada en la siguiente tabla:

x 0◦ 6◦ 12◦ 18◦ ... 348◦ 354◦

1 1 1 1 1 1
pX (x) 60 60 60 60 ... 60 60

Tabla 2.2.1

El siguiente, es el gráfico de la función de distribución de probabilidad pX (x).

- 143 -
2.2 Variables Aleatorias Continuas

pX (x)

1 • • • • • •
60

6◦ 12◦ 18◦ ... 348◦ 354◦ x (en grados)

Figura 2.2.2

Transportando el mismo problema a un reloj eléctrico, donde el puntero de los segun-


dos se mueve continuamente, necesitamos de otro modelo para representar a la variable
aleatoria X. Primero observamos que el conjunto de posibles valores de X ya no es un
conjunto contable, pues X (medida en grados) puede tomar cualquier valor del intervalo
[0, 360[= {x ∈ R : 0 ≤ x < 360}. En segundo lugar, como en el caso del reloj mecánico,
continuamos asumiendo que no existe una región de preferencia donde se detiene el pun-
tero. Como existen infinitos puntos en los cuales el puntero puede detenerse, cada uno con
igual probabilidad, si usáramos el mismo método visto para variables aleatorias discretas
uniformes, cada punto tendrı́a probabilidad cero de ocurrir. Ası́, entonces, no tiene mu-
cho sentido hablar de la probabilidad que X sea igual a cierto valor, pues esta probabilidad
siempre será igual a cero. En cambio, podemos determinar la probabilidad de que el ángulo
X esté comprendido entre dos valores cualquiera. Por ejemplo, usando el gráfico del reloj
como referencia, la probabilidad de que el puntero se detenga en el intervalo comprendido
entre los números XII y III es 41 , pues ese intervalo corresponde a 41 del intervalo total.
Entonces, podemos escribir (X medido en grados)

1
P (0 ≤ X ≤ 90) = .
4
Del mismo modo, la probabilidad de que el puntero se detenga entre los números IV y V
1
es igual a 12 . Esto es,
1
P (120 ≤ X ≤ 150) = .
12
Por menor que sea el intervalo, siempre podemos hallar la probabilidad de que el puntero
se detenga en un punto cualquiera de ese intervalo. Es fácil verificar que en este caso,
dados dos números a y b tales que 0 ≤ a ≤ b < 360, la probabilidad que X ∈ [a, b[ es

b−a
P (a ≤ X < b) = .
360
Ahora, si definimos la función


0 si x < 0
f (x) = 1
si 0 ≤ x < 360
 360

0 si x ≥ 360

- 144 -
2.2 Variables Aleatorias Continuas

entonces,

b−a b
1
P (a ≤ X < b) = = dx
360 a 360
∫ b
= f (x)dx .
a
La función f (x) es llamada función de densidad de probabilidad de la variable aleatoria
X.

Podemos construir modelos teóricos para variables aleatorias continuas, escogiendo


adecuadamente las funciones de densidad de probabilidad.
Teóricamente, cualquier función
∫∞ f (·), que sea no negativa y cuya área total bajo la curva
sea igual a uno, es decir, −∞ f (t)dt = 1 , caracterizará una variable aleatoria continua.

Ejemplo 2.2.2: Sea f (x) =∫ 2x, para 0 ≤ x < 1 , y cero fuera se ese intervalo. Luego,

f (x) ≥ 0, para todo x ∈ R y −∞ f (t)dt = 1 , es decir, f puede representar a una función
de densidad de alguna variable aleatoria X.

f (x)

1 1 x
2

Figura 2.2.3

En este caso, P (0 ≤ X < 12 ) , es igual al área del triángulo de base 1


2 y altura 1 (ver
figura anterior). Luego, la probabilidad en cuestión es
( )
1 1
·1 1
P 0≤X< = 2 = .
2 2 4

La comparación de las funciones de densidad de estos dos últimos ejemplos ayuda a


entender cuál es el significado de las mismas. En el primer ejemplo, consideremos dos
intervalos I1 = [a, b[ e I2 = [c, d[, contenidos en el intervalo [0, 360[, y con la misma
amplitud b − a = d − c, entonces

P (X ∈ I1 ) = P (X ∈ I2 ).

En el segundo ejemplo no ocurre lo mismo, ya que dados dos intervalos de la misma


amplitud, aquel más próximo a 1 representará mayor probabilidad. Luego, la probabilidad

- 145 -
2.2 Variables Aleatorias Continuas

de que una variable aleatoria X tome un valor perteneciente a un intervalo de amplitud


fija varı́a, de acuerdo con la posición del intervalo; existen regiones con mayor “chance” de
ocurrir, y lo que determina este hecho es la función de densidad de probabilidad. Por lo
tanto, la función de densidad es un indicador de la “masa” (probabilidad) de los posibles
valores de X. Conviene resaltar, además, que f (x) no representa una probabilidad de
ocurrencia de algún evento. El área bajo la curva entre dos puntos es lo que dará la
probabilidad.
Notar que en estos ejemplos, el rol que jugaba la función de cuantı́a en el caso de
variables aleatorias discretas, lo asume ahora la función de densidad.

Definición 2.2.1: Una distribución de probabilidad continua es una función f (x),


definida sobre R que satisface:

i) f (x) ≥ 0, para todo x real.


∫ ∞
ii) f (x)dx = 1.
−∞

La función f se conoce con el nombre de densidad de probabilidad o simplemente densidad.


También, una variable aleatoria X se dice que tiene distribución continua (más pre-
cisamente absolutamente continua) si existe una función fX : R → R+ , llamada densidad
de X tal que ∫
P (X ∈ B) = fX (x)dx,
B

para todo B ⊂ R, boreliano (véase [7], pág. 8). En este texto asumirá que todo subcon-
junto de R es boreliano, y (X ∈ B) representa el suceso

(X ∈ B) = {w ∈ Ω : X(w) ∈ B}.

Además, al conjunto {x ∈ R : fX (x) > 0}, se le conoce como recorrido de la variable


aleatoria X y se anota Rec X.
Notar que, si B = R, (X ∈ B) = Ω, por lo que
∫ ∞
1= fX (x)dx.
−∞

O sea, fX es una distribución de probabilidad continua. Es común decir que X es variable


aleatoria continua en lugar de que X tiene distribución continua.

Observación 2.2.1: Si B = {c},

P (X ∈ B) = P (X = c)

= fX (x)dx
{c}

= 0.

- 146 -
2.2 Variables Aleatorias Continuas

Por lo tanto,
P (a < X < b) = P (a ≤ X < b)

= P (a < X ≤ b)

= P (a ≤ X ≤ b)
∫ b
= fX (x)dx.
a

Además, si δ es un número positivo y u ∈ R, entonces

( ) ∫ u+ δ
δ δ 2
P u− ≤X ≤u+ = fX (x)dx.
2 2 u− δ 2

Si se asume que δ es “pequeño” y que fX es continua en u, entonces

∫ u+ 2δ
fX (x)dx ≃ δ fX (u).
u− 2δ

Es decir, la probabilidad de que la variable aleatoria continua X pertenezca a un


intervalo “pequeño”, alrededor de u, es proporcional a fX (u). Algunas veces es común
usar la notación diferencial, P (x ≤ X ≤ x + dx) = fX (x)dx.
También, si se considera, para cada t real, Bt =] − ∞, t], entonces

P (X ≤ t) = P (X ∈ Bt )

= fX (s)ds
Bt

∫ t
= fX (s)ds.
−∞

Definición 2.2.2: Si X es variable aleatoria continua, se define la función de dis-


tribución acumulada (o simplemente función de distribución) de la variable aleatoria X,
se anota FX , por

FX (t) = P (X ≤ t)
∫ t
= fX (s) ds, para todo t real.
−∞

- 147 -
2.2 Variables Aleatorias Continuas

Ejemplo 2.2.3: Sea X la variable aleatoria del Ejemplo 2.2.1, es decir,



 1

 360 si 0 ≤ t ≤ 360
fX (t) =



0 e.o.c.

Ası́, si t < 0 , entonces


∫ t ∫ t
fX (s)ds = 0 ds = 0.
−∞ −∞

Por otra parte, si 0 ≤ t < 360 , entonces


∫ t ∫ 0 ∫ t
1 t
fX (s)ds = 0 ds + ds = .
−∞ −∞ 0 360 360

Finalmente, si t ≥ 360 , entonces


∫ t ∫ 0 ∫ 360 ∫ t
1
fX (s)ds = 0 ds + ds + 0 ds = 1.
−∞ −∞ 0 360 360

En consecuencia,
FX (t) = P (X ≤ t)
∫ t
= fX (s)ds
−∞


 0 si t < 0






t
= si 0 ≤ t < 360

 360






1 si t ≥ 360

La figura siguiente muestra el gráfico de la función FX (t).

FX (t)

0 360 t

Figura 2.2.4

- 148 -
2.2 Variables Aleatorias Continuas

Observación 2.2.2: Del teorema fundamental del cálculo, si fX es continua en t,


entonces

d
f (t) = FX (t).
dt
Esto permite concluir que, si FX es la función de distribución de una variable aleatoria
continua X y FX es continua en R y derivable, salvo posiblemente en un conjunto A,
finito, entonces una densidad para X está dada por

 d

 dt FX (t) si t ∈
/A
fX (t) =



0 si t ∈ A

Ejemplo 2.2.4: Sea Y variable aleatoria continua, con densidad


{
0 si y < 0
fY (y) =
3 exp(−3y) si y ≥ 0.

Encontremos una densidad para la variable aleatoria X = exp(Y ).


Primeramente, calcularemos FX (t), para todo t ∈ R .

FX (t) = P (X ≤ t)

= P (exp(Y ) ≤ t).
Si t < 0, entonces (exp(Y ) ≤ t) = ∅, por lo que FX (t) = 0. Si en cambio t > 0,
entonces, por ser creciente la función ln,
(exp(Y ) ≤ t) = (Y ≤ ln t),
de donde
FX (t) = P (Y ≤ ln t)
∫ ln t
= fY (s)ds.
−∞
Ahora, si 0 < t < 1, entonces ln t < 0, por lo que
∫ ln t ∫ ln t
fY (s)ds = 0ds = 0.
−∞ −∞

Por otra parte, si t ≥ 1, entonces ln t ≥ 0, o sea


∫ ln t ∫ 0 ∫ ln t
fY (s)ds = 0 ds + 3 exp(−3s) ds
−∞ −∞ 0

= − exp(−3 ln t) − (− exp(−3 · 0))

1
= − + 1.
t3

- 149 -
2.2 Variables Aleatorias Continuas

Resumiendo, 

 0 si t < 1

FX (t) =


1 − 1 si t ≥ 1
t3
O sea, FX es función continua en R y derivable, salvo posiblemente en el conjunto A = {1}
(que es finito).
En consecuencia, una densidad para la variable aleatoria X está dada por

 d
 FX (t)
 si t ∈
/A
dt
fX (t) =



0 si t ∈ A


0 si t < 1






3
= si t > 1

 t4






0 si t = 0

 3

 t4 si t > 1
=



0 e.o.c.

Proposición 2.2.1: Las propiedades básicas que satisface la función de distribución


acumulada de una variable aleatoria continua, son exactamente las mismas que las enun-
ciadas en la Proposición 2.1.1 para el caso discreto. Esto porque en la demostración de
ésta proposición no interviene el hecho que la variable aleatoria sea discreta.

Ejemplo 2.2.5: Sea X variable aleatoria con función de distribución FX dada por:


 0 si t < 0







 t2



 si 0 ≤ t < 1

 2




3
FX (t) =
 si 1 ≤ t < 2

 4





 1

 (t + 1) si 2 ≤ t < 3




4





1 si t ≥ 3

- 150 -
2.2 Variables Aleatorias Continuas

El gráfico siguiente representa la función FX

FX (t)

1
0.75
0.5

1 2 3 t

Figura 2.2.5

Notar que X no es variable aleatoria continua. Si lo fuese, una densidad serı́a



 d

 dt FX (t) si la densidad existe
fX (t) =



0 e.o.c.


 0 si t < 0









 t si 0 < t < 1









 0 si 1 < t < 2

=

 1

 si 2 < t < 3

4









 0 si t > 3







0 si t ∈ {0, 1, 2, 3}


 t si 0 < t < 1






1
= si 2 < t < 3

 4






0 e.o.c.

- 151 -
2.2 Variables Aleatorias Continuas

Pero,
∫ ∞ ∫ 0 ∫ 1 ∫ 2 ∫ 3 ∫ ∞
1
fX (t)dt = 0 dt + t dt + 0 dt + dt + 0 dt
−∞ −∞ 0 1 2 4 3

12 02 1
= − + (3 − 2)
2 2 4
3
= ,
4
o sea,
∫ ∞
fX (t)dt ̸= 1,
−∞

luego, X no puede ser variable aleatoria continua.


También, observando el gráfico anterior vemos que FX (t) = FX (t− ), para todo t real,
salvo t = 1, y FX (1) − FX (1− ) = 0.25 . Ası́, si X fuese discreta entonces Proposición
2.1.1 implicarı́a que

P (X = t) = FX (t) − FX (t− )
= FX (t) − FX (t)
= 0 , para todo t ∈ R − {1}

y
P (X = 1) = FX (1) − FX (1− )
= 0.75 − 0.5
= 0.25.

Es decir, RecX = {1}, por lo que



P (X = t) = P (X = 1)
t∈RecX
= 0.25,

o sea, t∈RecX P (X = t) ̸= 1, lo que significa que X no puede ser variable aleatoria
discreta.
En general, para que una variable aleatoria sea continua, la función FX debe al menos
ser continua en R y para que una variable aleatoria sea discreta, la función FX debe ser
una función escalonada.
Cabe señalar que si X es variable aleatoria que no es discreta ni continua, entonces
la función de distribución acumulada se define igualmente como FX (t) = P (X ≤ t). Esta
función satisface las mismas propiedades vistas en la Proposición 2.1.1 (por la misma
razón que en el caso continuo, es decir, porque en las demostraciones no interviene el tipo
de variable aleatoria subyacente a la función de distribución acumulada).
Por ejemplo, observando la Figura 2.2.5 y usando las propiedades de la Proposición
2.1.1 obtenemos que:

- 152 -
2.2 Variables Aleatorias Continuas

P (X < 1) = P (X ≤ 1) − P (X = 1)
= FX (1) − 0.25
= 0.75 − 0.25
= 0.5,

P (X ≥ 1) = 1 − P (X < 1)
= 1 − 0.5
= 0.5,

P (X ≥ 2) = 1 − P (X < 2)
= 1 − [P (X ≤ 2) − P (X = 2)]
= 1 − [FX (2) − 0]
= 1 − 0.75
= 0.25,
(1 ) (1 ) ( )
P 2 <X< 5
2 = P 2 <X≤ 5
2 − P X = 25
(5) (1)
= FX 2 − FX 2 −0
( ) ( 1 )2
1 5
= +1 − 2
4 2 2
3
= 4,

P (1 ≤ X < 4) = P (1 < X < 4) + P (X = 1)

= P (1 < X ≤ 4) − P (X = 4) + P (X = 1)

= FX (4) − FX (1) − 0 + 0.25

= 1 − 0.75 + 0.25

= 0.5.

Ejemplo 2.2.6: Sea Y variable aleatoria continua con densidad


 −λy si y ≥ 0
λe
fY (y) =


0 si y < 0

donde λ es una constante positiva.

- 153 -
2.2 Variables Aleatorias Continuas

Consideremos un número real r positivo y la variable aleatoria X = min{r, Y }. Entonces

FX (u) = P (X ≤ u)

= P (min{r, Y } ≤ u)

= 1 − P (min{r, Y } > u)

= 1 − P (r > u, Y > u)


1 − P (∅) si u ≥ r
=


1 − P (Y > u) si u < r


1 si u ≥ r





 (∫ 0 ∫ ∞ )

 −λy
= 1− 0 dy + λe dy si u < 0

 u 0



 ∫ ∞



1 − λ e−λy dy si 0 ≤ u < r
u


1 si u ≥ r





= 0 si u < 0







1 − e−λu si 0 ≤ u < r

La figura siguiente representa el gráfico de la función FX .

FX (u)

1−e−λr ◦

r u

Figura 2.2.6

Del gráfico anterior, podemos observar que la variable aleatoria X no es continua, ya


que FX no es función continua. Si X tuviese densidad, deberı́a verificarse que

- 154 -
2.2 Variables Aleatorias Continuas


 d

 du FX (u) si la derivada existe
fX (u) =



0 e.o.c.

 −λu
λe si 0 < u < r
=


0 e.o.c.
pero,
∫ ∞ ∫ r
fX (u)du = λe−λu du
−∞ 0

= 1 − e−λr

̸= 1.
También del gráfico podemos observar que la variable aleatoria X no es discreta, ya
que FX no es una función escalonada. Si X fuese discreta, su recorrido serı́a RecX = {r},
ya que, para todo x ̸= r,

P (X = x) = FX (x) − lim FX (y)


y→x−

= FX (x) − FX (x)

= 0.
Por lo tanto, ∑
P (X = x) = P (X = r)
x∈RecX

= FX (r) − lim FX (y)


y→r−

( )
= 1 − 1 − e−λr

= e−λr

̸= 1.

Ejemplo 2.2.7: Sea X variable aleatoria continua. Asumamos que la función de dis-
tribución FX es estrictamente creciente en un intervalo I y FX (t) = 0 para valores de t
a la izquierda del intervalo y FX (t) = 1 para valores de t a la derecha del intervalo. Bajo
estos supuestos, la función inversa FX−1 está bien definida.
Sea 0 < p < 1, el cuantil p-ésimo de la variable aleatoria continua X (es costum-
bre también llamarlo cuantil p-ésimo de la distribución FX ) se define de igual forma

- 155 -
2.2 Variables Aleatorias Continuas

que en el caso de variable aleatoria discreta, esto es, xp satisface P (X < xp ) ≤ p y


P (X > xp ) ≤ 1 − p. En este caso, por la continuidad de la función FX , las condiciones
que debe cumplir xp son equivalentes a FX (xp ) = p.
Casos especiales son p = 0.5, el cual corresponde a la mediana de FX , p = 0.25 que
corresponde al primer cuartil de FX y p = 0.75 que corresponde al tercer cuartil. En
otras palabras,

FX−1 (0.25) = primer cuartil ; FX−1 (0.5) = segundo cuartil ; FX


−1
(0.75) = tercer cuartil.

Por ejemplo, sea X variable aleatoria con función FX dada por




 0 si t < −4







 1 1

 si − 4 ≤ t < 2

 24
t+
6
FX (t) =

 1[ ]



 3(t − 2)2 + 1 si 2 ≤ t < 3

4





1 si t ≥ 3

cuyo gráfico se muestra en la figura siguiente.

FX (t)

1
4

−4 2 3 t

Figura 2.2.7
Entonces, el intervalo I =]−4, 3[ cumple las condiciones para la existencia de la inversa
−1
FX . Para encontrar FX−1 , resolvemos la ecuación y = FX (t), es decir,

1 1
y= t+ , −4 < t < 2
24 6
1[ ]
y= 3(t − 2)2 + 1 , 2 < t < 3,
4
obteniendo que

t = 24y − 4, −4 < t < 2



1
t= (4y − 1) + 2, 2 < t < 3.
3

- 156 -
2.2 Variables Aleatorias Continuas

En consecuencia,


 24t − 4 si 0 < t ≤
1


 4
−1
FX (t) = √



 1 1
 (4t − 1) + 2 si <t<1
3 4

de esta forma,
( )
−1 1 1
1◦ cuartil = FX = 24 · − 4 = 2,
4 4
( ) √ ( )
◦ −1 1 1 1
2 cuartil = FX = 4 · − 1 + 2 = 2.58,
2 3 2

( ) √ ( )
−1 3 1 3
3◦ cuartil = FX = 4 · − 1 + 2 = 2.82.
4 3 4

2.2.1 Algunas funciones de densidad que aparecen en la práctica


La densidad Uniforme
La función de densidad uniforme sobre el intervalo ]a, b[, se define por

 1

b − a si a<u<b
f (u) =



0 e.o.c.

La densidad uniforme es, entonces, una constante en el intervalo ]a, b[, inversamente
proporcional al largo del intervalo.
La siguiente figura muestra el gráfico de la función f .

f (u)

1
b−a

a b u

Figura 2.2.8: Gráfico de la función de densidad uniforme sobre ]a, b[.

- 157 -
2.2 Variables Aleatorias Continuas

También, la función de distribución acumulada asociada a esta densidad, es definida por


∫ u
F (u) = f (t)dt
−∞
∫ u



 0 dt si u < a

 −∞




∫ a
 ∫ u
1
= 0 dt + dt si a ≤ u < b

 −∞ a b−a





 ∫ a ∫ b ∫ u

 1

 0 dt + dt + 0 dt si u ≥ b
−∞ a b−a b


 0 si u < a
u − a
= si a ≤ u < b

 b−a

1 si u ≥ b
y su gráfico lo muestra la figura siguiente
F (u)

a b u

Figura 2.2.9: Gráfico de la distribución acumulada, asociado a una densidad uniforme


sobre ]a, b[.

Una variable aleatoria continua X, se dice que tiene distribución uniforme sobre ]a, b[,
se anota X ∼ U (a, b), si su función de densidad es uniforme sobre el intervalo ]a, b[.
Obviamente, de la definición, FX es igual a la función de distribución acumulada asociada
la densidad uniforme
Cuando se habla de “escoger un punto al azar en el intervalo ]a, b[”, significa representar
por X el punto escogido y asumir que X ∼ U (a, b).
Una importante aplicación de la distribución uniforme puede verse en el párrafo sobre
transformación de variables aleatorias.

Observación 2.2.3: Si consideramos una variable aleatoria discreta Y con


RecY = {r, r+1, . . .} ⊂ N0 , y una variable aleatoria continua U , de modo que U ∼ U (0, 1),
entonces la variable aleatoria X, definida por

X= mI(FY (m−1)<U ≤FY (m))
m∈Rec Y

- 158 -
2.2 Variables Aleatorias Continuas

es decir,
X=k si FY (k − 1) < U ≤ FY (k),

satisface que FX = FY .
En efecto, sea k ∈ {r, r + 1, . . .},

P (X = k) = P (FY (k − 1) < U ≤ FY (k))


∫ FY (k)
= 1 dt
FY (k−1)

= FY (k) − FY (k − 1)
∑ ∑
= pY (j) − pY (j)
j≤k j≤k−1
j∈RecY j∈RecY

= pY (k)

= P (Y = k).

En consecuencia, FX = FY .

Este resultado permite simular variables aleatorias discretas con recorrido contenido en
los enteros y con una distribución predeterminada. Por ejemplo, permite simular variables
binomiales.

La densidad exponencial

La función de densidad exponencial de parámetro λ > 0, es definida por


{
λe−λu si u ≥ 0
f (u) =
0 e.o.c.

Es común también, definir la densidad exponencial de parámetro λ > 0 por


{
1 −λ
1
λe
u
si u ≥ 0
f (u) =
0 e.o.c.

En general, en este texto se utilizará la primera forma de la densidad exponencial.


Además, la función de distribución acumulada, asociada a esta densidad es
∫ u
F (u) = f (t)dt
−∞

- 159 -
2.2 Variables Aleatorias Continuas
∫ u

 si u ≤ 0


0dt
 −∞
=

 ∫ ∫


u u
 0dt + λe−λt dt si u > 0
−∞ 0
{
0 si u ≤ 0
=
1 − e−λu si u > 0

Las siguientes figuras muestran los gráficos de la densidad exponencial y su respectiva


distribución acumulada para diferentes valores del parámetro λ.

f (u)

2.0

1.5 λ=0.5

1.0
λ=1
0.5
λ=2

0 1 2 3 u

Figura 2.2.10: Gráfico de la función de densidad exponencial de parámetro λ,


con λ = 0.5; λ = 1 y λ = 2.

F (u)

1 λ=0.5
λ=1
λ=2
0.5

0 1 2 3 u

Figura 2.2.11: Gráfico de la distribución acumulada asociada a la densidad exponencial


de parámetro λ, con λ = 0.5; λ = 1 y λ = 2.

Notar que, la mediana de la densidad exponencial, es decir, el valor θ tal que


F (θ) = 0.5, resulta de resolver la ecuación

1 − e−λθ = 0.5,
ln 2
o sea, la mediana resulta igual a θ = λ .

- 160 -
2.2 Variables Aleatorias Continuas

Una variable aleatoria continua X, se dice que tiene distribución exponencial de


parámetro λ, se anota X ∼ exp(λ), si su función de densidad es exponencial de parámetro
λ.
La distribución exponencial es a menudo usada para modelar tiempos de vida o tiempos
de espera.
Nótese que, si X ∼ exp(λ), entonces, para s, t > 0,
P (X > s + t, X > s)
P (X > s + t/X > s) =
P (X > s)

P (X > s + t)
=
P (X > s)

1 − FX (s + t)
=
1 − FX (s)

1 − (1 − e−λ(s+t) )
=
1 − (1 − e−λs )

= e−λt .
En este sentido, se dice que la densidad exponencial no tiene memoria, pues sabiendo que
X es mayor que s, la probabilidad que ahora X sea mayor que t no depende de s, sólo
depende de t.

La densidad Gamma
La función de densidad gamma de parámetros α > 0 y β > 0, se define como
 α

 β α−1 −βu

 Γ(α) u e si u ≥ 0
f (u) =



0 e.o.c.
También, en algunas oportunidades, la densidad gamma de parámetros α y β es definida
por
 1
α−1 − β u
1

 si u ≥ 0
 β α Γ(α) u e
f (u) =



0 e.o.c.
Nosotros usamos, en general, la primera forma de la densidad gamma. ∫∞
Es preciso recordar que la función Γ(α) está definida por Γ(α) = 0 tα−1 e−t dt.
Además, integrando por partes, es simple verificar que Γ(α + 1) = αΓ(α) y como Γ(1) = 1,
entonces, para todo natural n, Γ(n) = (n − 1)!. Es decir, la función Γ(α) es una genera-
lización del factorial de un número natural.

Las siguientes figuras muestran los gráficos de la densidad gamma y su respectiva


distribución acumulada, para diferentes valores del parámetro α y β = 1.

- 161 -
2.2 Variables Aleatorias Continuas

f (u)

1
α = 0.5

0.5 α=1

α=2

α=5

0 2 4 6 8 10 u

Figura 2.2.12: Gráfico de la función de densidad gamma de parámetros α y β


con α = 0.5; α = 1; α = 2; α = 5 y β = 1.

α=1

α=2
α=5

0.5

0 2 4 6 8 10

Figura 2.2.13: Gráfico de la distribución acumulada asociada a la densidad


gamma de parámetros α y β con α = 1; α = 2; α = 5 y β = 1.

La función de densidad exponencial de parámetro λ, corresponde a la función de densidad


gamma con parámetros α = 1 y λ.
Una variable aleatoria continua X, se dice que tiene distribución gamma de parámetros
α y λ, se anota X ∼ Gamma(α, λ), si su función de densidad es gamma de parámetros α
y λ.

- 162 -
2.2 Variables Aleatorias Continuas

La densidad Beta

La función de densidad Beta, de parámetros v > 0 y w > 0, corresponde a


 v−1
 u (1 − u)
w−1
si 0 < u < 1
f (u) = B(v, w)

0 e.o.c.

∫1
donde B(v, w) representa la integral B(v, w) = 0 xv−1 (1 − x)w−1 dx, que resulta ser igual
a

Γ(v)Γ(w)
B(v, w) = .
Γ(v + w)

Las siguientes figuras muestran los gráficos de la densidad Beta y su respectiva dis-
tribución acumulada, para diferentes valores de los parámetros v y w.

f (u)
v=2w=4 v=4w=2
2

0 0.5 1 u

Figura 2.2.14: Gráfico de la función de densidad Beta, de parámetros v y w,


con v = 2; w = 4; v = 4 y w = 2.

f (u)
2 v=1w=2 v=2w=1
v = 0.5
w = 0.5

v=1w=1
1

v = 0.2 w = 1

0 0.5 1 u

Figura 2.2.15: Gráfico de la función de densidad Beta, de parámetros v y w, con


(v, w) = (1, 2); (v, w) = (1, 1); (v, w) = (2, 1); (v, w) = (0.2, 1) y (v, w) = (0.5, 0.5).

- 163 -
2.2 Variables Aleatorias Continuas

F (u)

1
v=2w=4

v = 0.5 w = 0.5

0.5

v=1w=1

0 0.5 1 u

Figura 2.2.16: Gráfico de la función de distribución acumulada, asociada a la densidad


Beta, de parámetros v y w, con (v, w) = (2, 4); (v, w) = (1, 1) y (v, w) = (0.5, 0.5).

Cabe hacer notar que la función de densidad uniforme sobre ]0, 1[, corresponde a la función
de densidad Beta con parámetros v = 1 y w = 1.
Una variable aleatoria continua X, se dice que tiene distribución Beta de parámetros
v y w, se anota X ∼ Beta(v, w), si su función de densidad es Beta de parámetros v y w.
Es preciso resaltar que la distribución Beta resulta un modelo probabilı́stico bastante útil
para variables aleatorias con valores en el intervalo ]0, 1[.

La densidad normal (o gaussiana)


La función de densidad normal de parámetros µ y σ 2 , donde µ puede ser un real positivo
o negativo y σ puede ser un real estrictamente positivo, es definida por
1 { 2
}
f (x) = √ exp − 12 (x−µ)
σ2
, x ∈ R.
2π σ

La siguiente figura muestra el gráfico de la densidad normal de parámetros µ y σ 2 , con


σ = 2 y σ = 3.
..................................... σ=2
............. .........
........ ......
.......... ......
..
.... ................................... ..........
. .
..
..
...
. .. . .. .. ............
.. . ....... σ=3
......... .............
.. . .. ................. ...... ......
.. . .. . . ........ ......... .......
.. . ...........
.. .. .. .. .. .. ..
..
...
....
....
...
...
....
. .............. .................
.. .
. ......................
..
................
...
...
...
...
...
...
...
...
...
. .
.... ...............................

µ
Figura 2.2.17

Comúnmente, el gráfico anterior es conocido como “Campana de Gauss” de parámetros


(µ, σ 2 ) o también, como “Curva Normal (µ, σ 2 )”.
Usaremos indistintamente “Campana de Gauss” de parámetros (µ, σ 2 ) o “Curva Normal
(µ, σ 2 )” para referirnos a la función de densidad normal de parámetros µ y σ 2 o a su
gráfica.

- 164 -
2.2 Variables Aleatorias Continuas

En el caso en que µ = 0 y σ = 1, es común anotar φ(x) en lugar de f (x), es decir,

1 ( )
φ(x) = √ exp − 12 x2 , x ∈ R.

La Campana de Gauss de parámetros (0, 1) es conocida como “Campana de Gauss
estándar”. La siguiente figura muestra el gráfico de ésta “Campana” (la curva se extiende
hacia ambos lados sin llegar a tocar el eje x, pero se acerca tanto al eje, que no se distingue
a simple vista).

φ(x)

0.4 .........................
...... .....
.... ....
.... ....
..
..... ....
....
.
.... ....
.... 0.2 ....
.
...... ....
....
.... ....
.... .....
...
. ..... .....
.......
.....
............ ............
.......................................................... ..........................................................

−3 −2 −1 0 1 2 3 x

Figura 2.2.18

También, la función de distribución acumulada asociada a la densidad normal estándar es


∫ z
1 ( )
F (z) = √ exp − 12 t2 dt
−∞ 2π

y se acostumbra a denotar por Φ(z).


El área sombreada que muestra la figura siguiente, representa el área que está bajo la
campana de Gauss estándar, sobre el eje x y antes de la recta x = z, es decir, el valor de
esta área corresponde a Φ(z).

...
Φ(z) .........................
..... . . . . .....
↘ .... . . . . . . . . . . . .....
..... . . . . . . . . . . . . . ......
.... . . . . . . . . . .... .
..... . . . . . . . . . . . . . . . . . . . .....
..... . . . . . . . . . . . . . . . . . . . . . . . .....
.
........ . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .......
..... . . . . . . . . . . . . . . . . . . . . . . . . . . . ....
..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........
............. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. .....
.....
.
..
...
...
......... .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . ........
..............
.
....
...
...
...
....
..
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .....................................................
................................................ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Figura 2.2.19

Finalmente, la figura siguiente muestra el gráfico de la función de distribución acumulada


asociada a la densidad normal estándar, es decir el gráfico de Φ(z).

- 165 -
2.2 Variables Aleatorias Continuas

Φ(x)

.........
1 .............
......
...
......
.....
.....
..
.......
0.5 ..
.....
.....
.........
..
........
............
.
...
...
...
...
...
...
...
...
...
...
...
................
....................................................
..

−3 −2 −1 0 1 2 3 x

Figura 2.2.20

Algunas caracterı́sticas de la densidad normal estándar, es decir, de la


función φ
( 1 ) ( 1 )
• Como exp − 2 x2 = exp − 2 (−x)2 , entonces, para todo x, φ(x) = φ(−x), es
decir, la gráfica de φ es simétrica respecto x = 0. O dicho de otra forma, la campana
de Gauss estándar es simétrica respecto de la recta x = 0.

.......................
...... .....
..
..... ....
. ....
.
...... ....
..
.. ....
...
. ....
... ....
.... ....
.
... ....
... ....
.... .....
.... .....
..... ......
..
...
...
.. ...........
..
...
...
...
. ............................
.................................................. ................................

x=0 x

Figura 2.2.21
∫∞
• La función φ es densidad, luego −∞ φ(x)dx = 1, o sea, el área bajo la curva φ y
sobre el eje x es igual a 1.

.............
........ . ........
.... . . . . . . . . . ......
....... . .. . .. . .. . .. . .. . .. . .........
.
.
.... . . . . . . . . . . . . . . . . . . ......
..... . . . . . . . . . . . . . . . . . . . . . .....
.
........ . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . ..........
. .
.... . . . . . . . . . . . . .1. . . . . . . . . . . . . . . . .....
..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....
..
....... .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. ..........
...... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......
....... . . . . . . . . . . . . . . . . . . . . . . . ......
............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .............
....................................................................... .. . .. . . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. .......................................................................

0 x

Figura 2.2.22

- 166 -
2.2 Variables Aleatorias Continuas

• Sea z un número negativo (en consecuencia −z es positivo). El área que se


encuentra bajo la campana de Gauss estándar, sobre el eje x y antes de la recta
x = z, como lo muestra la figura siguiente, esto es Φ(z)

........................
..... .....
.
...... ....
.. ....
.....
. ....
....
..
. ....
..
..
. ....
Φ(z) .... . . ...
. ....
. .... ....
↘ ..
. ..
. ...
.. . . . . .
.. . . . . . . .
....
.....
.....
...
... . . . . .......
.
...
...
.. . .......... ............
...
...
...
...
...
.
..... . . . . . . . . . . . . . ...................................................
....................................................... . . . . . . . . . . . . . . . . . . . . .......

z 0 x

Figura 2.2.23

resulta ser igual, por la simetrı́a de la campana de Gauss, al área que se encuentra
bajo la campana de Gauss estándar, sobre el eje x y después de la recta x = −z.

.............
....... ...........
.... ....
..
..... ....
....
.
..
..... ....
....
...
. ...
...
..
.... . .........
.. . . ..
.
....
. . .. . .. ..........
.
......
. . . . . . . . .......
. . . . . ...
....... . .. . .. . .. . .. . .. .......................
............
......................................................... . . . . . . . . . . . . . . . . . ............................................................
...................

0 −z x

Figura 2.2.24

Pero, al área que se encuentra bajo la campana de Gauss estándar, sobre el eje x y
antes de la recta x = −z, es igual Φ(−z)

...
.........................
...... . . . . . . . . .....
.
........ .. . .. . .. . .. . .. . .. ..........
. .
..... . . . . . . . . . . . . . . . . . ......
..... . . . . . . . . . . . . . . . . . . . . . .....
.
......... . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .........
Φ(−z) ....... . . . . . . . . . . . . . . . . . . . . . . . . . . ......
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......
↘ ..
..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
...... .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. .
.....
.....
.. .......
..
. ..
...
. ............ .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . ..
. ............
..................................................
....................................................................... .. . .. . . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . ........

0 −z x

Figura 2.2.25

y como el área total es uno, entonces 1 − Φ(−z) será igual al área que se encuentra
bajo la campana de Gauss estándar, sobre el eje x y después de la recta x = −z.

- 167 -
2.2 Variables Aleatorias Continuas

...............
....... ..........
.... ....
..
..... ....
....
.
..
..... ....
....
...
. ...
..
..
...
. . .........
.. . . ..
.
.....
.. . .. . .. ........1−Φ(−z)
.... . . . . . . ..........
. .. . .. . .. . ..↙
..
.. . . . . . .........
...... . . .......
............ . . . . . . . . . .. . .. . .. .......................................................................
......................................................... ...................

0 −z x

Figura 2.2.26

En consecuencia, Φ(z) = 1 − Φ(−z), para todo z negativo.

.....................
....... .....
.... ....
.
...... ....
....
..
.. ....
...
. ....
.
... ..
. ..
. .
. ..
. .. . .........
Φ(z)............. .. .. .. . . . ...... 1−Φ(−z)
. . . ..
.. . . . . . .. . .. . .. ...........
..↘
......... . .. . .. . .. . . . . . . . . .↙ . ...
.
...
...
. . .
.......... . . . . . . . . . . . . . . . . . .............
...................................................................... .. . .. . . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. .......................................................................
...................

z 0 −z x

Figura 2.2.27

• El área que se encuentra bajo la campana de Gauss estándar sobre el eje x y antes
de recta x = 3.59, esto es

∫ 3.59
φ(t)dt = Φ(3.59),
−∞

es “aproximadamente” igual a uno.

.....................
..... . . . . . . ......
..
...... . .. . .. . .. . .. . .. ...........
. .
.... . . . . . . . . . . . . . . . . . .....
..... . . . . . . . . . . . . . . . . . . . .....
.
....... .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. ........
.
.... . . . . . . . . . . . . . . . . . . . . . . . . . . . ..... Φ(3.59)
.... . . . . . . . . . . . . . . . ....
..... . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .........
.
.... . . . . . . . . . . . . . . . .
...... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
.↙. . ..
....... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......
...
...
...
...
...
.
.............. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .................................
.
...................................................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...................................................

0 3.59 x

Figura 2.2.28

- 168 -
2.2 Variables Aleatorias Continuas

En consecuencia, el área bajo la campana de Gauss estándar, sobre el eje x y antes


de la recta x = −3.59, esto es, Φ(−3.59), es aproximadamente igual 1 − Φ(3.59), o
sea, “aproximadamente” igual a cero.

• Si z > 0, entonces
∫ z
Φ(z) = φ(t)dt
−∞
∫ z
1 ( )
= √ exp − 12 t2 dt
−∞ 2π
y esta última integral no es posible de calcularla explı́citamente con los métodos
de integración usuales, por lo que la función Φ(z) no puede ser evaluada en forma
cerrada, esto es, no se puede dar una expresión en función de z. Por esta razón, se
ha construido una tabla (conocida como tabla normal (0,1)) con los valores de Φ(z),
para z un número real positivo entre 0 y 3.59 y con incrementos de 0.01, es decir, z
perteneciente al conjunto

C = {0, 0.01, 0.02, 0.03 , . . . , 0.09, 0.1, 0.101, . . . , 3.58, 3.59},

el cual tiene 360 elementos.

Notar que si z < 0, entonces


∫ −z ∫ ∞
1= φ(t)dt + φ(t)dt
−∞ −z
∫ ∞
1 ( )
= Φ(−z) + √ exp − 12 t2 dt
−z 2π
∫ −∞
1 ( )
= Φ(−z) − √ exp − 12 u2 du
z 2π
∫ z
1 ( )
= Φ(−z) + √ exp − 21 u2 du
−∞ 2π

= Φ(−z) + Φ(z).

Ası́, se verifica formalmente que Φ(z) = 1 − Φ(−z).

- 169 -
2.2 Variables Aleatorias Continuas

Tabla Normal (0,1)


0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5783 .5832 .5871 .5910 .5948 .5987 .6026 .6464 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517

0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7703 .7734 .7764 .7794 .7823 .7852

0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830

1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441

1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767

2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916

2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974

2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993

3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
3.5 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998

Tabla 2.2.2

La forma de usar esta tabla es la siguiente:


Por
∫ 1.23 ejemplo,( para) encontrar el valor de Φ(1.23), es decir, para encontrar
√1 exp − 1 t2 dt, obsérvese en la tabla la intersección de la fila 1.2 con la
−∞ 2π 2
columna 0.03 (1.23 = 1.2 + 0.03). El valor que resulta es 0.8907, por lo que
Φ(1.23) = 0.8907.

∫Si−2.38
se deseara (encontrar,
) por ejemplo, el valor de Φ(−2.38), esto es, calcular
√1 exp − 1 t2 dt, no es posible usar la tabla directamente, pues este valor
−∞ 2π 2
no aparece en ella. Para resolver este problema se usa la relación Φ(z) = 1 − Φ(−z),
para todo z < 0.

- 170 -
2.2 Variables Aleatorias Continuas

Ası́,
Φ(−2.38) = 1 − Φ(2.38)
= 1 − 0.9913
= 0.0087.

A partir de la tabla normal (0,1) se verifica, por ejemplo, que:


El área que se encuentra bajo la campana de Gauss estándar, sobre el eje x y entre
las rectas x = −2; x = 2, esto es
∫ 2 ∫ 2 ∫ −2
φ(t)dt = φ(t)dt − φ(t)dt
−2 −∞ −∞
= Φ(2) − Φ(−2)
= Φ(2) − (1 − Φ(2))
= 2Φ(2) − 1 ,

es “aproximadamente” igual a 0.95 (también se dice el 95%).


Por otra parte, el área que se encuentra bajo la campana de Gauss estándar, sobre
el eje x y entre las rectas x = −3 ,x = 3, esto es
∫ 3
φ(t)dt = Φ(3) − Φ(−3)
−3
= 2Φ(3) − 1,

es “aproximadamente” igual a 0.99 (99%).

La tabla normal(0,1) también puede ser usada en sentido inverso, esto es, dado
0 < β < 1 , encontrar z de modo que Φ(z) = β . A este valor de z se le llama cuantil
β y es común denotarlo por zβ . Por ejemplo, z.975 = 1.96 , ya que .975 se encuentra en
la intersección de la fila 1.9 con la columna 0.06 y 1.9 + 0.06 = 1.96.

La siguiente, es otra forma de calcular el valor aproximado de Φ(z), la cual puede


consultarse en [1].

Sea z ≥ 0, entonces
Φ(z) ≃ 1 − φ(z)(bt + ct2 + dt3 ),
1
donde t = 1+az y
a = 0.33267, b = 0.4361836,
c = −0.1201676, d = 0.9372980.
Además, el error que se comete por esta aproximación es menor que 10−4 , es decir,

Φ(z) − (1 − φ(z)(bt + ct2 + dt3 )) < 10−4 .

Por ejemplo, si z = 1.96, entonces t = 0.605315, φ(1.96) = 0.05844094 y

1 − φ(z)(bt + ct2 + dt3 ) = 0.97499.

- 171 -
2.2 Variables Aleatorias Continuas

Notar que la aproximación sólo es válida para z ≥ 0, en el caso z < 0, se debe usar la
relación Φ(z) = 1 − Φ(−z), y ahora aproximar Φ(−z).
En la referencia citada recientemente, también puede consultarse la aproximación para
la inversa, esto es, dado 0 < β < 1, como encontrar el cuantil β, esto es zβ .

Sea 0 < β ≤ 0.5, si


a0 + a1 t
zβ = t −
1 + b1 t + b2 t2

con t = −2 ln β y
a0 = 2.30753, b1 = 0.99229,
a1 = 0.27061, b2 = 0.04481,
entonces
Φ(zβ ) ≃ β,
y el error que se comete al aproximar zβ es menor que 3 × 10−3 , esto es,

|Φ(zβ ) − β| < 3 × 10−3 .

Observar que la aproximación anterior es sólo válida para 0 < β ≤ 0.5.


Si 0.5 < β < 1, debe usarse la simetrı́a en torno de 0 de la función φ(z), esto es, si
0.5 < β < 1 y Φ(z) = β, entonces Φ(−z) = 1 − β. Ahora, como 0 < 1 − β < 0.5, se usa
la aproximación descrita anteriormente.
Por ejemplo, si β = 0.975, entonces 1 − β = 0.025. Luego, t = 2.71620 y la aproximación
nos conduce al valor −1.6445. Por lo tanto,

Φ(1.6445) ≃ 0.975.

Finalmente, una variable aleatoria X, se dice que tiene distribución normal de


parámetros µ y σ 2 > 0, se anota X ∼ N (µ, σ 2 ), si su función de densidad es
normal de parámetros µ y σ 2 .

El problema ahora es como calcular probabilidades relacionadas con una variable


aleatoria X ∼ N (µ, σ 2 ). Por ejemplo ¿cómo calcular FX (x), para todo x real?
El siguiente ejemplo, nos entrega, en particular, la respuesta a la interrogante anterior.

Ejemplo 2.2.8: Sea X variable aleatoria, de modo que X ∼ N (µ, σ 2 ). Supongamos que
Z = aX + b, con a y b reales conocidos y a < 0. Entonces, para todo z real,

FZ (z) = P (Z ≤ z)
= P (aX + b ≤ z)
= P (aX ≤ z − b).

Pero, a < 0, de donde ( )


z−b
(aX ≤ z − b) = X ≥ ,
a

- 172 -
2.2 Variables Aleatorias Continuas

es decir ( )
FZ (z) = P X ≥ z−b
a
( )
= 1−P X < z−b
a
( z−b )
= 1 − FX a

∫ z−b { }
a 1 (u−µ)2
= 1− √ exp − 12 σ2
du.
−∞ 2πσ
La función FZ (z) es continua y derivable en todo R, por lo que una densidad para Z
está dada por
d
fZ (z) = FZ (z).
dz
Por teorema fundamental del cálculo integral
∫ h(z) { } { } d
d 1 (u−µ)2 1 (h(z)−µ)2
√ exp − 12 σ2
du = √ exp − 12 σ2
h(z),
dz −∞ 2πσ 2πσ dz

de donde { }
1 ( z−b −µ)2 1
fZ (z) = − √ exp − 12 a
σ2
2πσ a

1 { }
(z−(aµ+b))2
= √ exp − 21 (aσ)2
.
2π(−a)σ
Análogamente, si a > 0,

1 { }
(z−(aµ+b))2
fZ (z) = √ exp − 12 (aσ)2
.
2πaσ

En consecuencia, Z ∼ N (aµ + b, a2 σ 2 ), es decir, si X ∼ (µ, σ 2 ), entonces


(aX + b) ∼ N (aµ + b, a2 σ 2 ).
En particular, si X ∼ N (µ, σ 2 ), entonces la variable aleatoria Z = X−µ = σ1 X + −µ
σ ,
−µ ( )
1 2
σ
1
tiene distribución normal de parámetros σ µ + σ y σ · σ , es decir, Z ∼ N (0, 1).
2

Por esta razón, si X ∼ N (µ, σ ), entonces, para números reales c < d, la probabilidad
2

P (c ≤ X ≤ d), puede calcularse de la siguiente forma:


( )
c−µ X−µ d−µ
P (c ≤ X ≤ d) = P σ ≤ σ ≤ σ

( ) ( c−µ )
d−µ
= Φ σ −Φ σ .

Ası́, probabilidades para variables aleatorias normales generales, pueden ser calculadas
en términos de probabilidades obtenidas de la tabla normal (0,1).
Esta es la razón por la cual no es necesario conocer tablas normales para cualquier µ y
σ. ( )
Por ejemplo, si X ∼ N 20 20
3 , 9 ,

- 173 -
2.2 Variables Aleatorias Continuas

( ) ( )
P (7.5 < X < 10.5) = Φ √
10.5−20/3
−Φ √
7.5−20/3
20/9 20/9

= Φ(2.57) − Φ(0.56)

= 0.2826

La distribución normal juega un rol fundamental en probabilidades y estadı́stica, como


lo veremos a través del resto de este texto. La distribución normal también es llamada dis-
tribución gaussiana después que Carl Friedrich Gauss la propusiera como modelo teórico
para errores de medición. El teorema del lı́mite central, que veremos más adelante, jus-
tifica el uso de la distribución normal en muchas aplicaciones. En pocas palabras, este
teorema dice que si una variable es la suma de un “gran” número de variables aleatorias
independientes, esta tiene distribución aproximadamente normal.
La distribución normal es común verla como modelo para: altura de personas, veloci-
dad de una molécula, puntaje de algún test educacional, coeficientes que determinan el
5% del Aporte Fiscal Directo, etc.

La densidad chi-cuadrado
La función de densidad chi-cuadrado con n grados de libertad (n natural), se define por
 ( )
 n 1( ) u n2 −1 exp − 1 u si u > 0
n 2
f (u) = 2 2 Γ 2

0 e.o.c.

Las siguientes figuras muestran los gráficos de la densidad chi-cuadrado y su respectiva


distribución acumulada, para diferentes grados de libertad,

f (u)

0.20

0.15 n=4

0.10

n=10

0.05 n=20

0 5 10 15 20 25 30 35 u

Figura 2.2.29: Gráfico de la función de densidad chi-cuadrado con n grados de libertad,


con n = 4, n = 10 y n = 20.

- 174 -
2.2 Variables Aleatorias Continuas

Fn (u)

n=4
n = 10
n = 20

0.5

0 5 10 15 20 25 30 35 u

Figura 2.2.30: Gráfico de la función de distribución acumulada asociada a la densidad


chi-cuadrado con n grados de libertad, con n = 4, n = 10 y n = 20.

Al igual que en el caso de la distribución normal, la complejidad de la función de


densidad chi-cuadrado, no permite calcular en forma cerrada su función de distribución
acumulada Fn (u).
Por esta razón, al igual que en el caso normal(0,1), existe una tabla con valores de
Fn (u), que presentamos a continuación. Los valores de u donde se calcula Fn (u) son
aquellos en que Fn (u) = β , con n ∈ {1, 2, 3, . . . , 16, 18, 20, 24, 30, 40, 60, 120}, y
β ∈ {.005, .010, .025, .050, .100, .900, .950, .975, .990, .995}.
Los valores de la tabla se conocen como cuantiles y se anotan χ2n,β .
Por ejemplo, para encontrar u de modo que F14 (u) = 0.90 , que se anota χ214,0.90 , se debe
observar la intersección de la fila n = 14 con la columna β = 0.90. El valor resultante es
21.06, por lo que F14 (21.06) = 0.90, o dicho de otra forma, χ214,0.90 = 21.06.

- 175 -
2.2 Variables Aleatorias Continuas

Tabla Chi-Cuadrado

n\β .005 .01 .025 .05 .10 .90 .95 .975 .99 .995

1 .000039 .00016 .00098 .0039 .0158 2.71 3.84 5.02 6.63 7.88
2 .0100 .0201 .0506 .1026 .2107 4.61 5.99 7.38 9.21 10.60
3 .0717 .115 .216 .352 .584 6.25 7.81 9.35 11.34 12.84
4 .207 .297 .484 .711 1.064 7.78 9.49 11.14 13.28 14.86
5 .412 .554 .831 1.15 1.61 9.24 11.07 12.83 15.09 16.75

6 .676 .872 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55
7 .989 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28
8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.96
9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59
10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19

11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.73 26.76
12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30
13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82
14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32
15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80

16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27
18 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16
20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00
24 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56
30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67

40 20.71 22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.77
60 35.53 37.48 40.48 43.19 46.46 74.40 79.08 83.30 88.38 91.95
120 83.85 86.92 91.58 95.70 100.62 140.23 146.57 152.21 158.95 163.64

Tabla 2.2.3

Notar que la función de densidad chi-cuadrado con n grados de libertad es un caso par-
ticular de la función de densidad gamma. Basta considerar en ésta última los parámetros
α = n2 y λ = 21 .
También, una variable aleatoria continua X, se dice que tiene distribución chi-cuadrado
con n grados de libertad, se anota X ∼ χ2(n) , si su función de densidad es chi-cuadrado
con n grados de libertad. Por ejemplo, si X es variable aleatoria tal que X ∼ χ2(14) ,
entonces P (X ≤ 21.06) = 0.90.
Como veremos más adelante, la distribución chi-cuadrado corresponde a la distribución
del cuadrado de una normal, esto es, si X es variable aleatoria tal que X ∼ N (0, 1),
entonces X 2 tiene distribución chi-cuadrado con un grado de libertad.
Finalmente, mencionamos que la distribución chi-cuadrado es de gran utilidad en Inferen-
cia Estadı́stica, por ejemplo, en la construcción de intervalos de confianza.

La densidad t-student
La función de densidad t-student con n grados de libertad es definida como
( ) ( ) (n+1)
Γ n+1 u 2 − 2
2( )
f (u) = √ 1+ , u ∈ R.
nπ Γ n2 n

- 176 -
2.2 Variables Aleatorias Continuas

Las siguientes figuras muestran los gráficos de la densidad t-student y su respectiva


distribución acumulada, para diferentes grados de libertad,

f (u)

0.5
n = 100

n=5

n=1

-3 -2 -1 0 1 2 3 u

Figura 2.2.31: Gráfico de la función de densidad t-student con n grados de libertad,


con n = 1, n = 5 y n = 100.

Fn (u)
1 n = 100
n=5

n=1

0.5

-3 -2 -1 0 1 2 3 u

Figura 2.2.32: Gráfico de la función de distribución acumulada asociada a la densidad


t-student con n grados de libertad, con n = 1, n = 5 y n = 100.

La función de densidad t-student es simétrica respecto de cero, esto es


f (u) = f (−u). Además, cuando el número de grados de libertad es “grande”, la den-
sidad t-student es “aproximadamente” igual a la densidad normal estándar, de hecho,
para grados de libertad mayores que 30, las dos densidades son bastante “cercanas”.
Al igual que en los casos de las densidades normal y chi-cuadrado, la complejidad de
la densidad t-student no permite calcular en forma cerrada su función de distribución
acumulada Fn (u).
Por esta razón, como en el caso chi-cuadrado, existe una tabla con valores de Fn (u),
que presentamos a continuación. Los valores de u donde se calcula Fn (u) son aquellos
para los que se cumple que Fn (u) = β , con n ∈ {1, 2, 3, . . . , 30, 40, 60, 120, ∞}, y
β ∈ {.60, .70, .80, .90, .95, .975, .990, .995}.

- 177 -
2.2 Variables Aleatorias Continuas

Los valores de la tabla se conocen como cuantiles y se anotan tn,β .


Por ejemplo, para encontrar u de modo que F17 (u) = .975 , que se anota t17,.975 , se debe
observar la intersección de la fila n = 17 con la columna t.975 . El valor resultante es 2.11,
por lo que F17 (2.11) = .975, o dicho de otra forma, t17,.975 = 2.11.

Tabla t-student

n\β .60 .70 .80 .90 .95 .975 .99 .995

1 .325 .727 1.376 3.078 6.314 12.706 31.821 63.657


2 .289 .617 1.061 1.886 2.920 4.303 6.965 9.925
3 .277 .584 .978 1.638 2.353 3.182 4.541 5.841
4 .271 .569 .941 1.533 2.132 2.776 3.747 4.604
5 .267 .559 .920 1.476 2.015 2.571 3.365 4.032

6 .265 .553 .906 1.440 1.943 2.447 3.143 3.707


7 .263 .549 .896 1.415 1.895 2.365 2.998 3.499
8 .262 .546 .889 1.397 1.860 2.306 2.896 3.355
9 .261 .543 .883 1.383 1.833 2.262 2.821 3.250
10 .260 .542 .879 1.372 1.812 2.228 2.764 3.169

11 .260 .540 .876 1.363 1.796 2.201 2.718 3.106


12 .259 .539 .873 1.356 1.782 2.179 2.681 3.055
13 .259 .538 .870 1.350 1.771 2.160 2.650 3.012
14 .258 .537 .868 1.345 1.761 2.145 2.624 2.977
15 .258 .536 .866 1.341 1.753 2.131 2.602 2.947

16 .258 .535 .865 1.337 1.746 2.120 2.583 2.921


17 .257 .534 .863 1.333 1.740 2.110 2.567 2.898
18 .257 .534 .862 1.330 1.734 2.101 2.552 2.878
19 .257 .533 .861 1.328 1.729 2.093 2.539 2.861
20 .257 .533 .860 1.325 1.725 2.086 2.528 2.845

21 .257 .532 .859 1.323 1.721 2.080 2.518 2.831


22 .256 .532 .858 1.321 1.717 2.074 2.508 2.819
23 .256 .532 .858 1.319 1.714 2.069 2.500 2.807
24 .256 .531 .857 1.318 1.711 2.064 2.492 2.797
25 .256 .531 .856 1.316 1.708 2.060 2.485 2.787

26 .256 .531 .856 1.315 1.706 2.056 2.479 2.779


27 .256 .531 .855 1.314 1.703 2.052 2.473 2.771
28 .256 .530 .855 1.313 1.701 2.048 2.467 2.763
29 .256 .530 .854 1.311 1.699 2.045 2.462 2.756
30 .256 .530 .854 1.310 1.697 2.042 2.457 2.750

40 .255 .529 .851 1.303 1.684 2.021 2.423 2.704


60 .254 .527 .848 1.296 1.671 2.00 2.390 2.660
120 .254 .526 .845 1.289 1.658 1.980 2.358 2.617
∞ .253 .524 .842 1.282 1.645 1.960 2.326 2.576

Tabla 2.2.4

Además una variable aleatoria continua X, se dice que tiene distribución t-student con
n grados de libertad, se anota X ∼ tn , si su función de densidad es t-student con n
grados de libertad. Por ejemplo, si X es variable aleatoria tal que X ∼ t17 , entonces
P (X ≤ 2.11) = .975.

- 178 -
2.2 Variables Aleatorias Continuas

Como veremos luego, la distribución t-student corresponde a la distribución del cuo-


ciente entre una variable normal estándar y la raı́z cuadrada de una chi-cuadrado, ambas
independientes. Esto es, si X e Y son variables aleatorias continuas e independientes,
tales que X ∼ N (0, 1), y Y ∼ χ2(m) , entonces √ X tiene distribución t-student con m
Y /m
grados de libertad.
También cabe mencionar que la distribución t-student es de gran utilidad en Inferencia
Estadı́stica, por ejemplo, en la construcción de intervalos de confianza y test de hipótesis.

Ahora, mostramos algunas relaciones que permiten encontrar los cuantiles normal,
chi-cuadrado y t-student, en forma aproximada.
Para 10−7 < α < 0.5 , el cuantil z1−α , de la distribución normal N (0, 1), puede ser
aproximado por
( )1/2
{(4y + 100) y + 205} y 2
z1−α ≈ ,
{(2y + 56) y + 192} y + 131
donde y = − ln(2α).

Para 0 < β < 1 y n natural, el cuantil χ2n,β , puede ser aproximado por
1 ( √ )2
χ2n,β ≈ zβ + 2n − 1
2
o ( √ )3
2 2
χ2n,β ≈ n zβ +1− .
9n 9n
Para 0 < β < 1 y n natural, el cuantil tn,β , puede ser aproximado por
( )
1 + zβ2
tn,β ≈ zβ 1 + .
4n

Finalmente, entre otras funciones de densidad continuas de interés están:


• Weibull con parámetros α > 0 y β > 0. Es usada, por ejemplo, en confiabilidad,
para modelar tiempos de falla.
• Pareto con parámetros a > 0 y b > 0. Es usada, por ejemplo, en teorı́a de seguros,
para modelar tamaños de cobros de primas.
• Gumbel con parámetros µ y σ > 0. Es usada, por ejemplo, en la modelación de
valores extremos (máximos o mı́nimos).
• Rayleigh con parámetro σ > 0. Es usada para modelar, por ejemplo, datos censura-
dos.
• F de Fisher con parámetros m y n. Es usada, por ejemplo, en la construcción de
test estadı́sticos.
Excelentes referencias para ahondar sobre el estudio de distribuciones estadı́sticas
pueden encontrarse en [3] y [6].

- 179 -
2.2 Variables Aleatorias Continuas

2.2.2 Transformación de variables aleatorias


Sean X variable aleatoria continua, g función de R en R y Z la variable aleatoria definida
por Z = g(X). Supongamos que X tiene función de densidad f . ¿Cómo encontrar, a
partir de la densidad f , la función de densidad de Z?
Un ejemplo de la situación planteada recientemente es el siguiente. Se asume que la
velocidad X, de una partı́cula de masa m, sigue una distribución normal (µ, σ 2 ) y se desea
conocer el comportamiento probabilı́stico de la energı́a cinética de la partı́cula, esto es, la
densidad de probabilidad de Y = 21 mX 2 .
(u−µ)2
En este ejemplo, f (u) = √1
2πσ
exp{− 12 σ2
} y g(t) = 12 mt2 .

Otro caso es cuando X ∼ N (µ, σ 2 ) y se desea saber el comportamiento probabilı́stico


de Z = aX + b, con a, b reales conocidos y a ̸= 0. La variable aleatoria Z fue estudiada
anteriormente en el Ejemplo 2.2.8.

Ejemplo 2.2.9: Sea X variable aleatoria tal que X ∼ N (µ, σ 2 ). Encontraremos el


( )2
comportamiento probabilı́stico de Z = X−µσ .
La distribución acumulada de Z es, para todo real z,
FZ (z) = P (Z ≤ z)
(( )2 )
X−µ
= P σ ≤z .
(( )2 )
X−µ
En el caso en que z sea negativo, el suceso σ ≤z es igual al conjunto vacı́o,
y si z ≥ 0, entonces
(( )2 ) ( )
X −µ X − µ √
≤z
σ
= σ ≤ z

( )
√ X −µ √
= − z≤ ≤ z .
σ
De esta forma, si z < 0, FZ (z) = 0, y si z ≥ 0,
( √ √ )
X−µ
FZ (z) = P − z ≤ σ ≤ z

√ √
= Φ( z) − Φ(− z).
En resumen {
0 si z < 0
FZ (z) = √ √
Φ( z) − Φ(− z) si z ≥ 0
La función FZ es continua y derivable (salvo posiblemente en z = 0), luego una den-
sidad para Z está dada por
{
d
FZ (z) si la derivada existe
fZ (z) = dz
0 e.o.c.

- 180 -
2.2 Variables Aleatorias Continuas

Al igual que en el Ejemplo 2.2.8, Teorema fundamental del cálculo implica que
d √ 1 1 √ 2 1
Φ( z) = √ e− 2 ( z) √
dz 2π 2 z
y
d √ 1 √ 2 −1
Φ(− z) = √ e− 2 (− z) √ .
1

dz 2π 2 z
Por lo tanto,
 1
 − 12 − 12 z
 √2π z e
 si z ≥ 0
fZ (z) =



0 e.o.c.
(1) 1 (1) √
Pero, √1 = 2
y Γ = π , por lo que
2 2 2
 ( )1

 1 2


1
−1 − 1 z
 (1) z 2 e 2 si z ≥ 0
2
Γ 2
fZ (z) =




0 e.o.c.

es decir, Z ∼ χ2(1) .

Ejemplo 2.2.10: Sea X variable aleatoria, tal que X ∼ U (0, 1). Supongamos que Z es
la longitud de aquel de los segmentos ]0, X[ , [X, 1[, que contiene al punto 0.5. Entonces
Z = g(X), donde

g(u) = max {u, 1 − u}


0≤u≤1

{
u si 0.5 ≤ u ≤ 1
=
1−u si 0 ≤ u ≤ 0.5

La siguiente figura muestra el gráfico de la función g

g(u)

0.5

0.5 1 u

Figura 2.2.33
Notar que la función g no es creciente (tampoco es decreciente). Además, para todo z real,
P (Z ≤ z) = P (max{X, 1 − X} ≤ z)
= P (X ≤ z, 1 − X ≤ z)
= P (X ≤ z, X ≥ 1 − z).

- 181 -
2.2 Variables Aleatorias Continuas

Pero, (X ≤ z, X ≥ 1−z) = (1−z ≤ X ≤ z) , es no vacı́o sólo en el caso en que 1−z < z,


es decir, si 0.5 < z. Por lo tanto,

FZ (z) = P (Z ≤ z)

0∫ si z ≤ 0.5
z
=
 fX (u)du si z > 0.5
1−z



 0
∫ si z ≤ 0.5

 z

1du si 0.5 < z < 1
=

 ∫1−z ∫ ∫


0 1 z
 0du + 1du + 0du si z ≥ 1
1−z 0 1


0 si z ≤ 0.5
= 2z − 1 si 0.5 < z < 1


1 si z ≥ 1

En consecuencia, FZ (z) es continua y derivable (salvo posiblemente en z = 0.5 y


z = 1) entonces, una densidad para Z está dada por

{
d
fZ (z) = dz FZ (z) si la derivada existe
0 e.o.c.
{
2 si 0.5 < z < 1
=
0 e.o.c.

Es decir, Z ∼ U (0.5, 1).

Ejemplo 2.2.11: Sea X variable aleatoria con densidad dada por

{
2 (1 − u) si 0 < u < 1
fX (u) =
0 e.o.c.

1
Encontremos una densidad para la variable aleatoria Z = X−1 .
Primeramente, como RecX =]0, 1[ , entonces P (0 < X < 1) = 1 . Además,
(0 < X < 1) ⊂ (X < 1) , por lo que P (X − 1 < 0) = 1. Ası́, para todo z real,

- 182 -
2.2 Variables Aleatorias Continuas

FZ (z) = P (Z ≤ z)
( )
= P 1
X−1 ≤z

= P (1 ≥ z (X − 1))

= P (1 + z ≥ z X)
 ( )

P z ≥ X
1+z
si z > 0
= 1 si z = 0

 ( 1+z )
P z ≤X si z < 0
Pero, si z > 0,
( ) (1 )
P 1+zz ≥X = P z +1≥X

∫ 1
+1
z
= fX (u)du
−∞

∫ 0 ∫ 1 ∫ 1
+1
z 1
= 0du + 2(1 − u)du + 0du pues +1>1
−∞ 0 1 z

= 1.
En el caso en que z < 0,
( 1+z ) ( )
P z ≤ X = P z1 + 1 ≤ X
∫ ∞
= fX (u)du.
1
z
+1

Ahora, si −1 ≤ z < 0, entonces z1 + 1 ≤ 0, de donde


∫ ∞ ∫ 0 ∫ 1 ∫ ∞
fX (u)du = 0du + 2(1 − u)du + 0du
1 1
z
+1 z
+1 0 1

= 1.
Si en cambio, z < −1, entonces 0 < 1
z + 1 < 1, de donde
∫ ∞ ∫ 1 ∫ ∞
fX (u)du = 2(1 − u)du + 0du
1 1
z
+1 z
+1 1

[ ( )] [ ( )2 ]
1 1 1
= 2 1− +1 −2· 1− +1
z 2 z

1
= .
z2

- 183 -
2.2 Variables Aleatorias Continuas

En resumen,


 1 si z ≥ −1

FZ (z) =


1 si z < −1
z2
O sea, FZ (z) es continua y derivable (salvo posiblemente en z = −1), entonces una den-
sidad para Z es

 d
 FZ (z)
 si la derivada existe
dz
fZ (z) =



0 e.o.c.

 −2

 z3 si z < −1
=



0 e.o.c.

El siguiente teorema muestra una forma de obtener una densidad para una varia-
ble aleatoria continua de la forma g(X), asumiendo conocida una densidad para X y
suponiendo ciertas condiciones para la función g.

Teorema 2.2.1: Sea X variable aleatoria continua con función de densidad fX y


g : G0 → G función tal que:
• G0 y G son conjuntos abiertos de R.
• P (X ∈ G0 ) = 1.
• g es biyección.
• g −1 es diferenciable, con derivada continua en G.
d −1
• g (y) ̸= 0 , para todo y ∈ G.
dy
Entonces, una densidad para la variable aleatoria Y = g(X), está dada por
 1

 −1 si y ∈ G
fX (g (y)) |g ′ (g −1 (y))|
fY (y) =



0 e.o.c.

Demostración: Realizaremos la demostración en un contexto particular. La de-


mostración general se realizará en la Sección 5, donde se generaliza este teorema al caso
de vectores aleatorios.

- 184 -
2.2 Variables Aleatorias Continuas

Asumiremos que g es estrictamente decreciente y G0 =]a, b[. Los casos en que G0 =]a, ∞[
ó G0 =] − ∞, b[ ó G0 =] − ∞, ∞[ son análogos. El razonamiento también es análogo si
g es estrictamente creciente.
Primeramente, como G0 =]a, b[ ; y g es estrictamente decreciente y continua, entonces
G =]g(b), g(a)[ . Sea ahora y ∈ G, entonces

FY (y) = P (Y ≤ y)
= P (g(X) ≤ y).

Pero, g es estrictamente decreciente, luego

(g(X) ≤ y) = (X ≥ g −1 (y))

o sea,
FY (y) = P (X ≥ g −1 (y))
= 1 − FX (g −1 (y)).

También, si y ∈
/ G, entonces (g(X) ≤ y) = ∅ cuando y ≤ g(b) , y en el caso en que
y ≥ g(a) resulta que (g(X) ≤ y) = Ω .
Por lo tanto, {
1 − FX (g −1 (y)) si y ∈ G
FY (y) =
constante si y ∈
/G
Se puede verificar que esta función es continua y derivable (salvo, posiblemente en un
número finito de valores). La existencia de la derivada está garantizada por el teorema de
la función inversa para funciones reales.
En consecuencia, una densidad para la variable aleatoria Y = g(X) está dada por
{
d
dy FY (y) si la derivada existe
fY (y) =
0 e.o.c.
{
−fX (g −1 (y)) dy
d −1
g (y) si y ∈ G
=
0 e.o.c.

d −1
Pero, dy g (y) = 1
g ′ (g −1 (y))
, y como g es decreciente, g ′ (g −1 (y)) < 0, o sea

d −1 1
− g (y) = ′ −1 .
dy |g (g (y))|

Ası́,
{
fX (g −1 (y)) |g′ (g−1
1
(y))|
si y ∈ G
fY (y) =
0 e.o.c.

Ejemplo 2.2.12: Sea X variable aleatoria uniforme sobre ]0, 1[. Encontremos una den-
sidad para la variable aleatoria Y = X1 .

- 185 -
2.2 Variables Aleatorias Continuas

En este caso Y = g(X), con g : G0 → G, definida por g(y) = y1 . Además,


• G0 =]0, 1[; G =]1, ∞[.
• P (X ∈ G0 ) = 1, ya que X ∼ U (0, 1).
• g es función biyectiva y g −1 (y) = g(y).
d −1 −1
• g (y) = 2 , por lo que g −1 tiene derivada continua en G =]1, ∞[ y para todo
dy y
d −1
y ∈ G, g (y) ̸= 0.
dy
1
Entonces, teorema anterior implica que una densidad para la variable aleatoria Y = X
está dada por  ( )
 1
fX y1 ( ) si y ∈]1, ∞[
g ′ 1

fY (y) = y


0 e.o.c.
( )
pero, g ′ y1 = (−1
1
)2 = −y 2 , de donde
y
{
1· 1
|−y 2 |
si y ∈]1, ∞[
fY (y) =
0 e.o.c.
{
1
y2
si y ∈]1, ∞[
=
0 e.o.c.

Ejemplo 2.2.13: Sea X ∼ U (0, 1). Verifiquemos que la variable aleatoria


Y = − λ1 ln(1 − X), λ > 0, tiene distribución exponencial de parámetro λ.
En este ejemplo Y = g(X), con g : G0 → G , definida por g(y) = − λ1 ln(1 − y), y
• G0 =]0, 1[; G =]0, ∞[.
• P (X ∈ G0 ) = 1, pues X ∼ U (0, 1).
• g es biyección y g −1 (y) = 1 − e−λy .
d −1
• g (y) = λ e−λy , o sea, g −1 tiene derivada continua en G =]0, ∞[ y para todo
dy
d −1
y ∈ G, g (y) ̸= 0.
dy
Entonces, una densidad para la variable aleatoria Y = − λ1 ln(1 − X) es
 1

fX (1 − e−λy ) si y ∈]0, ∞[

fY (y) = 1
λ (1−(1−e−λy ))


0 e.o.c.
{
λe−λy si y ∈]0, ∞[
=
0 e.o.c.

- 186 -
2.2 Variables Aleatorias Continuas

Es decir, Y ∼ exp(λ).

La siguiente proposición generaliza el ejemplo anterior, y como lo veremos más ade-


lante, es de utilidad en la simulación de variables aleatorias.

Proposición 2.2.2: Sea X variable aleatoria continua, con función de distribución acu-
mulada FX , la cual es estrictamente creciente en algún intervalo abierto I. Además,
FX = 0 para valores a la izquierda de I, FX = 1 para valores a la derecha de I y el
intervalo I puede ser acotado o no acotado.
Por ejemplo:

Si X ∼ exp(λ), entonces I =]0, ∞[.

Si X ∼ U (0, 1), entonces I =]0, 1[.

Si X ∼ N (µ, σ 2 ), entonces I =] − ∞, ∞[.

Entonces, la variable aleatoria Y = FX (X) tiene distribución uniforme sobre ]0, 1[.

Demostración: Nótese que Y = g(X) , con g(y) = FX (y) .


Además, si G0 = I y G = ]0, 1[ , entonces definición de I y Proposición 2.2.1 implican
que el recorrido de la función FX es ]0, 1[, esto es, g es epiyectiva.
También, desde que FX = 0 para valores a la izquierda de I, y FX = 1 para valores
a la derecha de I, P (X ∈ I) = 1.
Finalmente, como g es función estrictamente creciente, g es biyección, y como además

FX (u) = fX (u) , entonces Teorema 2.2.1 implica que
 1
fX (F −1 (y)) si y ∈ G
fY (y) =
X F ′ (F −1 (y))
X X

0 e.o.c.
 1
fX (F −1 (y)) si y ∈]0, 1[
=
X −1
fX (FX (y))

0 e.o.c.

{
1 si y ∈]0, 1[
=
0 e.o.c.

En consecuencia, Y = FX (X) ∼ U (0, 1).

Comentario sobre simulación


Supongamos que, como parte de un estudio de simulación, se requiere simular en el com-
putador variables aleatorias con una distribución prefijada, por ejemplo, con distribución
exponencial de parámetro λ.

- 187 -
2.2 Variables Aleatorias Continuas

Si bien, el computador es, generalmente, una máquina determinista, se puede hacer que
este genere números pseudoaleatorios (que no son aleatorios, pero lo parecen) que pueden
ser vistos como valores de variables aleatorias con distribución uniforme (0,1). Suponiendo
que se cuenta con un generador de números aleatorios que produce una sucesión de números
que se pueden considerar como provenientes de una distribución uniforme (0,1). ¿Cómo, a
partir de estos valores, generar una sucesión de números que provengan de una distribución
de probabilidad con distribución acumulada F ?
La respuesta a esta interrogante es resuelta, parcialmente, por la proposición anterior. En
efecto, si F satisface las hipótesis de la proposición anterior y X ∼ U (0, 1), entonces

P (F −1 (X) ≤ u) = P (X ≤ F (u))
= F (u),

o sea, la variable aleatoria F −1 (X) tiene función de distribución acumulada igual a F .


Por ejemplo, si x1 , . . . , xn , son números que provienen de una distribución uniforme
(0,1), entonces y1 , . . . , yn , son números que provienen de una distribución exponencial (λ),
donde yi = − λ1 ln(1 − xi ).
En este caso, {
0 si u ≤ 0
F (u) = −λu
1−e si u > 0
que satisface las hipótesis de la proposición anterior. Además, para todo u > 0,
F −1 (u) = − λ1 ln(1 − u).
Si la función F es de tal forma que es poco práctico encontrar F −1 , o si la función
F no satisface las hipótesis de la proposición anterior, o también si F es la distribución
acumulada de una variable aleatoria discreta, entonces en esos casos conviene usar métodos
que tengan directa relación con las propiedades especı́ficas de la F en cuestión.

2.2.3 Esperanza de una variable aleatoria continua


La definición de esperanza para una variable aleatoria continua es análoga a la dada para
variable discreta, reemplazando la sumatoria por integración.

Definición 2.2.3: Sea X variable aleatoria continua con densidad f . El valor esperado
de X, se anota E(X), se define como el número real
∫ ∞
E(X) = xf (x)dx,
−∞
∫∞
siempre que la integral −∞ xf (x)dx converja. Si esta última integral diverge, la esperanza
de X no está definida.
El valor E(X) puede ser visto como el centro de masa de la función de densidad f .

Veamos ahora como, a partir de la definición de esperanza para una variable aleatoria
discreta, podemos obtener el concepto de esperanza matemática para una variable aleatoria
continua. Para ello, consideremos la variable aleatoria X con función de densidad f (x) y

- 188 -
2.2 Variables Aleatorias Continuas

dos puntos, a y b, muy cercanos, es decir, h = b − a es “pequeño”. Supongamos además


que x0 es el punto medio del intervalo [a, b]. Ası́, observando la figura siguiente,

f (x)

A a x0 b B x

h
Figura 2.2.34
podemos concluir que, P (a ≤ X < b) ∼ = hf (x0 ), lo que significa aproximar el área de la
región sombreada, por el área del rectángulo de base h y altura f (x0 ). Es posible verificar
que la aproximación mejora con h tendiendo a cero.
Supongamos ahora que [A, B] = {x : f (x) > 0}. Dividamos este intervalo en n partes
de amplitudes iguales a h = B−A n , y consideremos los puntos medios de cada intervalo,
digamos x1 , x2 , . . . , xn .

f (x)

A x1 x2 x3 x4 h xn−1 xn B x

Figura 2.2.35
Consideremos ahora la variable aleatoria discreta Yn , que toma valores x1 , x2 , . . . , xn , de
modo que, para todo i,
pi = P (Yn = xi ) ∼
= f (xi ) h.
De esta forma, la esperanza de la variable Yn resulta

n ∑
n
E(Yn ) = xi pi ∼
= xi f (xi )h,
i=1 i=1

que será una aproximación del valor esperado E(X). Para determinar E(X) con más
precisión, podemos aumentar el número de intervalos, disminuyendo la amplitud h de los
mismos. En el lı́mite, cuando h tiende a cero, tendremos el valor E(X). Ası́,

n
E(X) = lim E(Yn ) = lim x i pi .
n→∞ n→∞
i=1

Pero, de la definición de integral de Riemann, tenemos que, si el lı́mite existe, entonces,


este define la integral de x f (x) entre A y B, es decir,
∫ B
E(X) = x f (x)dx.
A

- 189 -
2.2 Variables Aleatorias Continuas

Ejemplo 2.2.14: En el caso del reloj eléctrico del Ejemplo 2.2.1, se tiene que
∫ ∞
E(X) = x f (x)dx
−∞

∫ 360
1
= x dx
0 360

1 (360)2
= ·
360 2

= 180.

Ejemplo 2.2.15: Sea X variable aleatoria con distribución Gamma(α, λ), es decir,
una densidad para X es
 α

 λ α−1 −λx

 Γ(α) x e si x > 0
f (x) =



0 e.o.c.
Notar que 

 λα+1 (α+1)−1 −λx

 Γ(α + 1) x e si x > 0
g(x) =



0 e.o.c.
es una función de densidad Gamma(α + 1, λ), por lo cual
∫ ∞
g(x)dx = 1,
−∞
es decir, ∫ ∞
λα+1
xα e−λx dx = 1,
0 Γ(α + 1)
o sea ∫ ∞
Γ(α + 1)
xα e−λx dx = .
0 λα+1
En consecuencia, ∫ ∞
E(X) = x f (x)dx
−∞
∫ ∞
λα α−1 −λx
= x x e dx
0 Γ(α)
∫ ∞
λα
= xα e−λx dx
Γ(α) 0

λα Γ(α + 1)
= .
Γ(α) λα+1

- 190 -
2.2 Variables Aleatorias Continuas

Pero, Γ(α + 1) = α Γ(α), de donde


α
E(X) = .
λ

En particular:
• Si X ∼ exp(λ), entonces X ∼ Gamma(1, λ), por lo que E(X) = λ1 .
( ) n
• Si X ∼ χ2(n) , entonces X ∼ Gamma n2 , 21 , por lo que E(X) = 21 = n.
2

Ejemplo 2.2.16 : Sea X variable aleatoria normal de parámetros (µ, σ 2 ), entonces


∫ ∞
E(X) = x f (x)dx
−∞
∫ ∞ { }
1 (x−µ)2
= √ x exp − 21 σ2
dx.
2πσ −∞

Haciendo el cambio de variable z = x−µ


σ , se obtiene que
∫ ∞
1 { }
E(X) = √ (σz + µ) exp − 12 z 2 σdz
2πσ −∞
∫ ∞ ∫ ∞
σ { 1 2} 1 { }
= √ z exp − 2 z dz + µ √ exp − 21 z 2 dz.
2π −∞ −∞ 2π
Además,
∫ ∞ ∫
( ) b ( )
z exp − 21 z 2 dz = lim z exp − 21 z 2 dz
−∞ a→−∞ a
b→+∞

( ( ) ( ))
= lim − exp − 21 b2 + exp − 12 a2
a→−∞
b→+∞

= −0 + 0

= 0.
( )
También, la función g(z) = √12π exp − 21 z 2 , z real, es la densidad de una dis-
tribución normal (0, 1), luego
∫ ∞
1 ( )
√ exp − 12 z 2 dz = 1.
−∞ 2π
En consecuencia,
σ
E(X) = √ ·0+µ·1

= µ.

- 191 -
2.2 Variables Aleatorias Continuas

Observación 2.2.4: Es posible además verificar que:


• Si X ∼ U (a, b), entonces E(X) = a+b
2 .

• Si X ∼ t(n), entonces E(X) = 0.

• Si X ∼ F (m, n), entonces E(X) = n


n−2 , n > 2.

• Si X ∼ Beta(a, b), entonces E(X) = a


a+b .
( )
• Si X ∼ Log normal (µ, σ 2 ), es decir, eX ∼ N (µ, σ 2 ), entonces E(X) = exp µ + 12 σ 2 .
Para ver la esperanza de otras variables aleatorias de uso común, puede consultarse [6].

Ejemplo 2.2.17: Sea X variable aleatoria con distribución Cauchy (0,1), es decir, su
función de densidad está dada por
1 1
f (x) = , x ∈ R.
π 1 + x2
Luego, ∫ ∫
∞ ∞
1 x
x f (x)dx = dx
−∞ π −∞ 1 + x2
∫ b
1 x
= lim dx
π a→−∞ a 1 + x2
b→+∞

1 1[ ]
= lim ln(1 + b2 ) − ln(1 + a2 )
π a→−∞ 2
b→+∞

1 ( )
1+b2
= lim ln 1+a2
.
2π a→−∞
b→+∞

Si el lı́mite existiese y fuese el número real L, entonces


1 ( 2)
1+b
L= lim ln 1+a 2 .
2π a→−∞
b→+∞

Pero, considerando el “camino” a = −2b,


1 ( ) 1
1+b2
L= lim ln 1+4b 2 = 1
2π · ln ,
2π b→∞ 4
y considerando el “camino” a = −3b,
1 ( ) 1 1
1+b2
L= lim ln 1+9b 2 = · ln ,
2π b→∞ 2π 9
lo cual es una contradicción. Por lo tanto, E(X) no existe.
La razón por la cual la esperanza no existe, se debe a que la densidad decrece lentamente
y que valores grandes de X pueden ocurrir con probabilidad no despreciable.

- 192 -
2.2 Variables Aleatorias Continuas

Ejemplo 2.2.18: Sea Y variable aleatoria con distribución exponencial de parámetros λ


y un número real positivo fijo r. Consideremos la variable aleatoria X = min{r, Y }. Como
vimos en el Ejemplo 2.2.6, la variable aleatoria X no es discreta y tampoco es continua.
¿Cómo calcular en este caso E(X)?

Proposición 2.2.3: Sea X variable aleatoria y F su función de distribución acumulada.


Si E(X) existe, entonces
∫ 0 ∫ ∞
E(X) = − F (u)du + (1 − F (u)) du.
−∞ 0

La demostración de esta proposición escapa los objetivos de este texto, pero puede
consultarse en [7], pág. 109.
Notar que esta proposición implica, en particular, que si X ≥ 0, entonces F (u) = 0, para
todo u < 0, de donde E(X) ≥ 0.

Ejemplo 2.2.19: Si X = min{r, Y }, r constante positiva y además Y ∼ exp(λ).


Entonces, usando la proposición anterior y el Ejemplo 2.2.6,
∫ 0 ∫ ∞
E(X) = − FX (u)du + (1 − FX (u)) du
−∞ 0

∫ 0 ∫ r ( ) ∫ ∞
−λu
= − 0du + 1 − (1 − e ) du + (1 − 1) du
−∞ 0 r
∫ r
= e−λu du
0

1 ( )
= 1 − e−λr .
λ

A menudo, también es necesario calcular E(h(X)), donde X es variable aleatoria, h


es una función real y h(X) es variable aleatoria continua.
La proposición que enunciamos más adelante permite calcular E(h(X)), sin necesa-
riamente conocer la densidad de h(X), lo que se necesitarı́a si se usara la definición de
esperanza.
Por ejemplo, de acuerdo a la teorı́a cinética de los gases, la magnitud de la velocidad
de una molécula de gas X es aleatoria y su densidad de probabilidad está dada por

2
π 2
( )
x2
fX (x) = 3 x exp − 2σ 2 , x > 0,
σ
donde σ es un parámetro positivo que depende de la temperatura del gas (se dice que X
tiene distribución de Maxwell de parámetro σ).
Desde esta densidad se puede, por ejemplo, calcular la velocidad promedio de la
molécula. Sin embargo, podrı́a estarse
( interesado
) en calcular la energı́a cinética promedio
de la molécula, esto es, encontrar E 21 m X 2 , donde m es la masa de la molécula.

- 193 -
2.2 Variables Aleatorias Continuas

Teorema 2.2.2: Sea X una variable aleatoria continua con densidad f y h función
real. La esperanza de la variable aleatoria h(X) puede ser calculada por la fórmula
∫ ∞
E(h(X)) = h(u) f (u)du.
−∞

La demostración rigurosa requiere de algunos elementos de teorı́a de integración avan-


zada, por lo que no se muestra en este texto.

Observación 2.2.5: Si A es subconjunto de R y h se define por


{
1 si x ∈ A
h(x) =
0 si x ∈
/A

entonces, E(h(X)) = P (X ∈ A). Más aún, en el caso en que A = ] − ∞, t ],


E(h(X)) = FX (t).

Ejemplo 2.2.20: La energı́a cinética promedio de una molécula de gas es E(h(X)), con
h(u) = 12 m u2 , u real. Por lo tanto,
∫ ∞
(1 )
E 2 m X2 = 1
2 m u2 fX (u)du
−∞
∫ ∞ √ ( )
2/π u2
= 1
2 m u2 σ3
u2 exp − 2σ 2 du
0
√ ∫ ∞ ( )
m 2/π u2
= u4 exp − 2σ 2 du.
2 σ3 0

u2
Haciendo el cambio de variable t = 2σ 2
, resulta
∫ ∞ ( ) ∫ ∞ ( )
u2 2
u4 exp − 2σ 2 du = u3 exp − 2uσ2 udu
0 0
∫ ∞ 3
= (2 σ 2 t) 2 exp(−t) σ 2 dt
0
∫ ∞
3 3
= 2 2 · σ5 t 2 exp(−t)dt
0
∫ ∞
t 2 −1 e−t dt
3 5
= 2 2 · σ5
0

3 (5)
= 2 2 · σ5 · Γ 2 .

- 194 -
2.2 Variables Aleatorias Continuas
(1) √
Ahora, usando la relación Γ(α + 1) = α Γ(α) y el hecho que Γ 2 = π , se tiene que

(5) (3 ) 3 (3)
Γ 2 =Γ 2 +1 = Γ 2
2
3 (1 )
= Γ 2 +1
2
3 1 (1)
= · Γ 2
2 2
3√
= π.
4
En consecuencia, √
2
m π 3 3√
E( 21 m X 2 ) = 3
2 2 σ5 π
2 σ 4
3
= m σ2.
2

Ejemplo 2.2.21: Sea X variable aleatoria continua y h(u) = a u + b, con a y b reales


fijos. Si E(X) existe, entonces

E(a X + b) = E(h(X))
∫ ∞
= h(u) fX (u)du
−∞
∫ ∞
= (a u + b) fX (u)du
−∞
∫ ∞ ∫ ∞
= a u fX (u)du + b fX (u)du
−∞ −∞

= a E(X) + b · 1.

En consecuencia,
E(a X + b) = a E(X) + b.

Al igual que en el caso discreto, se define la varianza de una variable aleatoria continua.

Definición 2.2.4: Sea X variable aleatoria continua. Asumiendo que las esperanzas
involucradas existen, se define la varianza de X, se anota V ar(X), como el número real
no negativo ( )
V ar(X) = E (X − E(X))2 .

También, en este caso, la desviación estándar de X es SD(X) = V ar(X).

- 195 -
2.2 Variables Aleatorias Continuas

Observemos que V ar(X) = E(h(X)) , con

h(u) = (u − E(X))2
= u2 − 2 E(X)u + (E(X))2 .

Luego, del Teorema 2.2.2 se obtiene que


∫ ∞
V ar(X) = h(u) fX (u)du
−∞
∫ ∞ ( )
= u2 − 2 E(X) u + E2 (X) fX (u)du
−∞
∫ ∞ ∫ ∞ ∫ ∞
= u fX (u)du − 2 E(X)
2
u fX (u)du + E (X)
2
fX (u)du
−∞ −∞ −∞

= E(X 2 ) − 2 E(X) E(X) + E2 (X) 1

= E(X 2 ) − (E(X))2 .

es decir, al igual que en el caso discreto,

V ar(X) = E(X 2 ) − (E(X))2 .

Desde esta última relación se obtiene también que, para a, b reales y X variable
aleatoria continua,
( )
V ar(a X) = E (a X)2 − (E(a X))2
( )
= E a2 X 2 − (a E(X))2
( )
= a2 E(X 2 ) − E2 (X)

= a2 V ar(X),

( )
V ar(X + b) = E (X + b)2 − (E(X + b))2
( )
= E X 2 + 2 b X + b2 − (E(X) + b)2
( )
= E(X 2 ) + 2 b E(X) + E(b2 ) − (E2 (X) + 2 b E(X) + b2 )

= E(X 2 ) − E2 (X)

= V ar(X).

O sea, la variabilidad de una variable aleatoria continua no se altera si esta es desplazada


en una constante.

- 196 -
2.2 Variables Aleatorias Continuas

Ejemplo 2.2.22: Para 0 < c < 2, sea X variable con densidad definida por
a

 x si 0 ≤ x ≤ c

 c





f (x) = x − 2 a si c < x ≤ 2

 c−2






0 e.o.c.

La figura siguiente muestra el gráfico de la densidad de X.

f (u)

0 c 1 2 u

Figura 2.2.36

Es preciso mencionar que variables aleatorias con este tipo de densidades se dice que tienen
distribución triangular.
Encontremos la varianza de la variable aleatoria X, en función del parámetro c.
Primeramente, como el área del triángulo debe ser igual a 1 (pues f es densidad), entonces
a = 1.
Ası́, ∫ ∞
E(X) = xf (x)dx
−∞

∫ ∫
c
1 2
x−2
= x xdx + x dx
0 c c c−2
∫ c [∫ 2 ∫ 2 ]
1 1
= 2
x dx + x dx − 2
2
xdx
c 0 c−2 c c
( ) [ 3 ( 2 )]
1 c3 03 1 2 c3 2 c2
= − + − −2 −
c 3 3 c−2 3 3 2 2
[ ]
c2 1 1
= + (2 − c)(2 + 2c + c ) − (2 − c)(2 + c)
2 2
3 c−2 3

c+2
= .
3

- 197 -
2.2 Variables Aleatorias Continuas

y ∫ ∞
E(X 2 ) = x2 f (x)dx
−∞

∫ ∫
c
1 2
2
x−2
= x xdx + x2 dx
0 c c c−2
∫ c [∫ 2 ∫ 2 ]
1 1
= 3
x dx + x dx − 2
3 2
x dx
c 0 c−2 c c

1 2
2c +c+2
= .
3
En consecuencia,
1 2
2c + c + 2 (c + 2)2
V ar(X) = −
3 9

c2 − 2c + 4
= .
18

Observación 2.2.6: Sea X variable aleatoria y c un número real representativo de


X. El error (cuadrático medio) que se comete al representar X por c es definido por
E((X − c)2 ) . ¿Cuál será el valor de c que hace que el error cuadrático medio sea mı́nimo?,
¿cuál es este valor mı́nimo?
Consideremos la función h(c), definida por

h(c) = E((X − c)2 )


= E(X 2 − 2cX + c2 )
= E(X 2 ) − 2E(X)c + c2 .

Entonces,
d
h(c) = −2E(X) + 2c,
dc
d2
de donde d
dc h(c) = 0, cuando c = E(X) y dc h(c) = 2.
Como la segunda derivada es positiva
( en todo) c, la función h alcanza un mı́nimo en
c = E(X), y su valor mı́nimo es E (X − E(X))2 = V ar(X). En consecuencia, el valor
E(X) es el representante de X que hace que el error cuadrático medio sea mı́nimo, y el
valor mı́nimo corresponde a la varianza de X.

Ejemplo 2.2.23: Sea X variable aleatoria con distribución normal (µ, σ 2 ). Como vimos
en el Ejemplo 2.2.16 , E(X) = µ, de donde,

V ar(X) = E((X − µ)2 )


∫ (
∞ ( )2 )
= (x − µ)2 √1
2π σ
exp − 12 x−µ
σ dx.
−∞

- 198 -
2.2 Variables Aleatorias Continuas

x−µ
Haciendo el cambio de variable z = σ , resulta
∫ ( ∫ ∞

1 ( x−µ )2 ) σ2 ( )
(x − µ) √ 2
exp − 2 σ
1
dx = √ z 2 exp − 12 z 2 dz.
−∞ 2π σ 2π −∞
( )
Pero, la función h(z) = z 2 exp − 12 z 2 , z real, es par, por lo que
∫ ∞ ∫ ∞
( 1 2) ( )
z exp − 2 z = 2
2
z 2 exp − 12 z 2 dz.
−∞ 0

z2
Ahora, haciendo el cambio de variable u = 2 , cuyo diferencial es du = zdz es decir,
dz = √12u du, se obtiene que
∫ ∞ ∫ ∞
( )
z2 exp − 21 z2 dz = 2u e−u √1
2u
du
0 0
∫ ∞√
2 u 2 −1 e−u du
3
=
0

√ ( ) ∞ 3
u 2 −1 e−u du.
3
= 2 Γ 32 12
Γ( 23 )
0

Además, la función g definida por



 1
( ) 2 −1 e−u
3


Γ 3 u si u > 0
2
g(u) =



0 e.o.c.
( )
es función de densidad (de una distribución Gamma 32 , 1 ), por lo tanto,
∫ ∞
( ) √ ( )
z 2 exp − 12 z 2 dz = 2 Γ 32
0

√ π
= 2
2

π
= √ .
2
En consecuencia, √
σ2 π
V ar(X) = √ 2√
2π 2

= σ2.

- 199 -
2.2 Variables Aleatorias Continuas
( ( )2 )
Observación 2.2.7: Para f (x) = √1
2π σ
exp − 12 x−µ
σ , resulta

( )
d x−µ 1
f (x) = f (x) − ,
dx σ σ

[ ] ( )
d2 d x−µ 1
f (x) = f (x) − 2 + f (x) − 2
dx2 dx σ σ
( )[ ] ( )
x−µ x−µ 1
= f (x) − 2 − 2 + f (x) − 2
σ σ σ
[ ]
1 (x − µ)2
= f (x) −1 ,
σ2 σ2

d3 d d2
f (x) = f (x)
dx3 dx dx2
[ ]
1 d (x − µ)2 1 2(x − µ)
= f (x) − 1 + 2 f (x) .
σ 2 dx σ2 σ σ2

d2
Resolver la ecuación dx2
f (x) = 0, equivale a resolver
[ ]
1 (x − µ)2
f (x) − 1 = 0.
σ2 σ2

Pero 1
σ2
f (x) ̸= 0, para todo x, entonces la ecuación anterior es equivalente a la ecuación

(x − µ)2 = σ 2 .

Las soluciones de esta última ecuación son x1 = µ − σ y x2 = µ + σ.


Ahora, ( )[ 2 ]
d3 1 1 σ 1 2(−σ)
f (x) = f (x ) − 1 + 2 f (x1 )
dx3 σ 2 1
σ 2 σ 2 σ σ2
x=x1

2
= − f (x1 )
σ3

̸= 0
y ( )[ 2 ]
d3 1 1 σ 1 2(σ)
3
f (x) = 2
f (x2 ) − 2 2
− 1 + 2 f (x2 ) 2
dx x=x2 σ σ σ σ σ

2
= f (x2 )
σ3

̸= 0.

- 200 -
2.2 Variables Aleatorias Continuas

En conclusión, los puntos x1 = µ − σ y x2 = µ + σ son puntos de inflexión (cambio


de concavidad) de la función de densidad de la distribución normal (µ, σ 2 ). Notar que σ
corresponde a la desviación estándar de la distribución y µ a la media.

Ejemplo 2.2.24: Sea X variable aleatoria con distribución Gamma(α, λ), entonces
∫ ∞
E(X ) =
2 x2 f (x)dx
−∞
∫ ∞
λα α−1 −λx
= x2 x e dx
0 Γ(α)
∫ ∞
λα (2+α)−1 −λx
= x e dx
0 Γ(α)
∫ ∞
Γ(2 + α) λ2+α
= x(2+α)−1 e−λx dx.
λ2 Γ(α) 0 Γ(2 + α)
Esta última integral vale 1, pues el integrando es la densidad de una distribución
Gamma(2 + α, λ), y además,

Γ(2 + α) = Γ((α + 1) + 1)
= (α + 1) Γ(α + 1)
= (α + 1) α Γ(α).

En consecuencia,
(α + 1) α
E(X 2 ) = .
λ2
Por lo tanto,
V ar(X) = E(X 2 ) − (E(X))2

(α + 1)α ( α )2
= −
λ2 λ
α
= .
λ2

Observación 2.2.8: Es posible verificar también que


(b−a)2
• Si X ∼ U (a, b), entonces V ar(X) = 12 .

• Si X ∼ exp(λ), entonces V ar(X) = 1


λ2
.

• Si X ∼ χ2 (n), entonces V ar(X) = 2n.

• Si X ∼ t(n), entonces V ar(X) = n


n−2 , n > 2.

• Si X ∼ Beta(a, b), entonces V ar(X) = ab


(a+b)2 (a+b+1)
.

• Si X ∼ lognormal(µ, σ 2 ), entonces V ar(X) = exp(2µ + σ 2 )[exp(σ 2 ) − 1].

- 201 -
2.2 Variables Aleatorias Continuas

Ejemplo 2.2.25: Ajustando un modelo a datos observados (Diagrama de


Cuantiles). En muchos casos, se desea comparar la forma de la distribución de los datos
con la de una distribución particular, por ejemplo, la normal. Un motivo puede ser que
la distribución dada figura en los supuestos de algún modelo que se va a usar, y entonces,
se quiere ver en qué medida los datos parecen estar de acuerdo con los supuestos. Para
ejemplificar el procedimiento desarrollaremos el diagrama de cuantiles en el caso normal,
pero la distribución normal puede ser sustituida por aquella con la que se desea trabajar.
Sea α un número entre 0 y 1, recordemos que el cuantil α asociado a la distribución
normal (µ, σ 2 ), es un valor c, que satisface Φ(c) = α .
Es decir, el cuantil α asociado a la normal (µ, σ 2 ) , es el valor c tal que el área bajo
la curva normal (µ, σ 2 ), sobre el eje x y antes de la recta x = c , es igual a α (como se
muestra en la figura siguiente)

.....
........ ............
.... ....
..
..... ....
. ....
.
...... ....
....
.
... ....
.
.... .....
....
. .....
...
... . .........
.
...
...
... . α . .........................................
........................................... . . . . .....
c x
Figura 2.2.37
Para encontrar el valor c, basta con usar la tabla normal (0, 1). A modo se ejemplo,
veamos cual es el cuantil 0.6 (también se dice percentil al 60% ) de una normal (1, 4).
Debemos encontrar un valor c de modo que el área bajo la curva normal (1, 4), sobre
el eje x y antes de la recta x = c( sea) igual a 0.6. Según la subsección sobre la curva
normal, el valor de esta área es Φ c−1
2 . Por lo tanto, c debe satisfacer la ecuación
( )
c−1
Φ = 0.6.
2
De la tabla normal (0, 1) se verifica que Φ(0.25) = 0.5987 ∼ 0.6 , por lo tanto,
c−1
= 0.25 ,
2
de donde c = 1.5. El valor c lo denotaremos por Φ−1
µ,σ (α).

También, recordemos que si 0 ≤ α ≤ 1 , el cuantil α asociado a los datos x1 , x2 , . . . , xn ,


que se anota x∗α , es definido (existen otras definiciones similares) por
 ( )
 1

 2 x(k) + x(k+1) si u = n α es entero

xα =



x(k+1) si u = n α no es entero
donde k es la parte entera del número u = n α y x(1) , x(2) , . . . , x(n) , son los datos
ordenados de menor a mayor, es decir, x(1) ≤ x(2) , ≤ · · · ≤ x(n) .
Por ejemplo, para los 25 datos siguientes,
4.8 5.2 5.7 4.0 4.1 5.4 6.2 3.7 4.9 5.0 4.1 3.5 6.4

3.3 5.6 4.7 6.2 4.5 4.0 2.3 4.1 3.6 4.8 5.7 5.9

- 202 -
2.2 Variables Aleatorias Continuas

se tiene que

x(1) =2.3 x(2) =3.3 x(3) =3.5 x(4) =3.6 x(5) =3.7
x(6) =4.0 x(7) =4.0 x(8) =4.1 x(9) =4.1 x(10) =4.1
x(11) =4.5 x(12) =4.7 x(13) =4.8 x(14) =4.8 x(15) =4.9
x(16) =5.0 x(17) =5.2 x(18) =5.4 x(19) =5.6 x(20) =5.7
x(21) =5.7 x(22) =5.9 x(23) =6.2 x(24) =6.2 x(25) =6.4

Ası́, si α = 0.25, entonces u = 25 · 0.25 = 6.25 , y la parte entera de 6.25 es 6 . Es


decir,
x∗0.25 = x(6+1) = x(7) = 4.0.

Construyamos ahora el diagrama de cuantiles para los 25 datos del ejemplo ante-
rior. El procedimiento es análogo, si consideramos, en lugar de los datos del ejemplo, un
conjunto de datos cualquiera.
El diagrama de cuantiles normales consiste en graficar los cuantiles de los datos con
los correspondientes de una normal (µ, σ 2 ), con µ igual al promedio de los datos y σ 2
su varianza. Esto es, µ = x̄ y σ 2 = s2 .
Para nuestro ejemplo, x̄ = 4.7 y s2 = 1.04, por lo que la distribución en cuestión es
normal (4.7, 1.04).
El diagrama se hace graficando Φ−1 (µ,σ 2 )
(α) en la abscisa contra x∗α en la ordenada para
α entre 0 y 1. Es decir, se grafica el cuantil α asociado a la normal (µ, σ 2 ) contra el
cuantil α de los datos.
Si los datos provienen, aproximadamente, de la distribución normal (µ, σ 2 ), entonces,
el gráfico debiera aproximarse a la recta y = x.
¿Para qué valores de α se calcularán los cuantiles?
Los valores de α que usaremos son α = 2k−1 2n . El procedimiento para obtener los
valores de k se ejemplifican con n = 25.

n+1 26
• El primero, corresponde a la parte entera de 2 = 2 = 13, la cual es 13.
13+1
• El segundo, corresponde a la parte entera de 2 = 7, la cual es 7.
7+1
• El tercero, corresponde a la parte entera de 2 = 4, la cual es 4.
4+1
• El cuarto, es la parte entera de 2 = 25 , o sea 2.
2+1
• El quinto, corresponde a la parte entera de 2 = 32 , la cual es 1.

• Los otros valores de k, que consideraremos, son los simétricos de los ya obteni-
dos, es decir, 25 + 1 − 13 = 13; 25 + 1 − 7 = 19; 25 + 1 − 4 = 22; 25 + 1 − 2 = 24
y 25 + 1 − 1 = 25 .

Resumiendo, los valores de k que utilizaremos, ordenados de menor a mayor, son:


2, 4, 7, 13, 19, 22, 24 y 25 (excluimos el valor k = 1 , pues para este valor, n α = 12 ,
cuya parte entera es 0). Luego, los valores de α donde calcularemos los cuantiles son:

- 203 -
2.2 Variables Aleatorias Continuas

k 2 4 7 13 19 22 24 25

2k−1 3 7 13 25 37 43 47 49
αk = 2n 50 50 50 50 50 50 50 50

Tabla 2.2.5

La justificación para escoger estos valores de α es que la información más importante


sobre diferencias entre la distribución de los datos y la distribución teórica que se proponga
suele notarse en los extremos. (3)
Ahora debemos calcular x∗3 y Φ−1 (4.7,1.04) 50 .
50
3
Como n α = 25 50 = 1.5, su parte entera es 1, de donde

x∗3 = x(2) = 3.3.


50

De la tabla normal (0, 1) se verifica que Φ(1.55) = 0.9394 ∼ 0.94. La simetrı́a


de la curva( normal
) (0, 1) implica que Φ(−1.55) ∼ 0.06 = 50
3
. Si llamamos c al valor
Φ−1 3
(4.7,1.04) 50 , entonces, c debe satisfacer
( )
c − 4.7 3
Φ √ = ,
1.04 50

de donde
c − 4.7
√ = −1.55,
1.04
o sea,

c = (−1.55) 1.04 + 4.7
= 3.12.
(3)
Por lo tanto, Φ−1
(4.7,1.04) 50 = 3.12.
Similarmente, se calculan x∗α y Φ−1
(4.7,1.04) (α) para los valores de α de la tabla anterior,
obteniéndose

3 7 13 25 37 43 47 49
α 50 50 50 50 50 50 50 50

Φ−1
(4.7,1.04) (α) 3.12 3.60 4.05 4.70 5.35 5.80 6.29 6.79

x∗α 3.3 3.6 4.0 4.8 5.4 5.9 6.2 6.4

Tabla 2.2.6

La figura siguiente muestra el gráfico de los pares ordenados (Φ−1 ∗


(4.7,1.04) (α) , xα ) para
los valores de α obtenidos en la Tabla 2.2.5. Es decir, la figura muestra el cuantil α
asociado a la distribución normal (4.7, 1.04) contra el cuantil α de los datos.

- 204 -
2.2 Variables Aleatorias Continuas

x∗α
7

×
×
6 ×
×

4 ×
×
×

2 4 6 7 Φ−1
(4.7,1.04) (α)

Figura 2.2.38

En consecuencia, pareciera ser que los datos de nuestro ejemplo se ajustan razonable-
mente bien a una distribución normal (4.7, 1.04).
¿Qué porcentaje de dato está por debajo de 4.0?
Hay 5 datos que son menores que 4.0, que representan el 20% (en total son 25 datos).
Según el modelo ajustado, los datos provienen de una normal (4.7, 1.04); luego, el por-
centaje de datos menores que 4.0 es
( )
Φ 4.0−4.7

1.04
100% = Φ(−0.68) 100%

= [1 − Φ(0.68)] 100%

= (1 − 0.7517) 100%

= 24.83%.

El error que se produce (del orden del 5%) se debe al supuesto de normalidad que hemos
hecho sobre los datos.
¿Qué porcentaje de datos es mayor o igual que 5.0?
Hay 10 datos mayores o iguales a 5.0, que representan el 40%. Según el modelo ajus-
tado, los datos provienen de una normal (4.7, 1.04); luego, el porcentaje mayor o igual a
5.0 es
[ ( )]
1 − Φ 5.0−4.7

1.04
100% = [1 − Φ(0.29)] 100%

= (1 − 0.6141) 100%

= 38.59%.

- 205 -
2.2 Variables Aleatorias Continuas

PROBLEMAS
Problema 2.2.A: La densidad de una variable aleatoria X está dada por:
{
c t2 (1 − t) si 0 ≤ t ≤ 1
f (t) =
0 e.o.c.

a) Encuentre c.

b) Calcule el valor de la función de distribución acumulada de X, para todo punto en


R.

c) Calcule P (0.2 ≤ X ≤ 0.8).

d) Si Y = 1
X , calcule P (Y ≤ y), para todo y ∈ R.

e) A partir de d), encuentre la función de densidad de Y .

f) Calcule P (2 ≤ Y ≤ 4 / Y < 3).

Problema 2.2.B: Una partı́cula de masa m tiene velocidad aleatoria V , la cual está
normalmente distribuida con parámetros µ = 0 y σ 2 . Encuentre la densidad de la
energı́a cinética, E = 12 m V 2 .

Problema 2.2.C :

(a) El computador genera una variable aleatoria Z, que toma valores en


{1, 2, 3, 4 . . . , 232 }, con igual probabilidad, es decir, Z ∼ U {1, 2, 3, 4, . . . , 232 }. Cal-
cule la función de distribución acumulada FU , donde U = 2Z32 .

(b) Sea V ∼ U (0, 1), es decir, V es una variable aleatoria continua con densidad dada
por fV (v) = 1 si v ∈]0, 1[ y fV (v) = 0 en otros casos.
Verifique que |FU (u) − FV (u)| ≤ 2132 (esto muestra que la distribución discreta de U
es prácticamente indistinguible de la distribución continua de V .

Problema 2.2.D: Sea X variable aleatoria con función de distribución acumulada F ,


definida por {
a ex si x ≤ 0
F (x) = 1 −x
− 2 e + b si x > 0,
donde a, b son constantes.

(a) Determine el (los) valor(es) de a y b.

(b) ¿Para qué valores de a y b la variable aleatoria X tiene densidad?, en este caso
determı́nela.

- 206 -
2.2 Variables Aleatorias Continuas

Problema 2.2.E: Sea X variable aleatoria con densidad


{ x3
64 si 0≤x≤4
f (x) =
0 e.o.c
√ √
Sea Y = min{ X, 2 − X}. Halle la función de distribución acumulada para la variable
aleatoria Y .

Problema 2.2.F: Si X ∼ N (µ, σ 2 ), encuentre el valor de c > 0, en términos de σ, de


modo que
P (µ − c ≤ X ≤ µ + c) = 0.95.

Problema 2.2.G: Sea X variable aleatoria con distribución normal de parámetros µ y


σ 2 . Determine el valor de a de modo que, la probabilidad P (a ≤ X ≤ a + b) sea máxima
(b es un real estrictamente positivo, fijo).

Problema 2.2.H: Una máquina de empaquetar azúcar llena paquetes que llevan la
etiqueta de “1 kg”, colocando en cada paquete M kg, siendo M una variable aleatoria. Se
sabe que M tiene distribución normal con una desviación estándar de 50g. Diremos que
un paquete está “bajo peso” cuando contenga menos de 1 kg de azúcar.

a) En un lote importante de paquetes producidos por la máquina, el peso medio colo-


cado en los paquetes es de 1, 025 kg. Demuestre que por lo menos un 30% de los
paquetes están “bajo peso”.

b) Se aumenta la cantidad de azúcar que coloca la máquina en cada paquete para


reducir la proporción de paquetes “bajo peso” al 10%. ¿Cuál será ahora la media
colocada en los paquetes?

c) Se cambia la reglamentación de modo que no está permitido más de un 2.5% de


paquetes “bajo peso”. Si se sigue colocando el mismo peso medio que en la parte
(b) en cada paquete, ¿Cuál es la desviación estándar que se requerirá para conseguir
este objetivo?

Problema 2.2.I: En un paı́s muy poblado las edades de sus habitantes se distribuyen
normalmente. Además, se sabe que el 40% de las personas de este paı́s tienen menos de
25 años.

a) Si la media de edad es el doble de la desviación estándar, halle, en años y con un


decimal, la media y la desviación estándar.

b) ¿Qué porcentaje de personas en este paı́s tiene más de 45 años?

c) Según la distribución normal, el 2,28% de los habitantes de este paı́s tienen menos
de x años. Halle x.

- 207 -
2.2 Variables Aleatorias Continuas

d) Si se eligen tres personas al azar de entre esta población, halle la probabilidad de


que
(i) las tres tengan menos de 25 años;
(ii) dos de las tres tengan menos de 25 años;
(iii) al menos una de las personas tenga menos de 25 años.

e) El 40% de las personas que están en un autobús tienen menos de 25 años. Si se


eligen tres de estas personas al azar, ¿qué probabilidad hay de que las tres tengan
menos de 25 años?

f) Explique con detalle por qué las respuestas de las partes (d) y (e) son diferentes.

Problema 2.2.J: Sea X variable aleatoria con densidad


{
(θ + 1) xθ , 0 < x < 1 y θ > −1
f (x) =
0 e.o.c.

Verifique que Y = log(X −1 ) se distribuye exponencial de parámetro θ + 1.

Problema 2.2.K: Sea X variable aleatoria continua con densidad


{ ( δ)
δ δ−1
x exp − xα , x > 0
f (x) = α
0 e.o.c.

donde α, δ > 0.
Verifique que X tiene densidad f si y sólo si X δ tiene distribución exponencial de
parámetro α1 .

Problema 2.2.L: Sea X variable aleatoria con distribución


( π uniforme
) sobre (−1, 1).
Determine una densidad para la variable aleatoria Z = cos 2 X .

Problema 2.2.M: Las calificaciones de un examen de probabilidades siguen una dis-


tribución N (4.2, (0.6)2 ). El profesor sospecha que el examen fue difı́cil. De acuerdo a lo
anterior, ajusta las calificaciones de la forma lineal, esto es, si X representa las califica-
ciones originales, entonces las calificaciones ajustadas serán Y = aX + b, con a > 0.

(a) ¿Qué valores deben asignarse a las constantes a y b de manera que las nuevas califi-
caciones tengan un promedio 5.3 y una desviación estándar de 0.3?

(b) Encuentre c ∈ [0, 7] para que, con probabilidad igual a 0.9, las calificaciones ajustadas
superen al valor c.

Problema 2.2.N: Sea T variable aleatoria con distribución Gamma(α, λ), α > 2. Veri-
fique que ( ) ( ) λ2
E T1 = α−1λ
y V ar T1 = (α−2)(α−1) 2 .

- 208 -
2.2 Variables Aleatorias Continuas

Problema 2.2.O: Suponga que la duración, en horas, llamémosla T , de cierto compo-


nente electrónico es una variable aleatoria con distribución exponencial de parámetro λ.
Una máquina que usa esta componente electrónica cuesta c1 pesos/hora para funcionar.
Mientras la máquina está funcionando se obtiene una utilidad de c2 pesos/hora, además,
debe contratarse un operador para un número prefijado de horas, digamos H, el cual
obtiene un pago de c3 pesos/hora. ¿Para qué valor de H es mayor la utilidad esperada?

Problema 2.2.P: Una persona de edad x, contrata un seguro de vida, el cual estipula
que se deben cancelar U F 2000 (a un beneficiario preestablecido), al final del año en que
él morirá. Por este seguro, la persona debe pagar un monto Px (fijo), al final de cada año,
comenzando al momento que contrata el seguro, y mientras esté vivo. La pérdida en que
incurrirı́a la compañı́a, se define como la diferencia entre lo que cancelará la compañı́a al
beneficiario y el monto que la compañı́a recibirá por concepto de los pagos anuales que
realiza el asegurado.
Calcule el valor Px , de modo que la pérdida esperada para la compañı́a sea cero.
Asuma los siguientes datos:

a) x = 40.

b) El interés anual efectivo es i = 0.01.

c) La función de sobrevivencia, s(t), está dada por s(t) = 1 − 100 t


, para
0 ≤ t ≤ 100. Esto significa que, la variable aleatoria continua X, que representa el
tiempo total que la persona vivirá, satisface la relación


1 −
t
100 si 0 ≤ t ≤ 100
P (X > t) = 1 − FX (t) = 0 si t > 100


1 si t < 0

Problema 2.2.Q: Sea Y ∼ exp(λ), donde λ > 0. Encuentre la función de distribución


de la variable aleatoria Z = max{s, min{Y, r}}, para 0 < s < r.

- 209 -
2.3. DESIGUALDADES PARA LA ESPERANZA MATEMÁTICA

2.3 Desigualdades para la Esperanza Matemática

Primeramente veamos una desigualdad elemental.

Proposición 2.3.1: Sean X e Y variables aleatorias, tal que X ≤ Y. Entonces, asum-


iendo que los valores esperados existen, E(X) ≤ E(Y ).

Demostración: Sea z real cualquiera. Como X ≤ Y, entonces

FY (z) = P (Y ≤ z) ≤ P (X ≤ z) = FX (z).

O sea, −FX (z) ≤ −FY (z), para todo z.


Por lo tanto, según Proposición 2.2.3,
∫ ∞ ∫ 0
E(X) = (1 − FX (z))dz − FX (z)dz
0 −∞

∫ ∞ ∫ 0
≤ (1 − FY (z))dz − FY (z)dz
0 −∞

= E(Y ).
En muchos casos concretos, el interés radica en determinar la probabilidad de cierto
suceso o sucesos, determinados por alguna variable aleatoria. Pero, en la práctica, por la
dificultad del problema, no es posible determinar un modelo para la variable aleatoria, y a
lo más que se puede aspirar es a conocer una estimación de su media. En estas condiciones,
la siguiente desigualdad entrega una forma de estimar (aunque un poco groseramente)
cierto tipo de probabilidades.

Proposición 2.3.2 (Desigualdad de Markov): Sea X variable aleatoria tal que


X ≥ 0 y a > 0 constante. Entonces,

E(X)
P (X ≥ a) ≤ .
a

Demostración: Como X ≥ 0, Proposición 2.2.3 , implica que


∫ ∞
E(X) = (1 − F (u))du.
0

Supongamos que la figura siguiente representa el gráfico de la función F

- 210 -
2.3 Desigualdades para la Esperanza Matemática

F (u)

F (a)

F (a− )

a u

Figura 2.3.1

donde F (a−) ∫= limu→a− F (u).



Entonces, 0 (1 − F (u))du (que es igual a E(X)) corresponde al área sombreada de la
figura siguiente.

F (u)

F (a)

F (a− )

a u

Figura 2.3.2

El área sombreada anterior, es mayor que el área del siguiente rectángulo

F (u)

F (a)

F (a− )

a u

Figura 2.3.3

La base de este último rectángulo es a y su altura es

1 − F (a−) = (1 − F (a)) + (F (a) − F (a−))


= P (X > a) + P (X = a)
= P (X ≥ a).

- 211 -
2.3 Desigualdades para la Esperanza Matemática

Por lo tanto, el área del rectángulo es a P (X ≥ a). En consecuencia,


∫ ∞
E(X) = (1 − F (u))du ≥ a P (X ≥ a),
0

de donde
E(X)
P (X ≥ a) ≤ .
a

Una demostración más simple, pero menos geométrica, es la siguiente.


Consideremos el suceso A = (X ≥ a). Entonces, la variable aleatoria IA (indicatriz de
A) es discreta y
E(IA ) = 0 P (IA = 0) + 1 P (IA = 1)
= P (IA = 1)
= P (A).
X(ω)
Además, si ω ∈ A, entonces a ≥ 1, por lo que
X X
IA ≤ IA ≤ .
a a
La desigualdad de la Proposición 2.3.1 implica que
( )
E(IA ) ≤ E Xa

es decir,
E(X)
P (X ≥ a) ≤.
a
Si ahora, además de conocer una estimación para la media, también conocemos la
varianza, la desigualdad de Markov puede ser refinada. La siguiente desigualdad muestra
este refinamiento.

Proposición 2.3.3 (Desigualdad de Chebyshev): Sea X variable aleatoria con


media µ = E(X) y varianza σ 2 = V ar(X), ambos se asume que existen. Entonces, para
todo λ > 0,
σ2
P (|X − µ| ≥ λ) ≤ 2 .
λ
En particular, si t > 0 y λ = tσ, entonces
σ2 1
P (|X − µ| ≥ tσ) ≤ 2 2
= 2
t σ t
o en forma equivalente,
1
P (|X − µ| < tσ) ≥ 1 − .
t2

Demostración: Sea Y la variable aleatoria definida por Y = (X − µ)2 y consideremos


2
la constante a = λ . Entonces, Y es variable aleatoria positiva y a es una constante
positiva. La desigualdad de Markov implica que
E(Y )
P (Y > a) ≤ ,
a

- 212 -
2.3 Desigualdades para la Esperanza Matemática

es decir,
E((X − µ)2 )
P ((X − µ)2 ≥ λ2 ) ≤ .
λ2
Pero, el suceso ((X − µ)2 ≥ λ2 ) es igual al suceso (|X − µ| ≥ λ) y E((X − µ)2 ) = V ar(X).
Por lo tanto,
σ2
P (|X − µ| ≥ λ) ≤ 2 .
λ
La desigualdad de Chebyshev entrega en forma cuantitativa la forma en que la desviación
estándar “confina” a la variable aleatoria en torno de su media.
Es preciso resaltar que, aún con esta desigualdad, las cotas que se obtienen son todavı́a
bastante grandes y/o las probabilidades muy conservadoras.
A modo de ejemplo, si X ∼ N (µ, σ 2 ), entonces según Chebyshev,

σ2
P (|X − µ| > 2σ) ≤ = 0.25.
22 σ 2
Sin embargo, usando una tabla normal (0,1), obtenemos que
( )
X−µ
P (|X − µ| > 2σ) = P σ > 2
( )

= 1 − P X−µ
σ ≤ 2

= 1 − [Φ(2) − Φ(−2)]

= 1 − [Φ(2) − (1 − Φ(2))]

= 2 − 2Φ(2)

= 2 − 2 · 0.9772

= 0.0456.
Como vemos, la cota que entrega Chebyshev es bastante “lejana” del valor exacto de la
probabilidad.

Corolario 2.3.1: Sea X variable aleatoria tal que µ = E(X) existe y σ 2 = V ar(X) = 0.
Entonces
P (X = µ) = 1,
esto es, X es constante con probabilidad uno.

Demostración: La forma equivalente de la desigualdad de Chebyshev implica que,


para todo t > 0,
1
P (|X − µ| < t · 0) ≥ 1 − ,
t2
es decir,
1
1− ≤ P (|X − µ| = 0), para todo t > 0.
t2

- 213 -
2.3 Desigualdades para la Esperanza Matemática

Haciendo tender t a infinito se sigue que

1 ≤ P (|X − µ| = 0).

Pero, el suceso (|X − µ| = 0) es igual al suceso (X = µ) y la probabilidad de cualquier


suceso es siempre menor o igual a uno. Por lo tanto,

P (X = µ) = 1.

Ejemplo 2.3.1: Una compañı́a de seguros tiene aseguradas N pólizas de automóviles.


Se asume que cada siniestro se produce independientemente uno de otro y la probabilidad
de siniestro es constante, cualquiera sea la póliza (este supuesto no es tan real, pues en la
práctica, hay conductores que son más riesgosos que otros).
¿Cuántas pólizas, es decir, qué valor debe tener N , para tener una seguridad de al
menos el 95% de que el número de siniestros que van a ocurrir, difiera del número de
siniestros que la compañı́a espera que ocurran, en no más de un 5%?
Llamemos X a la variable aleatoria que cuenta el número de siniestros que ocu-
rrirán. Bajo los supuestos del problema, X ∼ B(N, p), y lo que se pide es encontrar
N bajo la condición
P (|X − E(X)| < 0.05N ) ≥ 0.95. (2.1)
Como E(X) = N p y V ar(X) = N p (1 − p), entonces la desigualdad de Chebyshev
implica que
N p (1 − p)
P (|X − E(X)| < 0.05N ) ≥ 1 − .
(0.05 N )2
Pero, como lo muestra la figura siguiente, la función h(p) = p (1 − p), 0 < p < 1, alcanza
un máximo en p = 12 .

h(p)

1
4

0 1 1 p
2

Figura 2.3.4
Ası́, para todo 0 < p < 1, se tiene que p (1 − p) ≤ 14 , de donde

N 14
P (|X − E(X)| < 0.05N ) ≥ 1 −
(0.05N )2

100
= 1− .
N
De esta forma, la condición (2.1) se satisface si 1 − 100
N ≥ 0.95, de donde N ≥ 2000.
En consecuencia, la compañı́a deberá tener aseguradas por lo menos 2000 pólizas.

- 214 -
2.3 Desigualdades para la Esperanza Matemática

Ejemplo 2.3.2: Sea X variable aleatoria discreta, con RecX = {−1, 0, 1} y


P (X = −1) = p, P (X = 0) = 1 − 2p, P (X = 1) = p,
donde p satisface, 0 < p < 12 . Entonces

E(X) = (−1) p + 0 (1 − 2p) + 1 p


= 0
y
V ar(X) = E(X 2 ) − 02
= (−1)2 p + 02 (1 − 2p) + 12 p
= 2p.

La desigualdad de Chebyshev implica que, para todo t > 0,


( ) ( √ )
√ 1
P X−0
2p < t = P |X − 0| < 2p t ≥ 1 − 2.
t

Por otra parte, para todo x real,


P (|X − 0| < x) = P (|X| < x)
{
P (X = 0) si 0 ≤ x < 1
=
P (X = −1) + P (X = 0) + P (X = 1) si x ≥ 1
{
1 − 2p si 0 ≤ x < 1
=
1 si x ≥ 1

( √ )
También, para todo t > 0, definamos Q(t) = P |X − 0| < 2p t . Ası́,
( √ )
Q(t) = P |X| < 2p t
{ √
1 − 2p si 0 ≤ 2p t < 1
= √
1 si 2p t ≥ 1
{
1 − 2p si 0 ≤ t < √1
2p
=
1 si t ≥ √1
2p

O sea,
lim Q(t) = lim 1 − 2p
− −
t→ √12p t→ √12p

= 1 − 2p

1
= 1− .
( 1 )2
√1
2p

- 215 -
2.3 Desigualdades para la Esperanza Matemática

Es decir, a medida que t se “acerca” (por la izquierda) a √1 , Q(t) se “acerca” a la cota


2p
que entrega la desigualdad de Chebyshev.

Ejemplo 2.3.3: Sea X variable aleatoria con µ = E(X) y σ 2 = V ar(X), ambos se


asume que existen. Sea X ∗ = X−µ ∗
σ , es decir, X es variable aleatoria con

E(X) − µ µ−µ
E(X) = = =0
σ σ
y
V ar(X − µ) V ar(X) σ2
V ar(X) = = = = 1.
σ2 σ2 σ2
Se dice que X ∗ es la estandarización de la variable aleatoria X.
Para cada t > 0, se define Q(t) = P (|X ∗ | < t). Entonces, la desigualdad de Chebyshev
implica que

Q(t) = P (|X ∗ | < t)


( )

= P X−µ
σ < t

= P (|X − µ| < σt)

1
≥ 1− .
t2
Si tomamos, en particular, X ∼ N (µ, σ 2 ), entonces
( )

Q(t) = P X−µ
σ < t

= Φ(t) − Φ(−t)

= 2Φ(t) − 1.

Si en cambio, X ∼ U (a, b), entonces

X −µ X − a+b
X∗ = = b−a
2
.
σ √
12
√ √
Teorema 2.2.1 implica que X ∗ ∼ U (− 3, 3), de donde

Q(t) = P (|X ∗ | < t)


∫
 t
1 √

 √ du si 0 < t < 3
 2 3
−t
=



1 √
si t ≥ 3

- 216 -
2.3 Desigualdades para la Esperanza Matemática
 1 √

 √3 t
 si 0 < t < 3
=

 √

1 si t ≥ 3
1
X− λ
Por otra parte, si X ∼ exp(λ), entonces X ∗ = X−µ
σ = 1 = λX − 1, de donde
λ

Q(t) = P (|X ∗ | < t)

= P (|λX − 1| < t)

= P (−t < λX − 1 < t)


( 1−t 1+t
)
= P λ <X< λ
∫ 1+t


 λ λe−λu du
 si 1 − t > 0


 1−t
λ
=

 ∫


1+t


λ
 λe−λu du si 1 − t ≤ 0
0
 ( )
 −1 et − e−t
e si 0 < t < 1
=


1 − e−(1+t) si t ≥ 1
La figura siguiente muestra el gráfico de Q(t) para las distribuciones recién vistas y
también el gráfico de la cota que entrega Chebyshev.

Q(t)

1.0
exp

1 − 1/t2
0.5 norm

unif

0 1 2 3 t

Figura 2.3.5

En forma similar, se puede obtener la función Q(t), para las variables aleatorias discretas
Bernoulli (p), Poisson (λ).
La figura siguiente muestra el gráfico de Q(t) para las distribuciones Bernoulli ( 12 ),
Poisson (9), la distribución del Ejemplo 2.3.2 con p = 14 y también el gráfico de la cota
que entrega Chebyshev.

- 217 -
2.3 Desigualdades para la Esperanza Matemática

Q(t)

1.0
Bernoulli

1 − 1/t2
0.5

Poisson

0 1 2 3 t

Figura 2.3.6
Veamos ahora una generalización de la desigualdad de Markov.
Corolario 2.3.2: Sea X variable aleatoria. Entonces, para todo t > 0, y todo λ > 0,
( )
E |X|t
P (|X| ≥ λ) ≤ .
λt

( )
Demostración: Para t > 0, el suceso (|X| > λ) es igual al suceso |X|t > λt . Usando
Proposición 2.3.2 con |X|t , en lugar de X y λt en lugar de a, se obtiene
( )
P (|X| > λ) = P |X|t > λt

E(|X|t )
≤ .
λt

Finalmente veamos una importante desigualdad, conocida como desigualdad de Jensen.


Primeramente, recordemos acerca de las funciones convexas.
Una función h : I → R, donde I es un intervalo abierto de R (los extremos pueden ser
finitos o no) se dice convexa en I si, para todo x, y ∈ I y 0 ≤ p ≤ 1,

h(px + (1 − p) y) ≤ p h(x) + (1 − p) h(y).

O sea,

ph(x) + (1 − p)h(y)
h(px + (1 − p)y)

x y

Figura 2.3.7

- 218 -
2.3 Desigualdades para la Esperanza Matemática

Si la segunda derivada de h existe en I, y se cumple que h′′ ≥ 0, entonces h es convexa.


Importantes funciones convexas son: |x|; x2 ; eθx (con θ ∈ R), etc.

Proposición 2.3.4 (Desigualdad de Jensen): Sea h : I → R función convexa sobre


el intervalo abierto I ⊂ R, y X variable aleatoria tal que P (X ∈ I) = 1. Asumiendo que
todas las cantidades involucradas existen, se tiene que

E(h(X)) ≥ h(E(X)).

Bajo las mismas condiciones de la proposición anterior, pero asumiendo que h es


cóncava (esto significa que −h es convexa), la desigualdad de Jensen implica que

E(−h(X)) ≥ −h(E(X)),

o sea, si h es cóncava,
h(E(X)) ≥ E(h(X)).

Demostración: De la convexidad de la función h, se puede verificar (vea R. Ash pág.


287) que existen sucesiones de reales (an ; n ≥ 1) y (bn ; n ≥ 1) tal que

h(x) = sup(an x + bn ), x ∈ I.
n≥1

Pero,
E(an X + bn ) = an E(X) + bn
de donde,
sup E(an X + bn ) = sup(an E(X) + bn )
n≥1 n≥1

= h(E(X)).
Finalmente, usando Proposición 2.3.1,

am X + bm ≤ sup(an X + bn ), para todo m,


n≥1

o sea, ( )
E(am X + bm ) ≤ E sup(an X + bn ) , para todo m,
n≥1

por lo que ( )
sup E(am X + bm ) ≤ E sup(an X + bn )
m≥1 n≥1

= E(h(X)).
En consecuencia,
E(h(X)) ≥ sup E(am X + bm ) = h(E(X)).
m≥1

- 219 -
2.3 Desigualdades para la Esperanza Matemática

Ejemplo 2.3.4: Si h(x) = |x|, x real, entonces, para 0 ≤ p ≤ 1,

h(px + (1 − p)y) = |px + (1 − p)y|

≤ |px| + |(1 − p)y|

= p |x| + (1 − p) |y|

= ph(x) + (1 − p)h(y).

Es decir, h es convexa en I =] − ∞, ∞[.


La desigualdad de Jensen implica que, si X es variable aleatoria y las cantidades in-
volucradas existen,
E(|X|) ≥ |E(X)|.

Ejemplo 2.3.5: Si h(x) = x2 , x real, entonces

d2
h(x) = 2 > 0, para todo x.
dx2
Es decir, h es convexa en I =] − ∞, ∞[.
La desigualdad de Jensen implica que

E(X 2 ) ≥ (E(X))2 ,

para X variable aleatoria en que las cantidades involucradas en la desigualdad existen.

Ejemplo 2.3.6: Sea h(x) = − ln x, x > 0. Entonces

d2 1
2
h(x) = 2 , para todo x > 0 .
dx x
Es decir, h es convexa en I =]0, ∞[.
La desigualdad de Jensen implica que, si X es variable aleatoria y las cantidades in-
volucradas existen,
E(− ln(X)) ≥ − ln(E(X)),
es decir,
ln(E(X)) ≥ E(ln X).

- 220 -
2.3 Desigualdades para la Esperanza Matemática

PROBLEMAS
Problema 2.3.A: Sea X variable aleatoria tal que E(X) = 3 y E(X 2 ) = 13 . Determine
α > 0 de modo que α < P (−2 ≤ X ≤ 8).

Problema 2.3.B: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid B(p), con
0.33 ≤ p ≤ 0.45. Determinar n0 ∈ N de modo que, con probabilidad superior a 0.95,
la distancia entre X̄n0 y p sea menor que 0.005.

Problema 2.3.C: Sea f : [0, 1] → R+ , función continua, tal que


∫ 1
supx∈[0.1] |f (x)| = m < 1 y p = f (t)dt.
0

Suponga que, para todo n ≥ 1 , los vectores bidimensionales Z1 , . . . , Zn , satisfacen:

a) Z1 , . . . , Zn son independientes,

b) Zi ∼ U (G) , 1 ≤ i ≤ n , con G = [0, 1] × [0, 1].

Finalmente, para cada 1 ≤ i ≤ n , considere las variables aleatorias Xi = I(Zi ∈D) , con
D = {(x, y) ∈ [0, 1]2 : 0 < y ≤ f (x)}.

i) Calcule E(X̄n ); V (X̄n ).

ii) Determine n0 ∈ N (mı́nimo) de modo que con probabilidad inferior a 0.005, la


distancia entre X̄n y p sea mayor que 0.01.

Problema 2.3.D: Sean a1 , . . . , an , números reales positivos, y α1 , . . . , αn , números reales


no negativos, tales que α1 + · · · + αn = 1. Verifique que

n ∑
n
aαi i ≤ αi ai .
i=1 i=1

Problema 2.3.E: Sean a, b, c números reales positivos. Verifique que


1 1 1 9
+ + ≥ .
a b c a+b+c

Problema 2.3.F: Sea X una variable aleatoria y 0 < s < t, suponiendo que las cantidades
que aparecen abajo están bien definidas, pruebe que
1 [ ]1
[E(|X|s )] s ≤ E(|X|t ) t .

Problema 2.3.G: Suponga que en cierta región de Chile hay n familias, y cada familia
tiene un ingreso promedio mensual de $A pesos.

- 221 -
2.3 Desigualdades para la Esperanza Matemática

a) Encuentre una cota superior para la probabilidad de que el ingreso promedio mensual
de la región sea superior a $5A.

b) Encuentre una cota superior, menor que la encontrada en a), sabiendo ahora que la
desviación estándar del ingreso familiar mensual es $0.8A.

- 222 -
2.4. VECTORES ALEATORIOS

2.4 Vectores Aleatorios

En esta sección estudiaremos el concepto de distribución de probabilidad conjunta de


dos o más variables aleatorias definidas sobre un espacio muestral. La distribución de
probabilidad conjunta se usa como modelo matemático en muchas aplicaciones, de las
cuales las siguientes son algunas ilustraciones:

• En estudios de ecologı́a, los conteos (modelados como variables aleatorias) de varias


especies son realizados en algunas oportunidades. Una especie puede ser el depredador
de otra y es natural que el número de depredadores esté relacionado con el número
de presas.

• La distribución de probabilidad conjunta de u, v y w, que representan las compo-


nentes de la velocidad del viento, pueden ser medidas experimentalmente en estudios
de turbulencia atmosférica.

• La distribución conjunta de los valores de varias variables sicológicas, que se miden


en poblaciones de pacientes, es a menudo de interés en estudios médicos.

• Un modelo para la distribución conjunta de la edad y tamaño de una población de


peces puede ser usado para estimar la distribución de la edad desde la distribución
del tamaño. La distribución de la edad es relevante en el contexto de polı́ticas de
vedas.

Si X1 , . . . , Xn , son n variables aleatorias definidas en el mismo espacio muestral Ω,


estas pueden considerarse como un vector de variables (X1 , . . . , Xn ) o como una función
que a cada w ∈ Ω le asigna el punto de Rn de coordenadas (X1 (w), . . . , Xn (w)), o sea,
serı́a una variable aleatoria con valores en Rn .

Definición 2.4.1: Un vector X = (X1 , . . . , Xn ) se dice vector aleatorio n-variado (o


simplemente vector aleatorio) si para cada i = 1, . . . , n, la componente Xi , es una variable
aleatoria, estando todas definidas sobre un mismo espacio muestral Ω.
Dicho de otra forma, si Xi : Ω → R , es una variable aleatoria, para cada
i = 1, . . . , n , entonces X = (X1 , . . . , Xn ) es un vector aleatorio n-variado. La restricción
de que todas las variables aleatorias estén definidas sobre el mismo espacio muestral es
solo por razones técnicas, y en la práctica se puede asumir dicha condición sin pérdida de
generalidad.
El comportamiento conjunto de dos variables aleatorias X e Y es determinado por la
siguiente función:

Definición 2.4.2: La función de distribución conjunta del vector aleatorio (X, Y ), es


una función de R → [0, 1], definida por FX,Y (x, y) = P (X ≤ x, Y ≤ y).
2

Es decir, FX,Y (u, v) = P ((X, Y ) ∈ A) , donde A es el “rectángulo semi-infinito”


] − ∞, u]×] − ∞, v], que muestra la figura siguiente:

- 223 -
2.4 Vectores Aleatorios

y
v

u x

Figura 2.4.1

El número real FX,Y (u, v), representa la probabilidad de que el par (X, Y ) pertenezca
al “rectángulo” sombreado de la Figura 2.4.1.
Recordemos que en el caso de una variable aleatoria (caso unidimensional), si se conoce
la función de distribución acumulada, entonces se puede calcular inmediatamente la pro-
babilidad de que la variable pertenezca a un intervalo (véase Proposición 2.2.1).
La siguiente proposición es la versión bidimensional del resultado antes mencionado, es
decir, indica como calcular la probabilidad de que un par de variables aleatorias pertenez-
can a un rectángulo, a partir de FX,Y .

Proposición 2.4.1: Sean a, b, c y d números reales tales que a < b ; c < d y (X, Y )
vector aleatorio. La probabilidad de que (X, Y ) pertenezca al rectángulo ]a, b]×]c, d], como
el que se muestra en la figura siguiente, está dado por

P (a < X ≤ b, c < Y ≤ d) = FX,Y (b, d) − FX,Y (a, d) − FX,Y (b, c) + FX,Y (a, c).

a b x

Figura 2.4.2

Demostración: Es suficiente descomponer el rectángulo ]a, b]×]c, d] en “rectángulos


semi-infinitos” como los que aparecen en la definición de FX,Y .
En efecto, como

P (a < X ≤ b, c < Y ≤ d) = P (X ≤ b, c < Y ≤ d) − P (X ≤ a, c < Y ≤ d)

- 224 -
2.4 Vectores Aleatorios

P (X ≤ b, c < Y ≤ d) = P (X ≤ b, Y ≤ d) − P (X ≤ b, Y ≤ c),
P (X ≤ a, c < Y ≤ d) = P (X ≤ a, Y ≤ d) − P (X ≤ a, Y ≤ c),

entonces se concluye el resultado.

Observación 2.4.1: La función de distribución conjunta FX,Y posee las siguientes


propiedades (verificables a partir de su definición)
a) FX,Y es no decreciente en cada coordenada, es decir,
FX,Y (u, v) ≤ FX,Y (u, z) si v ≤ z,
FX,Y (u, v) ≤ FX,Y (x, v) si u ≤ x.

b) lim FX,Y (u, v) = FY (v); lim FX,Y (u, v) = FX (u).


u→∞ v→∞

c) u→∞
lim FX,Y (u, v) = 1.
v→∞

d) lim FX,Y (u, v) = 0; lim FX,Y (u, v) = 0.


u→−∞ v→−∞

La definición de función de distribución conjunta para un vector aleatorio n-dimensional


(n > 2), es análoga al caso bidimensional, al igual que la observación anterior.
En general, mostraremos las definiciones y propiedades en el caso bidimensional, pues
la complejidad del caso n-dimensional es más bién de tipo notacional.
Como en el caso unidimensional, es posible clasificar un vector aleatorio en discreto y
continuo.

Definición 2.4.3: La distribución de (X, Y ) se dice que es


i) discreta, si (X, Y ) toma valores sobre un conjunto finito o numerable de R2 , es decir,
si existe un conjunto C, contenido en R2 , finito o numerable, tal que
P ((X, Y ) ∈ C) = 1.
Se acostumbra a llamar recorrido de (X, Y ), se anota Rec(X, Y ), al más “pequeño”
de estos conjuntos C.
En este caso, también se define la función pX,Y : R2 → [0, 1], por

pX,Y (u, v) = P (X = u, Y = v).

La función pX,Y se conoce con el nombre de función de cuantı́a conjunta (también


llamada distribución de probabilidad conjunta) para el vector aleatorio (X, Y ).

ii) continua, si existe una función fX,Y de R2 → [0, ∞[ tal que, “para todo” A ⊂ R2 ,
∫∫
P ((X, Y ) ∈ A) = fX,Y (s, t)dsdt.
A

La función fX,Y recibe el nombre de función de densidad de probabilidad conjunta


(o más simplemente densidad conjunta) del vector aleatorio (X, Y ). Al conjunto

- 225 -
2.4 Vectores Aleatorios

{(u, v) : fX,Y (u, v) > 0} se le llama recorrido de (X, Y ) y se anota Rec(X, Y ). El


subı́ndice “X, Y ” de las funciones FX,Y , pX,Y y fX,Y se omitirá cuando no exista
peligro de confusión.

De la definición anterior se desprenden las propiedades siguientes.

Proposición 2.4.2: Si (X, Y ) es vector aleatorio, entonces, para todo A ⊂ R2 ,


∑ ∑
P ((X, Y ) ∈ A) = p(u, v), si (X, Y ) es discreto,
(u,v)∈(A∩ Rec(X,Y ))

∫∫
P ((X, Y ) ∈ A) = f (u, v)dudv, si (X, Y ) es continuo
A∩Rec(X,Y )

y en particular, si A = R2 ,
∑ ∑ ∫∫
1= p(u, v); 1= f (u, v)dudv.
(u,v)∈ Rec(X,Y ) Rec(X,Y )

Más aún, si se considera A =] − ∞, u]×] − ∞, v], se tendrá que:


∑ ∑
F (u, v) = p(x, y), si (X, Y ) es discreto,
x≤u y≤v
(x,y)∈ Rec(X,Y )

∫ u ∫ v
F (u, v) = f (x, y)dxdy, si (X, Y ) es continuo.
−∞ −∞

Luego, en el caso en que (X, Y ) sea continuo, se desprende desde el teorema funda-
mental del cálculo que, para todo (u, v) ∈ R2 donde f sea continua,

∂ 2 F (u, v)
f (u, v) = .
∂u∂v

Observación 2.4.2: La función de densidad conjunta f , de un vector aleatorio (X, Y )


continuo, es no negativa, pero, puede ser mayor que uno, en si, f (u, v) no representa una
probabilidad (lo que si ocurre con p(u, v) en el caso en que (X, Y ) sea discreto). Esta
observación también es válida en el caso unidimensional.
Para “pequeños” δu y δv , si f es continua en (u, v),
∫ u+δu ∫ v+δv
P (u ≤ X ≤ u + δu , v ≤ Y ≤ v + δv ) = f (x, y)dxdy
u v
≃ f (u, v)δu δv .

Luego, la probabilidad que (X, Y ) pertenezca a una pequeña vecindad de (u, v) es propor-
cional a f (u, v).

- 226 -
2.4 Vectores Aleatorios

Ejemplo 2.4.1: Una moneda honesta es lanzada tres veces. Supongamos que X denota
el número de caras que ocurren en el primer lanzamiento e Y representa el número total
de caras en los tres lanzamientos.
Entonces, Rec X = {0, 1} Rec Y = {0, 1, 2, 3} y el espacio muestral del experimento es

Ω = {ccc, ccs, csc, scc, ssc, scs, css, sss}.

Además, la función de cuantı́a conjunta de (X, Y ) está dada por la tabla siguiente:

XY 0 1 2 3
1 2 1
0 8 8 8 0
1 2 1
1 0 8 8 8

Tabla 2.4.1

Ası́ por ejemplo, p(0, 2) = P (X = 0, Y = 2) = 18 y P (Y ≥ 2X) es igual a la expresión


P ((X, Y ) ∈ A), donde A = {(u, v) ∈ R2 : v ≥ 2u}, representado en la Figura 2.4.3.

v=2u
3

0 1 2 3 u

Figura 2.4.3

Además, Rec(X, Y ) = {(0, 0), (0, 1), (0, 2), (1, 1), (1, 2), (1, 3)}, de donde se obtiene que
A ∩ Rec(X, Y ) = {(0, 0), (0, 1), (0, 2), (1, 2), (1, 3)}.
En consecuencia,

P (Y ≥ 2X) = P ((X, Y ) ∈ A)

∑ ∑
= p(u, v)
(u,v)∈A ∩Rec(X,Y )

= p (0, 0) + p (0, 1) + p (0, 2) + p (1, 2) + p (1, 3)

- 227 -
2.4 Vectores Aleatorios

1 2 1 2 1
= + + + +
8 8 8 8 8

7
= .
8

Ejemplo 2.4.2: Sea (X, Y ) vector aleatorio con función de cuantı́a conjunta dada por
la siguiente tabla:

XY −1 0 1
0 0.10 0.03 0.25
1 0.20 0.30 0.12

Tabla 2.4.2

Encontraremos la función de cuantı́a de la variable aleatoria Z = X + Y.


El recorrido de Z es Rec(Z) = {−1, 0, 1, 2}, por lo que

pZ (−1) = P (Z = −1) = P (X + Y = −1)


= P ((X, Y ) ∈ {(0, −1)})
= PX,Y (0, −1)
= 0.10,

pZ (0) = P (Z = 0) = P (X + Y = 0)
= P ((X, Y ) ∈ {(0, 0), (1, −1)})
= pX,Y (0, 0) + pX,Y (1, −1)
= 0.03 + 0.20
= 0.23,

pZ (1) = P (Z = 1) = P (X + Y = 1)
= P ((X, Y ) ∈ {(0, 1), (1, 0)})
= pX,Y (0, 1) + pX,Y (1, 0)
= 0.25 + 0.30
= 0.55,

pZ (2) = P (Z = 2) = P (X + Y = 2)
= P ((X, Y ) ∈ {(1, 1)})
= pX,Y (1, 1)
= 0.12.

- 228 -
2.4 Vectores Aleatorios

Ejemplo 2.4.3: Sea (X, Y ) vector aleatorio continuo, con densidad conjunta definida
por {
ks(s − t), si 0 < s < 2, −s < t < s
f (s, t) =
0 e.o.c.
con k constante positiva.
Por el hecho de que f es densidad conjunta, se tiene que
∫ ∞∫ ∞
f (s, t)dsdt = 1,
−∞ −∞

pero, la región donde f es no nula (o sea el recorrido de (X, Y )) es el conjunto


{(s, t) : 0 < s < 2, −s < t < s}, que corresponde a la región sombreada de la figura
siguiente

t=s
2

−2 0 1 2 s

−2
t=−s

Figura 2.4.4

Por lo tanto,
∫ ∞ ∫ ∞ ∫ 2 (∫ s )
f (s, t)ds dt =k s(s − t)dt ds
−∞ −∞ 0 −s

∫ 2 (∫ s ∫ s )
=k s dt −
2
st dt ds
0 −s −s

∫ 2
=k (2s3 − 0)ds
0

=8k,

de donde k = 81 .
Veamos ahora como calcular, por ejemplo, P (X 2 > Y ). Notemos que P (X 2 > Y ) es igual
a P ((X, Y ) ∈ A), con A = {(s, t) ∈ R2 : s2 > t}. La región sombreada de la figura
siguiente muestra al conjunto A ∩ Rec(X, Y ).

- 229 -
2.4 Vectores Aleatorios

t
4
t=s2

t=s
2

−2 0 1 2 s

−2
t=−s

Figura 2.4.5

Luego,

P (X 2 > Y ) = P ((X, Y ) ∈ A)
∫∫
= f (s, t)ds dt
A∩Rec(X,Y )

∫ (∫ ) ∫ 2 (∫ s )
1 s2
1 1
= s (s − t)dt ds + s (s − t)dt ds
0 −s 8 1 −s 8

∫ 1( ) ∫
1 1 4 1 2 3
= s (s + s) − s (s − s ) ds +
2 2 2
(2s − 0) ds
8 0 2 8 1

1 37 1 15
= · + ·
8 60 8 12
479
= .
480

Ejemplo 2.4.4: Sea (X, Y ) vector aleatorio continuo con densidad conjunta dada por
{
αβe−(αu+βv) si u > 0, v > 0
fX,Y (u, v) =
0 e.o.c.

con α, β constantes positivas, α ̸= β.


Calculemos la densidad de la variable aleatoria Z = X + Y.

Primeramente encontraremos FZ (ξ), para todo ξ real.

- 230 -
2.4 Vectores Aleatorios

FZ (ξ) = P (Z ≤ ξ)

= P (X + Y ≤ ξ)

= P ((X, Y ) ∈ Aξ ), donde Aξ = {(u, v) : u + v ≤ ξ}


∫∫
= fX,Y (u, v)dudv.
Aξ ∩Rec(X,Y )

Notar que fX,Y (u, v) es no nulo cuando u > 0 y v > 0, es decir, Rec(X, Y ) = R2+ .
Además, las Figuras 2.4.6 y 2.4.7 muestran la posición de la recta u + v = ξ, dependiendo
del signo de ξ.

0 ξ u
u+v=ξ

Figura 2.4.6: Caso ξ ≥ 0

ξ 0 u

u+v=ξ

Figura 2.4.7: Caso ξ < 0

Por lo tanto, si ξ < 0, Aξ ∩ Rec(X, Y ) = ∅, y en el caso en que ξ ≥ 0, la región sombreada


de la Figura 2.4.8 muestra al conjunto Aξ ∩ Rec(X, Y ).

- 231 -
2.4 Vectores Aleatorios

0 ξ u
u+v=ξ

Figura 2.4.8
Ası́,
∫∫
FZ (ξ) = fX,Y (u, v)dudv
Aξ ∩Rec(X,Y )



0 si ξ < 0
∫ ξ (∫ ξ−u )
=

 αβe−(αu+βv) dv du si ξ ≥ 0
0 0


0 si ξ < 0
∫ ξ
=
α e−αu (1 − e−β(ξ−u) )du si ξ ≥ 0
0


0 si ξ < 0
= α
1 − e−αξ − e−βξ (1 − e−(α−β)ξ ) si ξ ≥ 0
α−β
O sea, FZ (ξ) es continua y derivable (salvo posiblemente en ξ = 0), en consecuencia,
fZ (ξ) existe y está dada por

{
d
dξ FZ (ξ) si la derivada existe
fZ (ξ) =
0 e.o.c.

{
αβ −βξ − e−αξ )
α−β (e si ξ > 0
=
0 e.o.c.

Ejemplo 2.4.5: Una población se divide en m estratos. Asumamos que la probabilidad


de escoger un individuo cualquiera del estrato i es siempre la misma, digamos pi . Se esco-
gen al azar n individuos de esta población. Sea Xi , la cantidad de individuos muestreados

- 232 -
2.4 Vectores Aleatorios

del estrato i. La distribución conjunta del vector aleatorio discreto (X1 , . . . , Xm ) , está
dada por

n! ∑
m
P (X1 = r1 , . . . , Xm = rm ) = pr1 · · · prmm , 0 ≤ ri ≤ n, ri = n.
r1 ! · · · rm ! 1
i=1

Un vector aleatorio que tiene función de cuantı́a conjunta como la anterior se dice que
tiene distribución multinomial.
En el caso en que m = 2, es decir, dos estratos, se tendrá que p2 = 1 − p1 (pues
p1 + p2 = 1); r2 = n − r1 y (X1 = r1 , X2 = r2 ) = (X1 = r1 ), pues r1 + r2 = n. Por lo
tanto,

P (X1 = r1 ) = P (X1 = r1 , X2 = r2 )

n!
= pr1 pr2
r1 ! r2 ! 1 2

n!
= pr1 (1 − p1 )n−r1
r1 ! (n − r1 )! 1

( )
n
= pr1 (1 − p1 )n−r1 .
r1 1

Es decir, en el caso de dos estratos, la distribución multinomial se reduce a la distribución


binomial estudiada en la Sección 2.1 de este capı́tulo.

Para comprender como se concluye la forma de la distribución multinomial, veamos


un ejemplo concreto.
En una urna se tienen 100 fichas: 50 negras, 30 blancas y 20 rojas. Se eligen al azar 9
fichas, con reposición. Encontremos la probabilidad de que obtengamos 4 negras, 2 blancas
y 3 rojas.
En este ejemplo tenemos tres estratos (m = 3), que son: las fichas negras, las blancas
y las fichas rojas.
50
Como la probabilidad de escoger una ficha negra, en cualquier extracción, es 100 (casos
50
favorables son 50 y casos totales son 100), la probabilidad de este estrato es igual a 100 ,o
30 20
sea p1 = 0.5. Análogamente, p2 = 100 = 0.3 y p3 = 100 = 0.2.
También, desde que se eligen 9 fichas (con reposición), entonces n = 9 y

X1 =cantidad de fichas que resultan ser negras.

X2 =cantidad de fichas que resultan ser blancas.

X3 =cantidad de fichas que resultan ser rojas.

Queremos obtener P (X1 = 4, X2 = 2, X3 = 3), por lo que, r1 = 4; r2 = 2 y r3 = 3.


Notar que el suceso A, definido por A = 1ra ficha escogida es blanca, 2da es negra, 3ra y 4ta
rojas, 5ta blanca, 6ta y 7a negras, 8a roja y 9a negra, está contenido en

- 233 -
2.4 Vectores Aleatorios

(X1 = 4, X2 = 2, X3 = 3) y por independencia (la elección es con reposición) tiene


probabilidad 0.3 · 0.5 · 0.2 · 0.2 · 0.3 · 0.5 · 0.5 · 0.2 · 0.5 = (0.5)4 · (0.3)2 · (0.2)3 .
Similarmente, el suceso B, definido por B = 1ra ficha escogida es roja, 2da es roja, 3ra
blanca, 4ta , 5ta y 6ta negras, 7a roja, 8a negra y 9a blanca, está contenido en
(X1 = 4, X2 = 2, X3 = 3) y por independencia (la elección es con reposición) tiene
probabilidad 0.2 · 0.2 · 0.3 · 0.5 · 0.5 · 0.5 · 0.2 · 0.5 · 0.3 = (0.5)4 · (0.3)2 · (0.2)3 .
Más aún, el suceso (X1 = 4, X2 = 2, X3 = 3) es la unión (disjunta) de conjuntos
similares a A o B, todos con probabilidad igual a (0.5)4 · (0.3)2 · (0.2)3 .
Pero, ¿Cuántos de estos conjuntos hay?
La cantidad de conjuntos que forman esta unión es igual a la cantidad de permutaciones
que podemos realizar con 9 objetos, de los cuales hay 4 de un mismo tipo, dos de otro y 3
de un tercer tipo. Recordando las permutaciones con repetición, este número corresponde
9!
a 4!2!3! .
En conclusión,
9!
P (X1 = 4, X2 = 2, X3 = 3) = (0.5)4 (0.3)2 (0.2)3 .
4! 2! 3!

Ejemplo 2.4.6: Sea G una región del plano, es decir, B ⊂ R2 , de modo que el área de
G sea finita.
Un vector aleatorio continuo (X, Y ) se dice que tiene distribución uniforme en G, se
anota (X, Y ) ∼ U (G), si la densidad conjunta de (X, Y ) está definida por

 1
si (u, v) ∈ G
f (u, v) = área(G)

0 e.o.c.

Notar que en este caso, si A ⊂ R2 , P ((X, Y ) ∈ A) corresponde al área de A ∩ G, dividida


por el área de G. En efecto,
∫∫
P ((X, Y ) ∈ A) = f (u, v)dudv
A

∫∫
1
= IG (u, v)dudv
A área(G)

∫∫
1
= IG (u, v)dudv
área(G) A

∫∫
1
= dudv
área(G) A∩G

área(A ∩ G)
= .
área(G)

- 234 -
2.4 Vectores Aleatorios
( )
Ejemplo 2.4.7: Sea µ = (µ1 , µ2 ) vector de R2 y Σ = ab cb matriz simétrica y definida
positiva, con a > 0 y c > 0.
Un vector aleatorio continuo (X, Y ) se dice que tiene distribución normal bivariada de
parámetros µ y Σ, se anota (X, Y ) ∼ N (µ, Σ), si su función de densidad conjunta está
definida por
1 { }
f (u, v) = √ √ exp − 12 ((u, v) − (µ1 , µ2 ))Σ−1 ((u, v) − (µ1 , µ2 ))t .
( 2π)2 det Σ

Anotando x = u − µ1 ; y = v − µ2 y ρ = √ b√
a c
se tiene que
( )
1 c −b
((u, v) − (µ1 , µ2 ))Σ−1 ((u, v) − (µ1 , µ2 ))t = (x, y) (x, y)t
ac − b2 −b a

1
= (cx − by, −bx + ay)(x, y)t
ac(1 − ρ2 )

1
= (cx2 − 2bxy + ay 2 )
ac(1 − ρ2 )
( )
1 x2 b y2
= − 2 xy +
1 − ρ2 a ac c
( )
1 x2 x y y2
= − 2ρ · √ · √ +
1 − ρ2 a a b c
[
1 (u − µ1 )2 u − µ1 v − µ2
= − 2ρ · √ · √
1−ρ 2 a a c
]
(v − µ2 )2
+ .
c
En consecuencia,
1 [ { }]
(u−µ1 )2 (v−µ2 )2
f (u, v) = √ √ √ exp − 1
2(1−ρ2) a − 2ρ · u−µ
√ 1
a
· v−µ
√ 2
c
+ c .
2π a c 1 − ρ2

Ası́ por ejemplo, si (X, Y ) ∼ N ((0, 0), ( 10 01 )), entonces


1 [ ]
f (u, v) = exp − 21 {u2 + v 2 } .

- 235 -
2.4 Vectores Aleatorios

2.4.1 Distribuciones marginales


Si se conoce la función de cuantı́a conjunta de un vector aleatorio discreto (X, Y ), ¿será
posible conocer las funciones de cuantı́a de X y de Y ? Es decir, si se conoce pX,Y (u, v),
¿será posible conocer pX (u); pY (v)?
Análogamente, si se conoce fX,Y (s, t) ¿será posible conocer fX (s); fY (t)?

Proposición 2.4.3: Si (X, Y ) es un vector aleatorio, entonces:


a) En el caso discreto,
∑ ∑
pX (u) = pX,Y (u, v); pY (v) = pX,Y (u, v)
v∈RecY u∈RecX

b) En el caso continuo,
∫ ∞ ∫ ∞
fX (s) = fX,Y (s, t)dt; fY (t) = fX,Y (s, t)ds.
−∞ −∞

Demostración: Veamos primeramente el caso discreto.


Como Ω puede expresarse como unión disjunta de sucesos de la forma (Y = v), v ∈ RecY,
entonces
(X = u) = (X = u) ∩ Ω
[ ]

= (X = u) ∩ (Y = v)
v∈RecY

= (X = u, Y = v),
v∈RecY

luego
( )

P (X = u) = P (X = u, Y = v)
v∈RecY


= P (X = u, Y = v),
v∈RecY

es decir ∑
pX (u) = pX,Y (u, v).
v∈RecY

Análogamente se obtiene que pY (v) = pX,Y (u, v).
u∈RecX
En el caso continuo,
FX (u) = lim FX,Y (u, v)
v→∞

∫ u ∫ v
= lim fX,Y (s, t)dsdt
v→∞ −∞ −∞

- 236 -
2.4 Vectores Aleatorios
∫ u (∫ ∞ )
= fX,Y (s, t)dt ds,
−∞ −∞

luego, el teorema fundamental del cálculo implica que

d
fX (u) = FX (u)
du

∫ u (∫ ∞ )
d
= fX,Y (s, t)dt ds
du −∞ −∞

∫ ∞
= fX,Y (u, t)dt.
−∞
∫ ∞
Análogamente, fY (v) = fX,Y (s, v)ds.
−∞

Ejemplo 2.4.8: Sea (X,Y) vector aleatorio discreto con función de cuantı́a conjunta
dada por la tabla siguiente:

XY −1 1
0.7 0.112 0.238
1.2 0.160 0.340
3.5 0.032 0.068
6.8 0.016 0.034

Tabla 2.4.3

Entonces,

pX (0.7) = pX,Y (0.7, −1) + pX,Y (0.7, 1) = 0.112 + 0.238 = 0.35,


pX (1.2) = pX,Y (1.2, −1) + pX,Y (1.2, 1) = 0.160 + 0.340 = 0.50,
pX (3.5) = pX,Y (3.5, −1) + pX,Y (3.5, 1) = 0.032 + 0.068 = 0.10,
pX (6.8) = pX,Y (6.8, −1) + pX,Y (6.8, 1) = 0.016 + 0.034 = 0.05.

También,

pY (−1) = pX,Y (0.7, −1) + pX,Y (1.2, −1) + pX,Y (3.5, −1) + pX,Y (6.8, −1)
= 0.112 + 0.160 + 0.032 + 0.016
= 0.32,

pY (1) = pX,Y (0.7, 1) + pX,Y (1.2, 1) + pX,Y (3.5, 1) + pX,Y (6.8, 1)


= 0.238 + 0.340 + 0.068 + 0.034
= 0.68.

- 237 -
2.4 Vectores Aleatorios

Ejemplo 2.4.9: Sea (X,Y) vector aleatorio continuo con densidad conjunta dada por
{
λ2 e−λv si 0 ≤ u ≤ v
fX,Y (u, v) =
0 e.o.c.

donde λ es una constante positiva.


La región sombreada de la Figura 2.4.9 muestra el conjunto donde fX,Y es no nula.

v=u

Figura 2.4.9

Si u < 0, entonces, para todo t real, fX,Y (u, t) = 0. En consecuencia, para u < 0,
∫ ∞ ∫ ∞
fX (u) = fX,Y (u, t)dt = 0dt = 0.
−∞ −∞

Si u ≥ 0, entonces, para todo t < u, fX,Y (u, t) = 0. Por lo tanto,


∫ ∞
fX (u) = fX,Y (u, t)dt
−∞

∫ u ∫ ∞
= 0dt + λ2 e−λt dt
−∞ u

= λe−λu .

En resumen,
{
0 si u < 0
fX (u) =
λe−λu si u ≥ 0

o sea, X ∼ exp(λ).
También, si v < 0, entonces, para todo s real, f (s, v) = 0. Por lo tanto, para v < 0,
∫ ∞ ∫ ∞
fY (v) = fX,Y (s, v)ds = 0ds = 0.
−∞ −∞

- 238 -
2.4 Vectores Aleatorios

Si v ≥ 0, entonces, para todo s < 0, f (s, v) = 0 y para todo s > v, f (s, v) = 0. O sea,
∫ 0 ∫ v ∫ ∞
2 −λv
fY (v) = 0ds + λ e ds + 0ds
−∞ 0 v

∫ v
= λ2 e−λv ds
0

= λ2 ve−λv .

En resumen, {
0 si v < 0
fY (v) =
λ2 ve−λv si v ≥ 0
o sea, Y ∼ Gamma(2, λ).

Ejemplo 2.4.10: Sea (X,Y) vector aleatorio discreto, con función de cuantı́a conjunta
dada por ( )
n 1 n
pX,Y (m, n) = ,
m 2n 15
donde n ∈ {1, 2, 3, 4, 5} y m ∈ {0, 1, . . . , n}. Calculemos P (Y ≤ X 2 ) y encontremos las
distribuciones marginales de X e Y.
(n) n!
Primeramente, usando que m = m! (n−m)! , la función de cuantı́a conjunta puede
resumirse en la siguiente tabla

Y \X 0 1 2 3 4 5
1 1
1 30 30 0 0 0 0
1 2 1
2 30 30 30 0 0 0
1 3 3 1
3 40 40 40 40 0 0
1 4 6 4 1
4 60 60 60 60 60 0
1 5 10 10 5 1
5 96 96 96 96 96 96

Tabla 2.4.4
2
Ası́, por ejemplo, pX,Y (1, 2) = 30 . Luego,

P (Y ≤ X 2 ) = pX,Y (m, n),
(m,n)∈(A∩Rec(X,Y ))

con A el conjunto definido por A = {(m, n) : n ≤ m2 }.


En consecuencia,

A ∩ Rec(X, Y ) = {(1, 1), (2, 2), (2, 3), (3, 3), (2, 4), (3, 4), (4, 4), (3, 5), (4, 5), (5, 5)},

- 239 -
2.4 Vectores Aleatorios

de donde,

1 1 3 1 6 4 1 10 5 1
P (Y ≤ X 2 ) = + + + + + + + + +
30 30 40 40 60 60 60 96 96 96

31
= .
60

Ahora, sumando los valores pX,Y (m, n) ubicados en la columna 0 de la tabla anterior,
obtenemos pX (0), es decir,

1 1 1 1 1
pX (0) = + + + +
30 30 40 60 96

57
= .
480

Análogamente, se obtienen

141 94 5
pX (1) = , pX (3) = , pX (5) = ,
480 480 480

150 33
pX (2) = , pX (4) = .
480 480

Si ahora se suman los valores pX,Y (m, n) ubicados en la fila 1 de la tabla anterior,
obtenemos pY (1), es decir,
1 1 2
pY (1) = + = .
30 30 30
Análogamente, se obtienen

4 8 16 32
pY (2) = , pY (3) = , pY (4) = , pY (5) = .
30 40 60 96

Ejemplo 2.4.11: Sea (X,Y) el resultado de escoger un punto al azar de la región de R2


acotada por las rectas x = −1, x = 1, y = x + 1 e y = x − 1. Calculemos:

(a) las densidades marginales de X e Y,

(b) P (XY > 0),

(c) P (X < 0/ Y > 0.5).

El área sombreada de la figura siguiente muestra la región donde se escoge el punto al


azar.

- 240 -
2.4 Vectores Aleatorios

y=x+1
2

1
y=x−1

−1 1 x

−1

−2

Figura 2.4.10

O sea, (X, Y ) ∼ U (G), con G la región sombreada de la figura anterior, por lo que


 1

 área G si (x, y) ∈ G
fX,Y (x, y) =



0 e.o.c.

Por lo tanto,

∫ ∞
fX (x) = fX,Y (x, y)dy
−∞
∫ x+1

 1

 dy si − 1 ≤ x ≤ 1
x−1 4
=




0 e.o.c

 1

2 si − 1 ≤ x ≤ 1
=



0 e.o.c

- 241 -
2.4 Vectores Aleatorios

y
∫ ∞
fY (y) = fX,Y (x, y) dx
−∞

∫ 1

 1

 dx si 0 ≤ y ≤ 2

 y−1 4




∫
y+1
= 1

 dx si − 2 ≤ y ≤ 0

 −1 4






0 e.o.c.


 1

 4 (2 − y) si 0 ≤ y ≤ 2






= 1 (2 + y) si − 2 ≤ y < 0




4




0 e.o.c.

También, desde que la región sombreada de la figura siguiente representa a A ∩ G,

y=x+1
2

1
y=x−1

−1 1 x

−1

−2

Figura 2.4.11

se concluye que
∫∫
P (XY > 0) = fX,Y (x, y)dxdy , con A = {(x, y) ∈ R2 : xy > 0}
A

∫∫
1
= dxdy
A∩G 4

- 242 -
2.4 Vectores Aleatorios

1
= área(A ∩ G)
4

( )
1 1
=2· 2−
4 2

3
= .
4
Finalmente veamos (c).
Si B = {(x, y) ∈ R2 : x < 0, y > 0.5}, entonces

P (X < 0, Y > 0.5) = P ((X, Y ) ∈ B)

∫∫
= fX,Y (x, y) dxdy
B

∫∫
1
= dxdy
B∩G 4

área(B ∩ G)
= .
4

Además, la región sombreada de la figura siguiente representa al conjunto B ∩ G

y=x+1
2

1
0.5 y=x−1

−1−0.5 1 x

−1

−2

Figura 2.4.12

por lo tanto, área(B ∩ G) = 81 , de donde


1
8 1
P (X < 0, Y > 0.5) = = .
4 32

- 243 -
2.4 Vectores Aleatorios

Por otra parte,


∫ ∞
P (Y > 0.5) = fY (y)dy
0.5

∫ 2 ∫ ∞
1
= (2 − y)dy + 0dy
0.5 4 2

∫ 2 ∫ 2
1 1
= 2dy − ydy
4 0.5 4 0.5

3 15
= −
4 32

9
= .
32

En consecuencia,

P (X < 0 , Y > 0.5) 1


P (X < 0 / Y > 0.5) = = .
P (Y > 0.5) 9

Ejemplo 2.4.12: Sea (X,Y)( vector) aleatorio con distribución normal bivariada de pará-
metros µ = (µ1 , µ2 ) y Σ = ab cb . Verifiquemos que las distribuciones marginales son
normales.

En efecto, si ρ = √ b√ ,
a c

[ { }]
1 (u−µ1 )2 (v−µ2 )2
fX,Y (u, v) = √ √ √ exp − 1
2(1−ρ2 ) a − 2ρ · u−µ
√ 1
a
· v−µ
√ 2
c
+ c .
2π a c 1 − ρ2

u−µ
√ 1, v−µ
√ 2
Además, si α = a
λ= c
se obtiene la identidad

α2 − 2ραλ + λ2 = (λ − ρα)2 + α2 (1 − ρ2 ),

por lo que

1 [ ]
√ √ √ exp − 2(1−ρ2 ) (α − 2ραλ + λ )
1 2 2
fX,Y (u, v) =
2π a c 1 − ρ2

1 [ ]
√ √ √ exp − 2(1−ρ2 ) ((λ − ρα) + α (1 − ρ )) .
1 2 2 2
=
2π a c 1 − ρ2

- 244 -
2.4 Vectores Aleatorios

Entonces, para todo u real,


∫ ∞
fX (u) = fX,Y (u, v)dv
−∞
∫ ∞
1 ( ) 1
= √ √ √ exp − 12 α2 √ √ √
2π a 1 − ρ2 −∞ 2π c 1 − ρ2
[ ]
· exp − 2(1−ρ 2 √c dλ
2 ) (λ − ρα)
1

[ ]
1 [ ( 2
)] ∫ ∞ 1 ( 2
)
= √ √ exp − 12 (u−µ
a
1)
√ √ exp − 12 (λ−ρα)
1−ρ2
dλ .
2π a −∞ 2π 1 − ρ2

Esta última integral vale uno pues el integrando corresponde a la densidad de una
distribución normal de parámetros (ρα, 1 − ρ2 ).
En conclusión, ( )
1 2
fX (u) = √ √ exp − 21 (u−µ a
1)
,
2π a
es decir, X ∼ N (µ1 , a).
Análogamente, Y ∼ N (µ2 , c).

Nota. El tratamiento para las distribuciones marginales en el caso de vectores aleatorios


m-dimensionales (X1 , . . . , Xm ), m ≥ 3, es análogo. Por ejemplo, en el caso continuo con
densidad conjunta f , la densidad marginal de X1 es
∫ ∞ ∫ ∞
fX1 (u) = ··· f (u, x2 , . . . , xm )dx2 · · · dxm ,
−∞ −∞

o la densidad conjunta de (X1 , Xm ) es


∫ ∞ ∫ ∞
fX1 ,Xm (u, v) = ··· f (u, x2 , . . . , xm−1 , v)dx2 · · · dxm−1 .
−∞ −∞

2.4.2 Independencia de variables aleatorias


Vimos en el párrafo anterior que si conocemos la distribución conjunta de un vector aleato-
rio, podemos obtener las distribuciones (marginales) de cada componente del vector.
¿Si conocemos las distribuciones de cada componente del vector, podremos conocer la
distribución conjunta?
La respuesta en general es negativa y la ilustramos en el siguiente ejemplo.

Ejemplo 2.4.13: Se lanzan dos monedas, las cuales son distinguibles, y se definen las
variables aleatorias {
1 si la 1ra moneda sale cara
X=
0 si la 1ra moneda sale sello

- 245 -
2.4 Vectores Aleatorios
{
1 si la 2da moneda sale cara
Y =
0 si la 2da moneda sale sello
Consideremos los siguientes tres casos
(a) los cantos de las monedas están soldados, con las dos “caras” hacia el mismo lado,
(b) los cantos de las monedas están soldados, y las “caras” están opuestas,
(c) se arroja cada moneda separadamente.
En el caso (a) la distribución conjunta de (X, Y ) está dada por la tabla siguiente

X\Y 0 1
0 0.5 0
1 0 0.5
Tabla 2.4.5
En el caso (b) la distribución conjunta de (X, Y ) es

X\Y 0 1
0 0 0.5
1 0.5 0

Tabla 2.4.6
Finalmente, en el caso (c) la distribución conjunta de (X, Y ) resulta

X\Y 0 1
0 0.25 0.25
1 0.25 0.25
Tabla 2.4.7
Además, en los tres casos las distribuciones marginales resultan iguales, con
pX (0) = 0.5, pX (1) = 0.5, pY (0) = 0.5, pY (1) = 0.5.
O sea, este ejemplo muestra que la distribución conjunta contiene más información
que las marginales, pues contiene información sobre la “dependencia” entre las variables.

¿En que casos será posible que el conocimiento de las distribuciones marginales im-
plique el conocimiento de la distribución conjunta? La respuesta es que, cuando las varia-
bles sean “independientes” esto será posible.

Definición 2.4.4: Las variables aleatorias X1 , . . . , Xm , se dice que son independientes,


si su distribución acumulada conjunta se factoriza como producto de sus distribuciones
conjuntas marginales, esto es,
FX1 ,...,Xm (x1 , . . . , xm ) = FX1 (x1 ) · · · FXm (xm ),

- 246 -
2.4 Vectores Aleatorios

para todo x1 , x2 , . . . , xm .
La definición anterior se cumple para ambos casos, discreto y continuo. En el caso de
variables aleatorias discretas (con m = 2), decir que X, Y son independientes equivale a
que
pX,Y (u, v) = pX (u) pY (v), para todo u, v reales.

En el caso en que las variables sean continuas, la independencia de X, Y equivale a

fX,Y (u, v) = fX (u) fY (v), para todo u, v reales.

Por ejemplo, en el caso continuo,


FX,Y (u, v) = P (X ≤ u, Y ≤ v)
∫ u ∫ v
= fX,Y (s, t)dsdt
−∞ −∞
∫ u ∫ v
= fX (s)fY (t)dsdt
−∞ −∞
∫ u (∫ v )
= fX (s) fY (t)dt ds
−∞ −∞
(∫ u ) (∫ v )
= fX (s)ds fY (t)dt
−∞ −∞

= P (X ≤ u) P (Y ≤ v)

= FX (u) FY (v),
es decir, X e Y son independientes.
Los dos resultados siguientes no tienen una demostración elemental, pero pueden con-
sultarse en [7].

Proposición 2.4.4: Las variables aleatorias X1 , . . . , Xm son independientes si y sólo


si, para todo A1 , . . . , Am subconjuntos de R, los sucesos (X1 ∈ A1 ), . . . , (Xm ∈ Am ) son
independientes.

Por ejemplo, si √ X1 , X2 , X3 son independientes, entonces, los sucesos (X1 > 2),
(X2 ∈ {−1, 0.5, 3, 3 7}), (π ≤ X3 < 8) son independientes.

Proposición 2.4.5: Sean X1 , X2 , variables aleatorias independientes, g1 , g2 dos fun-


ciones reales e Y1 , Y2 las variables aleatorias definidas por Y1 = g1 (X1 ); Y2 = g2 (X2 ).
Entonces Y1 e Y2 son independientes.

Por ejemplo, si X1 y X2 son independientes, entonces, X13 y exp(X2 ) son indepen-


dientes.

- 247 -
2.4 Vectores Aleatorios

Más generalmente, si X1 , . . . , Xm son independientes, entonces funciones de “bloques”


disjuntos de las Xi también son independientes.

Por ejemplo, si X1 , X2 , . . . , X12 son independientes, las variables aleatorias


(X1 + X5 + 2X9 )3 , X3 |X8 |, max{X2 , X4 , X7 , X10 }, ln |X12 | son independientes. En este
caso los bloques disjuntos resultan ser (X1 , X5 , X9 ); (X3 , X8 ); (X2 , X4 , X7 , X10 ), X12 y
las funciones gi son:

g1 : R3 → R, g(a, b, c) = (a + b + 2c)3 .
g2 : R2 → R, g(a, b) = a|b|.
g3 : R4 → R, g(a, b, c, d) = max{a, b, c, d}.
g4 : R → R, g(a) = ln |a|.

Ejemplo 2.4.14: Sean X,Y variables aleatorias. Asumamos que la función de cuantı́a
conjunta de (X,Y) está dada por la tabla siguiente.

X\Y 0 1 2
−1 0.05 0.01 0.24
1 0.15 0.35 0.20

Tabla 2.4.8

Entonces

pX (−1) = 0.05 + 0.01 + 0.24 = 0.30,


pX (1) = 0.15 + 0.35 + 0.20 = 0.70

pY (0) = 0.05 + 0.15 = 0.20,


pY (1) = 0.01 + 0.35 = 0.36,
pY (2) = 0.24 + 0.20 = 0.44.

Como pX,Y (−1, 0) = 0.05 y pX (−1) pY (0) = 0.30 · 0.20 = 0.06, entonces X e Y no son
independientes.

Ejemplo 2.4.15: En el esquema Bernoulli de parámetro p, sea X el número del intento


en que se produce el primer éxito, e Y la cantidad de intentos entre el primer y segundo
éxito, es decir, Z = X + Y es el número del intento en que se da el segundo éxito. Veamos
que X e Y son variables aleatorias independientes.
Calculemos pX,Y (m, n), para todo m, n naturales, tales que 1 ≤ m < n.

Notemos que el suceso (X = m, Y = n) es igual al suceso (X = m, Z = m + n), o sea,


este suceso representa el hecho que ocurran éxitos en los intentos m y m + n y fracasos

- 248 -
2.4 Vectores Aleatorios

en los restantes. Ası́,

pX,Y (m, n) = P (X = m, Y = n)
= P (X = m, Z = m + n)
= p2 (1 − p)m+n−2
= [p(1 − p)m−1 ][p(1 − p)n−1 ].

Por lo tanto,
pX,Y (m, n) = pX (m) pY (n),
o sea, X e Y son independientes. Además, se deduce que X tiene la misma distribución
que Y (esta es geométrica de parámetro p). En consecuencia, los tiempos de espera entre
éxitos sucesivos tienen la misma distribución que el tiempo entre el comienzo y el primer
éxito, lo que corresponde a la idea intuitiva de que el proceso no tiene memoria.

Ejemplo 2.4.16: Sea (X,Y) vector aleatorio continuo tal que (X, Y ) ∼ U (G), con
G =]a, b[×]c, d[, es decir,
{
1
área(G) si (u, v) ∈ G
fX,Y (u, v) =
0 e.o.c.

{
1
(b−a)(d−c) si a < u < b, c < v < d
=
0 e.o.c.

Veamos que X e Y son variables aleatorias independientes. Para esto, primeramente,


calculemos las marginales fX ; fY .
∫ ∞ ∫ ∞
fX (u) = fX,Y (u, v)dv, fY (v) = fX,Y (u, v)du.
−∞ −∞

Caso 1: Si u ∈]a,
/ b[, entonces fX,Y (u, v) = 0, para todo v, de donde fX (u) = 0 para
u ∈]a,
/ b[.
Caso 2: Si u ∈]a, b[, entonces fX,Y (u, v) = 0, para todo v ∈] − ∞, c[ ∪ [d, ∞[, de donde

∫ c ∫ d ∫ ∞
1
fX (u) = 0dv + dv + 0dv
−∞ c (b − a)(d − c) d

1
= .
b−a

Por lo tanto, {
1
b−a si a < u < b
fX (u) =
0 e.o.c.

- 249 -
2.4 Vectores Aleatorios

Análogamente, {
1
c−d si c < v < d
fY (v) =
0 e.o.c.

En consecuencia, si (u, v) ∈]a, b[×]c, d[, es decir, a < u < b; c < v < d, se satisface
que ( )( )
1 1 1
fX,Y (u, v) = y fX (u) fY (v) = .
(b − a)(c − d) b−a d−c
También, si (u, v) ∈]a,
/ b[×]c, d[, es decir, si u ∈]a, / b[ ó v ∈]c,/ d[, entonces
fX,Y (u, v) = 0 y, fX (u) = 0 ó fY (v) = 0, por lo que fX (u) fY (v) = 0.
En conclusión, para todo (u, v) ∈ R2 ,
fX,Y (u, v) = fX (u) fY (v),
por lo que X e Y son independientes.

Ejemplo
( ) 2.4.17: Sea (X,Y) vector normal bivariado de parámetros µ = (µ1 , µ2 ) y
Σ = ab cb , con b = 0. Según el Ejemplo 2.4.7, y como ρ = 0, se tiene que, para todo
(u, v) ∈ R2 ,
1 [ { 2
}]
(v−µ2 )2
fX,Y (u, v) = √ √ exp − 12 (u−µ a
1)
+ c
2π a c

[ { }] [ { }]
1 (u−µ1 )2 1 (v−µ2 )2
= √ √ exp − 12 a
√ √ exp − 12 c
2π a 2π c

=fX (u) fY (v),


o sea X e Y son independientes y además X ∼ N (µ1 , a); Y ∼ N (µ2 , c).

Ejemplo 2.4.18: Sean X e Y variables aleatorias independientes, tales que X ∼ P(λ);


Y ∼ P(µ). Encontremos la distribución de Z = X + Y .
Sea m ≥ 0 natural, entonces
pZ (m) = P (Z = m)
= P (X + Y = m).
Como Ω se puede expresar como unión disjunta de sucesos de la forma (Y = r), con
r ∈ N0 , entonces
(∞ )

(X + Y = m) = (X + Y = m) ∩ (Y = r)
r=0


= (X + Y = m, Y = r)
r=0
∪∞
= (X = m − r, Y = r),
r=0

- 250 -
2.4 Vectores Aleatorios

por lo que
(∞ )

pZ (m) = P (X = m − r, Y = r)
r=0


= P (X = m − r, Y = r).
r=0

Por la independencia de X e Y se tiene que los sucesos (X = m − r) y (Y = r) son


independientes, de donde

P (X = m − r, Y = r) = P (X = m − r)P (Y = r)
= pX (m − r)pY (r).

Pero, RecX = N0 , luego pX (m − r) = 0, cuando m − r < 0, es decir, cuando r > m. Por


lo tanto,


m ∞

pZ (m) = pX (m − r)pY (r) + 0
r=0 r=m+1
∑m
λm−r −λ µr −µ
= e e
(m − r)! r!
r=0
1 ∑
m
−(λ+µ) m!
=e µr λm−r
m! (m − r)! r!
r=0
e−(λ+µ)
= (µ + λ)m (por teorema del binomio).
m!

En consecuencia, X + Y tiene distribución Poisson de parámetro λ + µ.

Ejemplo 2.4.19: Sean X e Y variables aleatorias independientes, tales que


X ∼ exp(α); Y ∼ exp(β). Encontremos la distribución de la variable aleatoria
Z = min{X, Y }.
Sea z real, entonces

FZ (z) = P (Z ≤ z)

= P (min{X, Y } ≤ z)

= 1 − P (min{X, Y } > z)

= 1 − P (X > z, Y > z)
(∫ ∞ ) (∫ ∞ )
=1− fX (u)du fY (v)dv , por la independencia de X e Y.
z z

- 251 -
2.4 Vectores Aleatorios

Caso 1: Si z < 0, entonces fX (z) = fY (z) = 0 (pues RecX = RecY = R+ ), por lo que
(∫ 0 ∫ ∞ ) (∫ 0 ∫ ∞ )
FZ (z) = 1 − 0du + αe−αu du 0dv + βe−βv dv
z 0 z 0
= 1 − (0 + 1)(0 + 1)
= 0.

Caso 2: Si z ≥ 0, entonces
(∫ ∞ ) (∫ ∞ )
−αu −βv
FZ (z) = 1 − αe du βe dv
z z
−αz −βz
=1−e e .

En resumen, {
0 si z < 0
FZ (z) =
1 − e−(α+β)z si z ≥ 0
Como FZ es una función continua y derivable, salvo posiblemente en z = 0, entonces

 d
 dz FZ (z) cuando la derivada existe
fZ (z) =


0 e.o.c.

{
(α + β)e−(α+β)z si z ≥ 0
=
0 e.o.c.

En consecuencia, min{X, Y } ∼ exp(α + β).

- 252 -
2.4 Vectores Aleatorios

PROBLEMAS
Problema 2.4.A: La fabricación de un artı́culo tiene 2 etapas independientes. Sea Xj
el número de defectos en la etapa j (j = 1, 2). Suponga que, para i ∈ {0, 1, 2},

pX1 (i) = αi ; pX2 (i) = βi

con α0 + α1 + α2 = 1 = β0 + β1 + β2 .

a) Encuentre la función de distribución conjunta del vector aleatorio (X1 , X2 ).

b) Calcule la probabilidad de tener más defectos en la etapa 2 que en la etapa 1.

c) Sea Z = X2 − X1 . Encuentre la función de distribución de Z.

Problema 2.4.B: Juan y Pedro proyectan encontrarse en un cierto lugar entre las 17:00 y
18:00 horas, comprometiéndose cada uno de ellos a esperar a lo más diez minutos. Suponga
que las llegadas son independientes y tienen distribución uniforme sobre [17, 18].

a) Calcule la probabilidad de que ambos se encuentren.

b) Si Juan fija su hora de llegada en el instante x. ¿Cuál es la probabilidad de que


Pedro lo encuentre?

Problema 2.4.C: Sean X, Y variables aleatorias iid U (0, 1). Halle la distribución de la
variable aleatoria Z = X
Y .

Problema 2.4.D: Sea (X, Y ) vector aleatorio bidimensional con densidad dada por
{
λ2 e−λ(x+y) si (x, y) ∈ R2+
f(X,Y ) (x, y) =
0 e.o.c.

es decir, X e Y son variables aleatorias iid exp(λ).

a) Para α > 0, calcule P (Y ≥ αX).


( )
b) Para t ∈ R, calcule P X+YX
≤t .

X
c) Obtenga una densidad para la variable aleatoria Z = X+Y .

X
Problema 2.4.E: Sean X, Y variables aleatorias iid exp(1). Pruebe que X + Y y Y son
variables aleatorias independientes, además, halle sus distribuciones.

Problema 2.4.F: Sean X1 , . . . , Xn , n ≥ 2, variables aleatorias independientes tales que


Xk ∼ exp(αk ), k = 1, . . . , n.
Sean Y = min{Xi ; 1 ≤ i ≤ n}, Yk = min{Xi ; 1 ≤ i ≤ n, i ̸= k}.

- 253 -
2.4 Vectores Aleatorios
( )

n
a) Pruebe que Y ∼ exp αi , en particular obtenga que Yk ∼ exp(λk ), con
i=1

n
λk = αi .
i=1
i̸=k

αk
b) Pruebe que P (Xk = Y ) = , 1 ≤ k ≤ n.

n
αi
i=1

Problema 2.4.G: Los nodos 1, 2, 3 que muestra la figura, corresponden a componentes


en un circuito eléctrico. Se dice que la componente está fallada si ésta no deja fluir la
corriente eléctrica. Suponga que las componentes se comportan de manera independiente
y que el tiempo que demora en fallar la i–ésima componente se distribuye exponencial con
parámetro αi , i = 1, 2, 3.
Considere la variable aleatoria T = tiempo que transcurre hasta que no fluye corriente
entre A y B.

(a) Encuentre la distribución de probabilidad de T .

(b) Calcule la probabilidad de que en al menos 20 unidades de tiempo fluya corriente


entre A y B.

A 3 B

Problema 2.4.H: Sean X1 , . . . , Xn , n ≥ 2, variables aleatorias iid con densidad común


f y distribución acumulada común F . Si U = min{X1 , . . . , Xn } y V = max{X1 , . . . , Xn },
entonces halle una densidad conjunta para el vector aleatorio (U, V ).

Problema 2.4.I: En el aeropuerto de Chicago se anuncia: El vuelo 032 de aerolı́neas A


con destino a Luxemburgo despegará a las 21:00 hrs. (hora local).
En el aeropuerto de Luxemburgo se anuncia: El vuelo 032 de aerolı́neas A, procedente de
Chicago, llegará a las 14:30 hrs. (hora local).
Asuma que la diferencia horaria entre Chicago y Luxemburgo es de +6 horas y que
por razones técnicas, el avión debe hacer una escala en la ciudad de Reykjavik. Si la
duración del trayecto total se descompone en tres tiempos, asociados a un vector aleatorio
(X, Y, Z), con
X = duración trayecto Chicago - Reykjavik
Y = duración de la escala en Reykjavik
Z = duración trayecto Reykjavik - Luxemburgo

- 254 -
2.4 Vectores Aleatorios

y se acepta que las variables aleatorias X, Y y Z, medidas en minutos, son independientes


y se distribuyen N (240, 252 ), N (45, 102 ) y N (420, 402 ) respectivamente, calcule la proba-
bilidad que la hora de llegada a Luxemburgo difiera de la hora anunciada en menos de 15
minutos.
Nota: Es posible verificar que X + Y + Z ∼ N (240 + 45 + 420, 252 + 102 + 402 ).

Problema 2.4.J: Sobre un segmento OA de R, de largo a, se eligen independientemente


y uniformemente dos puntos P1 y P2 . Se designa por X1 y X2 los largos de los segmentos
OP 1 y OP 2 , respectivamente (o sea, X1 , X2 son iid U (0, a)). También, se denota por
Y1 el punto más cercano a O y por Y2 el punto más cercano a A. Finalmente, designamos
por M1 y M2 los largos de los segmentos OY 1 y OY 2 , respectivamente.

a) Determine la función de distribución acumulada para la variable aleatoria


M = distancia entre los puntos P1 y P2 .

b) Determine una densidad para la variable aleatoria M .

c) Calcule la probabilidad que con los tres segmentos OY 1 , Y1 Y2 y Y2 A se pueda


construir un triángulo.

- 255 -
2.5. DISTRIBUCIÓN DE VECTORES ALEATORIOS

2.5 Distribución de Vectores Aleatorios

En esta sección, primeramente, veremos como calcular la distribución de variables aleato-


rias del tipo Z = g(X1 , . . . , Xn ), donde g es una función de Rn en R y además se conoce
la distribución conjunta de (X1 , . . . , Xn ).

2.5.1 Suma de variables (caso discreto)


Supongamos que X e Y son variables aleatorias discretas con recorridos sobre los enteros y
con función de cuantı́a conjunta p(m, n). Encontremos la función de cuantı́a de la variable
Z = g(X, Y ), donde g : R2 → R está definida por g(u, v) = u + v, es decir, Z = X + Y .
Si r es entero y como Ω es unión disjunta de sucesos del tipo (Y = n), con n ∈ RecY ,
entonces

(Z = r) = (Z = r) ∩ Ω
( )

= (X + Y = r) ∩ (Y = n)
n∈RecY

= (X + Y = r, Y = n)
n∈RecY

= (X = r − n, Y = n).
n∈RecY

Ası́,

pX+Y (r) = P (X + Y = r)
= P (Z = r)
( )

=P (X = r − n, Y = n)
n∈RecY

= P (X = r − n, Y = n)
n∈RecY

= p(r − n, n).
n∈RecY

En el caso en que X e Y sean no negativas, p(r − n, n) = 0, para n > r. Luego



r
pX+Y (r) = p(r − n, n).
n=0

En el caso en que X e Y sean independientes,



pX+Y (r) = pX (r − n)pY (n).
n∈RecY

En el caso en que X e Y sean no negativas e independientes,



r
pX+Y (r) = pX (r − n)pY (n).
n=0

- 256 -
2.5 Distribución de Vectores Aleatorios

Ejemplo 2.5.1: Sean X e Y variables aleatorias independientes tales que:

m pX (m) n pY (n)
0 0.1 0 0.2
1 0.3 1 0.3
2 0.4 2 0.3
3 0.2 3 0.2

Tabla 2.5.1 Tabla 2.5.2

Entonces, Rec(X + Y ) = {0, 1, 2, 3, 4, 5, 6} y

pX+Y (0) = pX (0 − 0)pY (0) = 0.1 · 0.2 = 0.02,

pX+Y (1) = pX (1 − 0)pY (0) + pX (1 − 1)pY (1)


= 0.3 · 0.2 + 0.1 · 0.3
= 0.09,

pX+Y (2) = pX (2 − 0)pY (0) + pX (2 − 1)pY (1) + pX (2 − 2)pY (2)


= 0.4 · 0.2 + 0.3 · 0.3 + 0.1 · 0.3
= 0.2,

pX+Y (3) = pX (3 − 0)pY (0) + pX (3 − 1)pY (1) + pX (3 − 2)pY (2) + pX (3 − 3)pY (3)
= 0.2 · 0.2 + 0.4 · 0.3 + 0.3 · 0.3 + 0.1 · 0.2
= 0.27,

pX+Y (4) = pX (4 − 0)pY (0) + pX (4 − 1)pY (1) + pX (4 − 2)pY (2) + pX (4 − 3)pY (3)
+ pX (4 − 4)pY (4)
= 0 · 0.2 + 0.2 · 0.3 + 0.4 · 0.3 + 0.3 · 0.2 + 0.1 · 0
= 0.24,

pX+Y (5) = pX (5 − 0)pY (0) + pX (5 − 1)pY (1) + pX (5 − 2)pY (2) + pX (5 − 3)pY (3)
+ pX (5 − 4)pY (4) + pX (5 − 5)pY (5)
= 0 · 0.2 + 0 · 0.3 + 0.2 · 0.3 + 0.4 · 0.2 + 0.3 · 0 + 0.1 · 0
= 0.14.

Análogamente, se obtiene que

pX+Y (6) = 0 + 0 + 0 + 0.2 · 0.2 + 0 + 0 + 0


= 0.04.

- 257 -
2.5 Distribución de Vectores Aleatorios

2.5.2 Suma de variables (caso continuo)

Sean X e Y variables aleatorias continuas con función de densidad conjunta f . Encon-


tremos la densidad de la variable aleatoria Z = X + Y .
Primeramente, calculemos la función de distribución acumulada de Z, FZ .
Sea ξ ∈ R,

FZ (ξ) = P (X + Y ≤ ξ)
= P ((X, Y ) ∈ Aξ ) con Aξ = {(u, v) ∈ R2 : u + v ≤ ξ}
∫∫
= f (u, v)dudv.

La región sombreada en la figura siguiente muestra al conjunto Aξ .

0 ξ u
u+v=ξ

Figura 2.5.1

Haciendo el cambio de variables s = u; t = u + v, cuyo jacobiano es 1, se tiene que


∫∫ ∫ ∞ (∫ ξ−u )
f (u, v)dudv = f (u, v)dv du
Aξ −∞ −∞
∫ ∞ (∫ ξ )
= f (s, t − s)dt ds
−∞ −∞
∫ ξ (∫ ∞ )
= f (s, t − s)ds dt.
−∞ −∞

∫∞
Derivando respecto de ξ (la derivada existe si −∞ f (s, t − s)ds es continua en ξ) se tiene
que

d
fX+Y (ξ) = fZ (ξ) = FZ (ξ)

∫ ∞
= f (s, ξ − s)ds.
−∞

Este resultado es análogo al obtenido en el caso discreto.

- 258 -
2.5 Distribución de Vectores Aleatorios

Si X e Y son independientes, entonces


∫ ∞
fX+Y (ξ) = f (s, ξ − s)ds
∫−∞

= fX (s) fY (ξ − s)ds.
−∞

Esta última integral es conocida como la convolución de las funciones fX y fY , y se anota


fX ∗ fY .
Si X e Y son no negativas, entonces
∫ ∞
fX+Y (ξ) = f (s, ξ − s)ds
−∞
∫ ξ
= f (s, ξ − s)ds.
0

Si X e Y son no negativas e independientes, entonces


∫ ξ
fX+Y (ξ) = fX (s)fY (ξ − s)ds.
0

Ejemplo 2.5.2: Sean X e Y variables aleatorias independientes, tales que X ∼ exp(α);


Y ∼ exp(β) y α ̸= β. Entonces, para z > 0,
∫ z
fX+Y (z) = fX (s)fY (z − s)ds
∫ z
0

= αe−αs βe−β(z−s) ds
0
∫ z
= αβe−βz e−(α−β)s ds
0
−βz 1
= αβe (1 − e−(α−β)z ), si α ̸= β
α−β
αβ
= (e−βz − e−αz ) .
α−β

Es decir, cuando α ̸= β

 αβ (e−βz − e−αz ), si z > 0
fX+Y (z) = α − β

0 e.o.c.

que es el mismo resultado obtenido en el Ejemplo 2.4.4


En el caso en que α = β resulta que
∫ z
−βz
αβe e−(α−β)s ds = β 2 e−βz z,
0

- 259 -
2.5 Distribución de Vectores Aleatorios

de donde  2
 β z 2−1 e−βz , si z > 0
fX+Y (z) = Γ(2)

0 e.o.c.

En consecuencia, si X ∼ exp(β); Y ∼ exp(β) y X e Y son independientes, entonces


X + Y ∼ Gamma(2, β).
Más aún, como veremos más adelante, si X ∼ Gamma(β, α) e Y ∼ Gamma(λ, α) y X
e Y son independientes, entonces X + Y ∼ Gamma(β + λ, α).

Ejemplo 2.5.3: Sean X e Y variables aleatorias normales e independientes. Verifique-


mos que la suma X + Y también es normal.
En efecto, supongamos que X ∼ N (0, σ12 ); Y ∼ N (0, σ22 ). Entonces, para todo z real,

∫ ∞
fX+Y (z) = fX (s)fY (z − s)ds
∫−∞
∞ ( ) ( )
1 2 1 (z−s)2
= √ exp − 12 σs 2 √ exp − 12 σ22
ds
−∞ 2π σ1 1 2π σ2
∫ ∞ [ ( )]
1 2 2
= exp − 21 σs 2 + (z−s)
σ22
ds.
2π σ1 σ2 −∞ 1

Pero,

s2 (z − s)2 s2 z2 s2 2zs
2 + 2 = 2 + 2 + 2 − 2
σ1 σ2 σ1 σ2 σ2 σ2

s2 (σ12 + σ22 ) z 2 2zs


= 2 2 + 2− 2
σ1 σ2 σ2 σ2

s2 (σ12 + σ22 ) σ12 z 2 σ12 z 2 z2 2zs


= 2 2 + 2 2 2 − 2 2 2 + 2 − 2
σ1 σ2 σ2 (σ1 + σ2 ) σ2 (σ1 + σ2 ) σ2 σ2

( )
1 s2 (σ12 + σ22 ) σ12 z 2 1
= 2 2 + 2 2 − 2zs + 2 z2
σ2 σ1 σ1 + σ2 σ1 + σ22

( √ )2
1 s σ12 + σ22 σ1 z 1
= 2 −√ 2 + 2 z2,
σ2 σ1 2
σ1 + σ2 σ1 + σ22

de donde,
[ ( )] [ ( √ )2 ]
s2 [ ]
(z−s)2 s σ12 +σ22
exp − 12 + = exp − 12 σ12 − √ σ21 z 2 exp − 12 1
z2 .
σ12 σ22 2
σ1 σ1 +σ2 σ12 +σ22

- 260 -
2.5 Distribución de Vectores Aleatorios

Por lo tanto,
[ ( √ )2 ]
1 [ ]∫ ∞
s σ12 +σ22
fX+Y (z) = exp − 21 1
σ12 +σ22
z2 exp − 21 1
σ22 σ1 − √ σ21 z ds.
2πσ1 σ2 −∞ σ1 +σ22


s σ12 +σ22
Haciendo el cambio de variables t = σ1 − √ σ21 z 2 , cuyo diferencial es
σ1 +σ2
√ 2 2
σ1 +σ2
dt = σ1 ds, la última integral resulta ser igual a

∫ ∞ [ ] √ ∫ ∞ [ ]
σ1 σ1 1
√ exp − 21 1 2
σ22
t dt = √ 2πσ2 √ exp − 12 1 2
σ22
t dt
−∞ σ1 + σ22 σ12 + σ22 −∞ 2πσ2

σ1 √
=√ 2π σ2 1,
σ12 + σ22
1
ya que √2πσ exp[− 12 1 2
σ22
t ] es la densidad de una normal (0, σ22 ).
2
En consecuencia,
1 [ ] σ1 √
fX+Y (z) = exp − 12 1
σ12 +σ22
z2 √ 2 2πσ2
2πσ1 σ2 σ1 + σ22

1 [ ]
=√ √ 2 2
exp − 21 1
σ12 +σ22
z2 ,
2π σ1 + σ2
o sea X + Y ∼ N (0, σ12 + σ22 ).
El resultado anterior también es válido si las medias no son nulas, es decir, si
X ∼ N (µ1 , σ12 ); Y ∼ N (µ2 , σ22 ) y X e Y son independientes, entonces
X + Y ∼ N (µ1 + µ2 , σ12 + σ22 ).
Para verificarlo basta usar un cambio de variable del tipo u = s − µ1 y repetir el procedi-
miento anterior.
Más aún, inductivamente se verifica que, si X1 , . . . , Xn son independientes y
Xi ∼ N (µi , σi2 ), i = 1, . . . , n, entonces X1 + · · · + Xn ∼ N (µ1 + · · · + µn , σ12 + · · · + σn2 ).

2.5.3 Distribución del cuociente


Sean X e Y variables aleatorias continuas con función de densidad conjunta f y Z la
Y
variable aleatoria cuociente entre X e Y , es decir, Z = X . Similar al caso de la suma de
variables aleatorias continuas, encontremos la función de distribución acumulada de Z y
Y
luego la derivamos para obtener la densidad de X .
Sea ξ real,
FZ (ξ) = P (Z ≤ ξ)
Y
= P(X ≤ ξ)
= P ((X, Y ) ∈ Bξ ),

- 261 -
2.5 Distribución de Vectores Aleatorios
{ }
donde Bξ = (u, v) ∈ R2 : uv ≤ ξ .
Nótese que, en el caso en que u < 0, uv ≤ ξ equivale a v ≥ ξu, y en el caso en que
u > 0, uv ≤ ξ equivale a que v ≤ ξu. Luego, Bξ se puede escribir como la unión disjunta,
Bξ = Bξ1 ∪ Bξ2 , donde

Bξ1 = {(u, v) ∈ R2 : u < 0 y v ≥ ξu},


Bξ2 = {(u, v) ∈ R2 : u > 0 y v ≤ ξu}.

Las regiones sombreadas de las Figuras 2.5.2 y 2.5.3 muestran al conjunto Bξ1 , según
sea ξ > 0 ó ξ < 0.

v=ξu

Figura 2.5.2: Caso ξ > 0

v=ξu

Figura 2.5.3: Caso ξ < 0

y las regiones sombreadas de las Figuras 2.5.4 y 2.5.5 muestran al conjunto Bξ2 según sea
ξ > 0 ó ξ < 0.

- 262 -
2.5 Distribución de Vectores Aleatorios

v=ξu

0 v

Figura 2.5.4: Caso ξ > 0

0 u

v=ξu

Figura 2.5.5: Caso ξ < 0


Ası́,

FZ (ξ) = P ((X, Y ) ∈ Bξ )
= P ((X, Y ) ∈ Bξ1 ) + P ((X, Y ) ∈ Bξ2 )
∫∫ ∫∫
= f (u, v)dudv + f (u, v)dudv.
Bξ1 Bξ2

Si en las integrales anteriores hacemos el cambio de variables s = u; t = uv , cuyo jacobiano


es
1 0
−1 ( )−1
1
v 1 = = u = s,
− 2 u
u u
se obtiene que
∫∫ ∫ 0 (∫ ∞ )
f (u, v)dudv = f (u, v)dv du
Bξ1 −∞ ξu
∫ 0 (∫ −∞ )
= sf (s, st)dt ds
−∞ ξ
∫0 (∫ ξ )
= (−s)f (s, st)dt ds
−∞ −∞

- 263 -
2.5 Distribución de Vectores Aleatorios

y
∫∫ ∫ ∞ (∫ ξu )
f (u, v)dudv = f (u, v)dv du
Bξ2 0 −∞
∫ ∞ (∫ ξ )
= sf (s, st)dt ds.
0 −∞

Por lo tanto,
∫ 0 (∫ ξ ) ∫ ∞ (∫ ξ )
FZ (ξ) = (−s)f (s, st)dt ds + sf (s, st)dt ds
−∞ −∞ 0 −∞
∫ ξ (∫ 0 ∫ ∞ )
= (−s)f (s, st)ds + sf (s, st)ds dt
−∞ −∞ 0
∫ ξ (∫ ∞ )
= |s|f (s, st)ds dt.
−∞ −∞

Finalmente, derivando (bajo el supuesto de continuidad de f ) respecto de ξ obtenemos


∫ ∞
d
FZ (ξ) = |s|f (s, ξs)ds,
dξ −∞
o sea, ∫ ∞
f X (ξ) = |s|f (s, ξs)ds.
Y
−∞
En particular, si X e Y son independientes,
∫ ∞
f X (ξ) = |s|fX (s)fY (ξs)ds.
Y
−∞

Ejemplo 2.5.4: Sean X e Y variables aleatorias independientes y normales estándar,


es decir, X ∼ N (0, 1); Y ∼ N (0, 1). Entonces,
∫ ∞
1 ( ) 1 ( )
f X (ξ) = |s| √ exp − 12 s2 √ exp − 12 (ξs)2 ds.
Y
−∞ 2π 2π
Como el integrando es una función par,
∫ ∞
1 [ ]
f X (ξ) = 2 · s exp − 21 (1 + ξ 2 )s2 ds.
Y 2π 0
Haciendo el cambio de variable w = s2 , cuyo diferencial es dw = 2sds, se obtiene que

∫ ∞
1 ( )
f X (ξ) = exp − 12 (1 + ξ 2 )w dw
Y 2π 0
∫ ∞
1 1 1 ( 1 )
= · 1 (1 + ξ 2
) exp − 2 (1 + ξ 2
)w dw
2π 2 (1 + ξ 2 ) 0 2
1
= · 1,
π(1 + ξ 2 )

- 264 -
2.5 Distribución de Vectores Aleatorios

pues el integrando corresponde a la densidad de una distribución exponencial de parámetro


λ = 21 (1 + ξ 2 ).
En consecuencia, X Y tiene distribución Cauchy (0, 1).

Ejemplo 2.5.5: Sean X e Y variables aleatorias independientes, cada una con dis-
tribución exponencial de parámetro 1. Entonces, como X e Y son no negativas,

∫ ∞
f X (ξ) = |s|fX (s)fY (ξs)ds
∫−∞
Y

= sfX (s)fY (ξs)ds.
0

Ahora, si ξ ≤ 0, fY (ξs) = 0, para todo s > 0, o sea,

f X (ξ) = 0, para todo ξ < 0.


Y

En el caso en que ξ > 0,


∫ ∞ ∫ ∞
sfX (s)fY (ξs)ds = s exp(−s) exp(−ξs)ds
0
∫0 ∞
= s exp[−(1 + ξ)s]ds
0
∫ ∞
1 (1 + ξ)2 2−1
= 2
s exp[−(1 + ξ)s]ds
(1 + ξ) 0 Γ(2)
1
= 1,
(1 + ξ)2

pues el integrando corresponde a la densidad de una distribución Gamma (2, 1 + ξ).


En conclusión, 
0, si ξ ≤ 0
f X (ξ) = 1
Y  si ξ > 0
(1 + ξ)2

Ahora queremos ver como calcular la distribución conjunta de un vec-


tor aleatorio continuo del tipo (Z1 , . . . , Zn ), donde Zi = gi (X1 , . . . , Xn ), con
gi : Rn → R, y además se conoce la distribución conjunta de (X1 , . . . , Xn ).
Por ejemplo,

a) Si X1 , X2 son independientes y normales (0, 1), encontrar la distribución del vector


(2X1 + X2 , −3X1 + 5X2 ). En este caso, la distribución conjunta de (X1 , X2 ) es

fX1 ,X2 (u, v) = fX1 (u)fX2 (v)


1 { }
= exp − 12 (u2 + v 2 ) , para todo u, v reales,

- 265 -
2.5 Distribución de Vectores Aleatorios

las funciones gi , i = 1, 2, son


g1 (u, v) = 2u + v, g2 (u, v) = −3u + 5v,
y
(Z1 , Z2 ) = (2X1 + X2 , −3X1 + 5X2 ).

O también, encontrar la densidad del vector (R, θ), con R = X2 + Y 2 y
 (Y )

arctan X si X >0

arctan ( Y ) + π

si X <0
θ= π X

 signo (Y ) si X = 0, Y ̸= 0

 2
0 si X = 0, Y = 0

b) Si X1 , X2 son independientes
( y exponenciales
) de parámetro 1, encontrar la dis-
X1
tribución del vector X1 + X2 , X2 .
En este caso, la densidad conjunta de (X1 , X2 ) es
fX1 ,X2 (u, v) = fX1 (u)fX2 (v)
{
e−(u+v) si u > 0, v > 0
=
0 e.o.c.
las funciones gi , i = 1, 2 son
u
g1 (u, v) = u + v, g2 (u, v) = ,
v
y ( )
X1
(Z1 , Z2 ) = X1 + X2 , .
X2
c) Si X1 , X2 son independientes
√y uniformes (0, 1), encontrar la distribución del vector
( )
(R cos Θ, R sin Θ), con R = 2 ln 1−X 1
1
; Θ = π(2X2 − 1).

En este caso, la densidad conjunta de (X1 , X2 ) está dado por


{
1 si 0 < u < 1, 0 < v < 1
fX1 ,X2 (u, v) =
0 e.o.c.
las funciones gi , i = 1, 2 son definidas por
√ ( )
g1 (u, v) = 2 ln 1−u cos π(2v − 1),
1

√ ( )
g2 (u, v) = 2 ln 1
1−u sin π(2v − 1),

y
(√ √ )
( ) ( )
(Z1 , Z2 ) = 2 ln 1
1−X1 cos π(2X2 − 1), 2 ln 1
1−X1 sin π(2X2 − 1) .

- 266 -
2.5 Distribución de Vectores Aleatorios

d) Si X1 , X2 son independientes y X1 ∼ Gamma(a, λ), X2 ∼ Gamma(b, λ), encontrar


bX1
la distribución de la variable aleatoria F = aX 2
.
En este caso, la densidad conjunta de (X1 , X2 ) es

fX1 ,X2 (u, v) = fX1 (u)fX2 (v)


{ a
λ
ua−1 e−λu λb
v b−1 e−λv si u > 0, v > 0
= Γ(a) Γ(b)
0 e.o.c.

las funciones gi , i = 1, 2, que se pueden considerar son


bu
g1 (u, v) = , g2 (u, v) = v,
av
y ( )
bX1
(Z1 , Z2 ) = , X2 .
aX2
bX1
Para encontrar la distribución de la variable aleatoria F = aX2 , se calcula la primera
distribución marginal de (Z1 , Z2 ).

El siguiente teorema lo enunciamos en el caso bidimensional, pero al igual que la mayo-


rı́a de los conceptos tratados en esta sección, puede ser extendido al caso n-dimensional,
n > 2, sin más dificultad que las de tipo notacional.

Teorema 2.5.1: (de transformación de variables) Sea (X1 , X2 ) vector aleatorio y


supongamos que:
• (X1 , X2 ) es continuo con densidad conjunta f y G0 es conjunto abierto de R2 tal
que P ((X1 , X2 ) ∈ G0 ) = 1.
• g1 y g2 son funciones de R2 en R y G es un conjunto abierto de R2 , de modo que la
función g : G0 → G definida por g(u, v) = (g1 (u, v), g2 (u, v)) es biyección.
• La inversa (h1 , h2 ) = h = g −1 satisface que el jacobiano es no nulo en todo punto de
G, es decir, para todo (x, y) ∈ G,
∂h1 ∂h1
(x, y) (x, y)
∂x ∂y
J(h(x, y)) = ̸= 0.
∂h2 ∂h2
(x, y) (x, y)
∂x ∂y

Recordar que el jacobiano de g −1 en (x, y) es igual al inverso multiplicativo del


jacobiano de g en (u, v) = h−1 (x, y). Esto es,
−1
∂g1 ∂g1
(u, v) (u, v)
∂u ∂v
J(h(x, y)) = .
∂g2 ∂g2
(u, v) (u, v)
∂u ∂v

- 267 -
2.5 Distribución de Vectores Aleatorios

Entonces, una densidad para el vector aleatorio (Z1 , Z2 ) = (g1 (X1 , X2 ), g2 (X1 , X2 )) está
dada por {
f (h(x, y))|J(h(x, y))| si (x, y) ∈ G
fZ1 ,Z2 (x, y) =
0 e.o.c.
Demostración: Sea A ⊂ R2 ,

P ((Z1 , Z2 ) ∈ A) = P (g(X1 , X2 ) ∈ A)
= P ((X1 , X2 ) ∈ g −1 (A))
= P ((X1 , X2 ) ∈ h(A))
∫∫
= f (u, v)dudv.
h(A)∩G0

Realizando (en la última integral) el cambio de variables x = g1 (u, v); y = g2 (u, v), cuyo
jacobiano es J(h(x, y)), se obtiene
∫∫ ∫∫
f (u, v)dudv = f (u, v)dudv,
h(A)∩G0 h(A∩G)
∫∫
= f (h(x, y))|J(h(x, y))|dxdy
∫∫ A∩G

= f (h(x, y))|J(h(x, y))|IG (x, y)dxdy,


A

pues h(G) = G0 y g −1 (A) ∩ g −1 (G) = g −1 (A ∩ G).


En consecuencia, “para todo” A ⊂ R2 ,
∫∫
P ((Z1 , Z2 ) ∈ A) = f (h(x, y))|J(h(x, y))|IG (x, y)dxdy,
A

o sea, {
f (h(x, y))|J(h(x, y))| si (x, y) ∈ G
fZ1 Z2 (x, y) =
0 e.o.c.
es una densidad para el vector aleatorio (Z1 , Z2 ).

Ejemplo 2.5.6: Sean X1 , X2 iid N (0, 1), esta notación significa que X1 y X2 son inde-
pendientes (i) y con igual distribución (id) normal (0, 1).
Encontremos una densidad para el vector aleatorio (Z1 , Z2 ) definido por
(2X1 + X2 , −3X1 + 5X2 ).
Por ser X1 , X2 iid N (0, 1), se tiene que, para todo (u, v) ∈ R2 ,

fX1 ,X2 (u, v) = fX1 (u)fX2 (v)


1 { }
= exp − 12 (u2 + v 2 ) ,

de donde
G0 = {(u, v) ∈ R2 : fX1 ,X2 (u, v) > 0} = R2 .

- 268 -
2.5 Distribución de Vectores Aleatorios

Además, g : G0 → R2 , definida por g(u, v) = (2u + v, −3u + 5v) es función inyectiva y


su recorrido es G = R2 .
( 5+ v; 1 y =3 −3u + x − 13
5 1 3 2
Ası́, si x = 2u 5v,
) entonces u = 13 y y v = 13 x + 13 y, es
decir, h(x, y) = 13 x − 13 y, 13 x + 13 y . Finalmente,
2

5
1
− 13
13
J(h(x, y)) =

3 2
13 13
1
=
13
̸= 0.

Entonces, el teorema de transformación de variables implica que, para todo


(x, y) ∈ G = R2 ,

1
f(2X1 +X2 ,−3X1 +5X2 ) (x, y) = fX1 ,X2 (h(x, y))
13

( )
1 5 1 3 2
= fX ,X x− y, x+ y
13 1 2 13 13 13 13

1 1 { [( )2 ( )2 ]}
= exp − 12 135
x− 1
13 y + 3
13 x+ 2
13 y .
13 2π
( )
2 −3
Nótese que, si A = , entonces
1 5
( )( )( )
t t 2 1 1 0 2 −3
A I2 A = A A =
−3 5 0 1 1 5

( )
5 −1
= ,
−1 34

y det(At A) = 132 .
Además,
 34 1 
 132 132 
(At A)−1 =



1 5
132 132
y
 34 1 
( )2 ( )2
 132 132  5 1 3 2
(x y) 

 (x
 y) =t
x− y + x+ y .
1 5 13 13 13 13
132 132

- 269 -
2.5 Distribución de Vectores Aleatorios

En consecuencia, para todo (x, y) ∈ R2 ,

1 1 { }
f(2X1 +X2 ,−3X1 +5X2 ) (x, y) = √ √ exp − 12 (x y)Σ−1 (x y)t
( 2π)2 detΣ
( )
5 −1
con Σ = At I2 A = , o sea,
−1 34

(2X1 + X2 , −3X1 + 5X2 ) ∼ N ((0, 0), Σ).

En general, si (X1 , X2 ) ∼ N ((µ1 , µ2 ), Σ) y (Z1 , Z2 ) = (X1 X2 )A, con A matriz de 2 × 2


con determinate no nulo, entonces

(Z1 , Z2 ) ∼ N ((µ1 , µ2 )A, At ΣA).

Ejemplo(2.5.7: Sean) X1 , X2 iid exp(1). Encontremos una densidad para el vector


aleatorio X1 + X2 , X
X2 .
1

Por ser X1 , X2 iid exp(1),

fX1 ,X2 (u, v) = fX1 (u)fX2 (v)

{
exp[−(u + v)] si u > 0, v > 0
=
0 e.o.c.

y
G0 = {(u, v) ∈ R2 : fX1 ,X2 (u, v) > 0} = R2+ .
( )
Además, g : G0 → R2 , definida por g(u, v) = u + v, uv es función inyectiva.
xy
De esta forma, si x = u + v; y = uv , entonces u = y+1 y v = y+1x
, de donde el
( )
xy
recorrido de g es G = R2+ y h(x, y) = y+1 , y+1 .
x

Finalmente, para todo (x, y) ∈ G = R2+ ,

y x
y+1 (y + 1)2
J(h(x, y)) =
1 −x
y+1 (y + 1)2
−xy x
= 3

(y + 1) (y + 1)3
x
=−
(y + 1)2
̸= 0.

- 270 -
2.5 Distribución de Vectores Aleatorios

Observar que

∂ ∂
(u + v) (u + v) 1 1
∂u ∂v
=
∂ (u) ∂ (u) 1

u
∂u v ∂v v v v2
u 1
=− −
v2 v
−(u + v)
=
v2
1
= −x .
(y+1)2

Por lo tanto, teorema de transformación de variables implica que



f −x

X1 ,X2 (h(x, y))
si (x, y) ∈ G = R2+
f( )
X1 (x, y) = (y + 1)2
X1 +X2 , X 
2 0 e.o.c.

 ( ) x
fX xy x
1 ,X2 y+1 , y+1 (y + 1)2
si x > 0, y > 0
=
0 e.o.c.

[ ( )] x
 exp − xy
− x
si x > 0, y > 0
y+1 y+1 (y + 1)2
=
0 e.o.c.

x
 exp(−x) si x > 0, y > 0
2
= (y + 1)
0 e.o.c.

Nótese que

f( X
) (x, y) = fX1 +X2 (x)f X1 (y)
X1 +X2 , X1 X2
2

con
{
x exp(−x) si x > 0
fX1 +X2 (x) =
0 e.o.c.
y 
1
si y > 0
f X1 (y) = (1 + y)2
X2 
0 e.o.c.
X1
O sea, X1 + X2 y X2 son independientes.

- 271 -
2.5 Distribución de Vectores Aleatorios

Ejemplo 2.5.8: Sea (X1 , X2 ) vector aleatorio con densidad conjunta dada por
{
120 u (v − u) (1 − v) si 0 < u < v < 1
fX1 ,X2 (u, v) =
0 e.o.c.

Verifiquemos que las variables aleatorias X


X2 y X2 son independientes.
1

X1
Para verificar la independencia encontremos la densidad conjunta del vector ( X 2
, X2 ).
En este caso G0 = {(u, v) ∈ R2 : fX1 ,X2 (u, v) > 0} = {(u, v) ∈ R2 : 0 < u < v < 1} y la
función g : G0 → R2 definida por g(u, v) = ( uv , v) es inyectiva. Además, si x = uv ; y = v,
entonces u = xy; v = y, de donde el recorrido de g es G = {(x, y) : 0 < xy < y < 1} =
]0, 1[×]0, 1[ y h(x, y) = (xy, y).
Finalmente, para todo (x, y) ∈ G,

y x
J(h(x, y)) =
0 1
=y
̸= 0.

En consecuencia, el teorema de transformación de variables implica que


{
fX1 ,X2 (h(x, y)) |y| si (x, y) ∈ G
f( X1 ,X ) (x, y) =
X2 2 0 e.o.c.

{
y fX1 ,X2 (xy, y) si 0 < x < 1 , 0 < y < 1
=
0 e.o.c.

{
y 120 x y (y − xy) (1 − y) si 0 < x < 1 , 0 < y < 1
=
0 e.o.c.

{
6 x (1 − x) 20 y 3 (1 − y) si 0 < x < 1 , 0 < y < 1
=
0 e.o.c.

= f X1 (x) fX2 (y),


X2

con {
6 x (1 − x) si 0 < x < 1
f X1 (x) =
X2 0 e.o.c.
y {
20 y 3 (1 − y) si 0 < y < 1
fX2 (y) =
0 e.o.c.
X1
Por lo tanto, X2 y X2 son independientes.

- 272 -
2.5 Distribución de Vectores Aleatorios

Ejemplo
√ 2.5.9: Sean X, Y variables aleatorias iid U (0, 1). Supongamos que definimos
( )
1
R = 2 ln 1−X y Θ = π(2Y − 1).

(a) Verifiquemos que Θ tiene distribución uniforme sobre ] − π, π[ y R distribución


Rayleigh, es decir, la densidad de R es:
{ r2
re− 2 si r > 0
fR (r)
0 e.o.c.

(b) Mostremos que Z y W son iid N (0, 1), donde Z = R cos Θ y W = R sin Θ.

Observación 2.5.1: Este resultado es de interés en la simulación de variables aleatorias


independientes y normales, pues indica como transformar números “pseudo aleatorios”
(simulación de variables aleatorias independientes U (0, 1) generadas por el computador).
En efecto,

(a) Sea r > 0. Desde que P (1 − X > 0) = 1, resulta que

(√ )
( )
FR (r) = P (R ≤ r) = P 2 ln 1
1−X ≤r
( ( ) r2 )
= P ln 1−X ≤
1
2
( 2
)
− r2
=P e ≤1−X
( 2
)
− r2
=P X ≤1−e .

2
( 2
)
− r2 − r2
= 1 − e−r , o sea,
2
Pero, 0 < 1 − e < 1, por lo que P X ≤ 1 − e

{
0 si r ≤ 0
FR (r) = 2
− r2
1−e si r > 0

Como FR es continua y derivable (salvo posiblemente en r = 0), entonces


{
0 si r ≤ 0
fR (r) = r2
re− 2 si r > 0.

θ
π+1
También, para θ ∈] − π, π[, 0 < ≤ 1, por lo que
2

- 273 -
2.5 Distribución de Vectores Aleatorios

( )
FΘ (θ) = P (Θ ≤ θ) = P 2Y − 1 ≤ πθ
( )
θ
+1
=P Y ≤ 2 π

θ 1
= + .
2π 2

Además, FΘ (θ) = 0 si θ ≤ −π y FΘ (θ) = 1 si θ > π (pues en el primer caso


θ θ
+1 +1
π
2 ≤ 0 y en el segundo π
2 > 1). En resumen,


 si θ ≤ −π
0 θ
+1
FΘ (θ) =

π
si − π < θ < π

1
2
si θ ≥ π

Como FΘ es continua y derivable (salvo posiblemente en θ = −π y θ = π), entonces


{
1
si − π < θ ≤ π
fΘ (θ) = 2π
0 e.o.c.
√ ( )
1
(b) Las variables aleatorias X, Y son independientes, luego 2 ln 1−X y
π(2Y − 1) son independientes. Por lo tanto,
{ 2
r − r2
2π e si r > 0, −π < θ ≤ π
fR,Θ (r, θ) = fR (r) fΘ (θ) =
0 e.o.c.

Sean G0 = {(r, θ) ∈ R2 : r > 0, −π < θ < π} y G = R2 . Entonces, la función


g : G0 → G definida por g(r, θ) = (r cos(θ), r sin(θ)) es una biyección (para pro-
bar la epiyectividad
√ de g puede usarse el teorema de la función implı́cita), además
−1 2 2
g (a, b) = ( a + b , h(a, b)) con:
( )
h(a, b) = arctan ab si a > 0 , b ≥ 0,
(b) π
h(a, b) = arctan a + 2 si a < 0 , b > 0,
(b)
h(a, b) = − arctan a si a > 0 , b < 0,
(b) π
h(a, b) = − arctan a − 2 si a < 0 , b < 0,
h(a, b) = π2 signo(b) si a = 0 , b ̸= 0,
h(0, 0) =0.

Además, el jacobiano de g −1 en todo punto (a, b) ∈ G es igual a √ 1


a2 +b2
, lo cual es
diferente de cero.

Por último, (Z, W ) = g(R, Θ), por lo que teorema de transformación de variables
aleatorias implica

- 274 -
2.5 Distribución de Vectores Aleatorios

 √
√ 1 fR,Θ ( a2 + b2 , h(a, b)) si a ∈ R, a ̸= 0, b ∈ R
fZ,W (a, b) = a2 + b2

0 si a = 0

 √

√ 1 a2 + b2 − 1 (a2 +b2 )
e 2 si a ∈ R, a ̸= 0, b ∈ R
= a 2 + b2 2π

0 si a = 0


 √1 e− 12 a2 √1 e− 12 b2 si a ∈ R, a ̸= 0, b ∈ R
= 2π 2π

0 si a = 0

O sea, las variables aleatorias Z, W son iid N (0, 1). Notar que la densidad de Z
difiere de la densidad normal(0,1) sólo en el punto 0, por este motivo la distribución
de Z no cambia.

Nota: El Teorema 2.5.1 puede extenderse al caso en que la función g no es inyectiva.


Véase, por ejemplo, [7].

- 275 -
2.5 Distribución de Vectores Aleatorios

PROBLEMAS
Problema 2.5.A: Sea (X, Y ) vector aleatorio bidimensional con función de densidad
conjunta dada por {
c xy si (x, y) ∈ A
f(X,Y ) (x, y) =
0 e.o.c.
donde A es como en la figura siguiente

2
y=x
1
0
111111111111
000000000000
1
0
111111111111
000000000000
1
0
111111111111
000000000000
1
0
111111111111
000000000000
1
0
111111111111
000000000000
1
0
111111111111
000000000000
A 1
0
111111111111
000000000000
1
0
111111111111
000000000000
1 x

Figura 2.5.6

a) Encuentre el valor de la constante c.


Y
b) Encuentre la densidad conjunta f(U,V ) , donde U = X 2 , V = X.

Problema 2.5.B: La verdadera duración de un cierto artı́culo (en horas) es una variable
aleatoria T con distribución exponencial de parámetro 0.4. Al medir T se comete un error
X, que puede suponerse distribuido uniformemente en el intervalo ] − 0.01 hr, 0.01 hr[ e
independiente de T . Encuentre la distribución de la duración observada del artı́culo.

Problema 2.5.C: Suponga que n máquinas (n ≥ 2), idénticas y que funcionan indepen-
dientemente, se ponen en marcha al mismo tiempo. Asuma que el tiempo que transcurre
hasta que la máquina i, 1 ≤ i ≤ n , falle es una variable aleatoria Xi con distribución
exponencial de parámetro λ (si la máquina falla, queda fuera de servicio).
Sea Yi , 1 ≤ i ≤ n , el instante en que se produce la i-ésima falla. Por ejemplo,
Y1 = min{X1 , . . . , Xn } e Yn = max{X1 , . . . , Xn }.
Se puede probar que
{
n! λn e−λ(y1 +···+yn ) si 0 < y1 < · · · < yn
f(Y1 ,...,Yn ) (y1 , . . . , yn ) =
0 e.o.c.

a) Encuentre una densidad conjunta para los tiempos que transcurren entre cada falla.

b) ¿Estos tiempos son independientes?

c) ¿Cuál es la distribución de estos tiempos?

d) Encuentre la distribución del tiempo transcurrido entre la primera y la última falla.

- 276 -
2.5 Distribución de Vectores Aleatorios

Problema 2.5.D: Sean Z, W variables aleatorias independientes, con distribución expo-


nencial de parámetro λ. Pruebe que la variable aleatoria que representa la distancia entre
Z y W , esto es, max{Z, W } − min{Z, W }, tiene distribución exponencial.

Problema 2.5.E: Tres personas A, B y C llegan al mismo instante a una caseta de


teléfono (con dos teléfonos). Los dos teléfonos son ocupados inmediatamente por A y B.
La persona C reemplazará a la primera que termine de hablar.
Sean X1 , X2 y X3 las variables aleatorias correspondientes a los tiempos que hablan por
teléfono A, B y C, respectivamente (se supone que las personas se retiran de la caseta una
vez que terminaron de hablar). Asuma que estas variables aleatorias son independientes
con distribución exponencial de parámetro α.

a) Calcule P (max{X1 , X2 } − min{X1 , X2 } < X3 ).

b) Encuentre una densidad para la variable aleatoria T = min{X1 , X2 } + X3 .

c) ¿Qué representa la probabilidad calculada en a) ?, ¿qué representa la variable aleato-


ria T ?

Problema 2.5.F: Sean X, Y variables aleatorias iid con densidad común


{ 1
x2
si x ≥ 1
f (x) =
0 e.o.c.
X
a) Halle la densidad conjunta del vector aleatorio (U, V ), donde U = XY , V = Y .

b) ¿U y V son independientes?

Problema 2.5.G: Sea (X, Y ) vector aleatorio bidimensional con densidad conjunta dada
por
{
120 x (y − x) (1 − y) si 0 < x < y < 1
f(X,Y ) (x, y) =
0 e.o.c.

Recuerde que una variable aleatoria Z tiene distribución Beta con parámetros α, β, se
anota Z ∼ Beta(α, β), si la función de densidad de Z es
{
Γ(α+β) α−1
Γ(α) Γ(β) z (1 − z)β−1 si 0 < z < 1
fZ (z) =
0 e.o.c.

a) Verifique que Y tiene densidad Beta(α1 , β1 ), indicando los valores de los parámetros
α1 y β1 .

b) Demuestre que P (X ≤ zY ) = 3z 2 − 2z 3 , siendo z un número fijo con valor entre 0


y 1.
X
c) Pruebe, usando b), que Y tiene distribución Beta(α3 , β3 ), indicando los valores de
los parámetros α3 y β3 .

- 277 -
2.5 Distribución de Vectores Aleatorios

X
d) Demuestre que Y e Y son independientes.

Problema ( 2.5.H:( )) Sea (X, Y ) vector aleatorio normal bivariado tal que

(X, Y ) ∼ N (0, 0), ρ 1 , con −1 < ρ < 1. Calcule P (X ≥ 0 , Y ≥ 0).

Problema 2.5.I: Sea (X, Y ) vector aleatorio con distribución normal bivariada y forma
cuadrática asociada
Q(x, y) = x2 + 2y 2 − xy − 3x − 2y + 4.

a) Escriba la densidad conjunta f(X,Y ) .

b) Determine fX .

Problema 2.5.J: Sea (X, Y, Z) vector aleatorio con distribución normal trivariada, tal
que (X, Y, Z) ∼ N (µ, Σ), con
 
∑ 3.5 0.5 −1
µ = (0, 0, 0) y = 0.5 0.5 0 .
−1 0 0.5

a) Encuentre una densidad conjunta para el vector aleatorio (U, V, W ), donde

U = Y + Z, V = X + Z, W = X + Y.

b) Encuentre la distribución de U y de (V, W ). ¿Son independientes U y (V, W )?

Problema 2.5.K: Sean X1 , . . . , Xn (n ≥ 2), variables aleatorias iid N (0, 1),


µ = (µ1 , . . . , µn ) vector n-dimensional y A matriz real de orden n × n.
 
a11 a12 ... a1n
 a21 a22 ... a2n 
 
A= . .. .. .. 
 .. . . . 
an1 an2 ... ann

Considere las variables aleatorias Yj , j = 1, . . . , n, definidas por

Yj = a1j X1 + a2j X2 + · · · + anj Xn + µj .

En notación matricial podemos escribir,

(Y1 Y2 . . . Yn )1×n = (X1 X2 . . . Xn )1×n A + (µ1 µ2 . . . µn )1×n .

- 278 -
2.5 Distribución de Vectores Aleatorios

Verifique que:
a) Si la matriz A es invertible y Σ = At A ( es decir, Σ es invertible y
Σ−1 = A−1 (A−1 )t ), entonces una densidad para el vector aleatorio (Y1 , . . . , Yn ) está
dada por
( )n
1 1
f(Y1 ,...,Yn ) (y1 , . . . , yn ) = √ √ exp{(y − µ)Σ−1 (y − µ)t }, y ∈ Rn ,
2π detΣ
donde y = (y1 , . . . , yn ) y µ = (µ1 , . . . , µ).

b) Si A es matriz ortogonal, es decir, At A es una matriz diagonal, con elementos dia-


gonales estrictamente positivos, digamos σ12 , σ22 , . . . , σn2 , es decir,
 2 
σ1 0 0 ... 0
 0 σ2 0 . . . 0 
 2 
 
At A =  0 0 
 .. .. 
 . . 
0 0 ... σn2

entonces Y1 , . . . , Yn son independientes y Yj ∼ N (µj , σj2 ).


En el caso en que A es matriz ortonormal, es decir Σ = At A = In (caso particular de
matriz ortogonal), entonces las variables aleatorias Y1 , . . . , Yn son independientes y
Yj ∼ N (µj , 1). En este caso, también se cumple que

n
∥(ai1 , ai2 , . . . , ain )∥2 = a2ij = σi2 = 1.
j=1

Problema 2.5.L: Sean X, Y variables aleatorias independientes, tales que X ∼ N (0, 1),
Y ∼ χ2 (n), n ≥ 1 . Pruebe que la variable aleatoria Z = √XY tiene distribución t−student
n
con n grados de libertad.

Problema 2.5.M: Sean X, Y variables aleatorias independientes tal que X ∼ G(a, λ),
Y ∼ G(b, λ).
bX
a) Halle una densidad para la variable aleatoria F = aY .

b) Suponga ahora que X ∼ χ2 (n) y Y ∼ χ2 (m). Encuentre la distribución de la


X
variable aleatoria n
Y . Esta distribución es conocida como Fisher y denotada F (n, m).
m

Problema 2.5.N: Sean Z1 , . . . , Zn (n ≥ 2), variables aleatorias iid N (µ, σ 2 ). Verifique


que
(n − 1)S 2
∼ χ2(n−1) ,
σ2
1 ∑
n
donde S 2 = n−1 (Zi − Z̄)2 , es decir, S 2 la varianza muestral asociada a Z1 , . . . , Zn .
i=1

- 279 -
2.5 Distribución de Vectores Aleatorios

Problema 2.5.O: Sean X1 , . . . , Xr , r ≥ 2, variables aleatorias iid N (µ, σ 2 ). Pruebe que

X̄ − µ
S
∼ t(r−1) ,

r

1∑ 1 ∑
r r
con X̄ = Xi y S 2 = (Xi − X̄)2 .
r r−1
i=1 i=1

2 ) e Y ,...,Y
Problema 2.5.P: Sean X1 , . . . , Xn variables aleatorias iid N (µX , σX 1 m va-
2 2 2
riables aleatorias iid N (µY , σY ). Asuma que Xi e Yj son independientes y σX = σY .

Encuentre la distribución de la variable aleatoria


2
SX
Q= ,
SY2
∑n ∑m
2 =
donde SX 1
n−1 i=1 (Xi − X̄)2 y SY2 = 1
m−1 i=1 (Yi − Ȳ )2 .

Problema 2.5.Q: Sea (X1 , X2 ) vector aleatorio continuo tal que (X1 , X2 ) ∼ N (µ, Σ),
con ( 2 )
σ1 ρσ1 σ2
µ = (µ1 , µ2 ) , Σ=
ρσ1 σ2 σ22
y σ1 > 0, σ2 > 0, |ρ| < 1.

Asuma que (Y1 , Y2 ) es otro vector aleatorio que satisface las relaciones

X1 = µ1 + σ1 Y1 , X2 = µ2 + σ2 ρY1 + σ2 1 − ρ2 Y2 .

Encuentre la distribución de (Y1 , Y2 ).

Problema 2.5.R: Dos mediciones independientes de la masa de un objeto, son realizadas


con una balanza. Las mediciones se representan por:

Z i = m0 + ε i , i = 1, 2,

donde m0 es la masa que se desea medir y los errores de medición ε1 y ε2 son variables
aleatorias normales e independientes, de media cero y desviación estándar σ.

a) Verificar que si T = 12 (Z1 − Z2 )2 entonces E(T ) = σ 2 .

b) Si la precisión nominal de la balanza es σ = 0.01 gr, calcular P (T > 0.012 ).

- 280 -
2.6. ESPERANZA DE FUNCIONES DE VECTORES ALEATORIOS

2.6 Esperanza de Funciones de Vectores Aleatorios

A menudo es necesario calcular la esperanza de la variable aleatoria


Y = g(X1 , . . . , Xn ), donde (X1 , . . . , Xn ) es un vector aleatorio n-dimensional y g es una
función fija, de Rn en R. Por ejemplo, si n = 2 y g(u, v) = u + v, lo que se quiere calcular
es E(X1 + X2 ), y si g(u, v) = u v, lo que se quiere calcular es E(X1 X2 ). En general, para
encontrar E(Y ) como en los casos anteriores, no es necesario conocer la función de cuantı́a
(o función de densidad) de Y , lo que se refleja en el siguiente teorema.

Teorema 2.6.1: Sea (X1 , . . . , Xn ) vector aleatorio, g : Rn → R función e Y la variable


aleatoria definida por Y = g(X1 , . . . , Xn ), que se asume con esperanza finita.

a) Si las Xi son discretas y la función de cuantı́a conjunta de (X1 , . . . , Xn ) es p, en-


tonces
∑ ∑
E(g(X1 , . . . , Xn )) = ··· g(u1 , . . . , un )p(u1 , . . . , un ),
u1 ∈RecX1 un ∈RecXn

Para el caso n = 2 resulta que


∑ ∑
E(g(X1 , X2 )) = g(u, v)p(u, v).
u∈RecX1 v∈RecX2

b) Si las Xi son continuas y la función de densidad conjunta de (X1 , . . . , Xn ) es f ,


entonces
∫ +∞ ∫ +∞
E(g(X1 , . . . , Xn )) = ··· g(u1 , . . . , un )f (u1 , . . . , un )du1 · · · dun ,
−∞ −∞

Para el caso n = 2 resulta que


∫ +∞ ∫ +∞
E(g(X1 , X2 )) = g(u, v)f (u, v)dudv.
−∞ −∞

La demostración de este teorema es similar a la del caso unidimensional (véase Proposición


2.1.2) y escapa a los objetivos de este texto.

Ejemplo 2.6.1: Sea (X, Y ) vector aleatorio discreto con función de cuantı́a conjunta
dada por la tabla siguiente.

XY −2 −1 1 2
−1 1/36 2/36 3/36 4/36
1 5/36 6/36 7/36 8/36

Tabla 2.6.1

- 281 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Entonces,
( ) ∑ ∑
Y2 v2
E = p(u, v)
X u
u∈{−1,1} v∈{−2,−1,1,2}

(−2)2 1 (−1)2 2 12 3 22 4
= · + · + · + ·
−1 36 −1 36 −1 36 −1 36

(−2)2 5 (−1)2 6 12 7 22 8
+ · + · + · + ·
1 36 1 36 1 36 1 36
30
=
36
5
= .
6

Ejemplo 2.6.2: Sea (X, Y ) vector aleatorio continuo con densidad conjunta f dada
por
{
10 u v si 0 < u < 1, 0 < v < u2
f (u, v) =
0 e.o.c.

Entonces,
∫ +∞ ∫ +∞
E((X + Y )2 ) = (u + v)2 f (u, v)dudv
−∞ −∞

∫ 1 [∫ u2
]
= (u + v)2 10uvdv du
0 0

∫ [ ∫ ∫ ∫ ]
1 u2 u2 u2
3 2 2 3
= 10 u vdv + 2u v dv + u v dv du
0 0 0 0

∫ 1( 7 )
u 2 u9
= 10 + u8 + du
0 2 3 4

= 1.62.

Ejemplo 2.6.3: Sean X e Y variables aleatorias independientes, con X ∼ exp(α) e


Y ∼ exp(β). Entonces,
∫ +∞ ∫ +∞
E(min{X, Y }) = min{u, v}fX,Y (u, v)dudv.
−∞ −∞

- 282 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Además,
fX,Y (u, v) = fX (u) fY (v)
{
αβ exp(−αu − βv) si u > 0, v > 0
=
0 e.o.c
y como
{
v si v ≤ u
min{u, v} =
u si v > u

entonces,
∫ ∞∫ ∞
E(min{X, Y }) = min{u, v} αβe−αu−βv dvdu
0 0
∫ ∞ [∫ u ] ∫ ∞ [∫ ∞ ]
−αu−βv −αu−βv
= vαβe dv du + uαβe dv du.
0 0 0 u

También, usando integración por partes, resulta que


∫ ∞ ( )
−λx 1 1
xe dx = + a e−λa
a λ λ

y
∫ b ( ) ( )
−λx 1 1 −λa 1 1
xe dx = +a e − + b e−λb ,
a λ λ λ λ

de donde
∫ u ∫ u
−αu−βv
vαβe dv = αβe−αu ve−βv dv
0 0
[ ( ) ( ) ]
1 1 1 1
= αβe−αu + 0 e−β·0 − + u e−βu
β β β β
α −αu α −(α+β)u
= e − e − αue−(α+β)u .
β β

Por lo tanto,
∫ ∞ [∫ u ] ∫ ∞ ∫ ∞ ∫ ∞
−αu−βv α −αu α −(α+β)u
vαβe dv du = e − e du − α ue−(α+β)u du
0 0 β 0 β 0 0
[ ( ) ]
1 α 1 1 −(α+β)·0
= − −α +0 e
β β(α + β) α+β α+β

1 α α
= − − .
β β(α + β) (α + β)2

- 283 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Por otra parte,


∫ ∞ [∫ ∞ ] ∫ ∞ (∫ ∞ )
−αu−βv −αu −βv
uαβe dv du = αβue e dv du
0 u 0 u
∫ ∞
1
= αβue−αu e−βu du
0 β
( )
1 1
= α + 0 e−(α+β)·0
α+β α+β
α
= ,
(α + β)2
por lo que
1 α α α
E(min{X, Y }) = − − 2
+
β β(α + β) (α + β) (α + β)2

1
= .
α+β
Observemos que este mismo resultado se obtiene a partir del Ejemplo 2.2.15, ya que
min{X, Y } ∼ exp(α + β).

Ejemplo 2.6.4: Sean X e Y variables aleatorias iid U (0, 1). Entonces,

fX,Y (u, v) = fX (u)fY (v)


{
1 si 0 < u < 1, 0 < v < 1
=
0 e.o.c.
y como {
u si v ≤ u
max{u, v} =
v si v > u
se deduce que,
∫ ∞ ∫ ∞
E(max{X, Y }) = max{u, v}fX,Y (u, v)dvdu
−∞ −∞

∫ 1∫ 1
= max{u, v}dvdu
0 0
∫ 1 (∫ u ) ∫ 1 (∫ 1 )
= udv du + vdv du
0 0 0 u

∫ 1 ∫ 1
1
= 2
u du + (1 − u2 )du
0 2 0

2
= .
3

- 284 -
2.6 Esperanza de Funciones de Vectores Aleatorios

En forma análoga, se obtiene que E(min{X, Y }) = 13 .

Ejemplo 2.6.5: Sean X e Y variables aleatorias independientes, ambas uniformes


sobre (1, 2). Entonces,
∫ ∞
E(X) = ufX (u)du
−∞

∫ 2
= u · 1 du
1

3
= .
2
E(X)
También, por tener Y igual distribución que X, resulta que E(Y ) = 32 , de donde E(Y ) = 1.
Por otra parte,
∫ ∞∫ ∞
(X ) u
E Y = fX,Y (u, v)dv
−∞ −∞ v
∫ ∞ ∫ ∞
u
= fX (u)fY (v)dudv
−∞ −∞ v
∫ 2∫ 2
u
= · 1 · 1 dudv
1 1 v
∫ 2( ∫ 2 )
1
= u dv du
1 1 v
∫ 2
= u(ln(2) − ln(1))du
1

1
= (ln 2)[22 − 12 ]
2
3
= ln 2.
2
(X ) E(X)
En consecuencia, E Y ̸= E(Y ) , aunque X e Y sean independientes.

Ejemplo 2.6.6: Un alambre de largo unitario se corta aleatoriamente en dos lugares.


¿Cuál es el largo promedio del trozo de alambre que queda al medio?
Si U1 , U2 son los largos del primer y último trozo, respectivamente, entonces (por las
condiciones del problema), podemos suponer que U1 y U2 son variables aleatorias indepen-
dientes y uniformes (0, 1).
El largo del trozo de alambre que queda al medio resulta ser igual a
max{U1 , U2 } − min{U1 , U2 } = |U1 − U2 | (por ser aleatorios los cortes, no se sabe si el
largo del primer trozo será mayor o menor que el largo del último).

- 285 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Luego, ∫ ∫
∞ ∞
E(|U1 − U2 |) = |u − v| fU1 ,U2 (u, v)dvdu
−∞ −∞

∫ 1∫ 1
= |u − v| dvdu.
0 0
Pero, {
u−v si v≤u
|u − v| =
v−u si v≥u
de donde
∫ 1∫ 1 ∫ 1 (∫ u ) ∫ 1 (∫ 1 )
|u − v| dvdu = (u − v)dv du + (v − u)dv du
0 0 0 0 0 u

∫ 1( )
1
= u −u+ 2
du
0 2

1
= .
3
Notar que, del Ejemplo 2.6.4,
2 1
E( max{U1 , U2 } ) − E( min{U1 , U2 } ) = −
3 3
1
=
3

= E( |U1 − U2 | ).

Ejemplo 2.6.7: En algunos casos, para calcular E(g(X1 , . . . , Xn )), resulta más conve-
niente encontrar la distribución de probabilidad de la variable aleatoria
g(X1 , . . . , Xn ), en lugar de usar el Teorema 2.6.1. Por ejemplo, sean X1 , . . . , Xn , va-
riables aleatorias iid U (0, θ). Calculemos E(Y ), donde Y = max{X1 , . . . , Xn }, es decir,
Y = g(X1 , . . . , Xn ) con g(u1 , . . . , un ) = max{u1 , . . . , un }.
Primeramente encontremos FY (y), para todo y real.

FY (y) = P (Y ≤ y)
= P (max{X1 , . . . , Xn } ≤ y)
= P (X1 ≤ y, . . . , Xn ≤ y).

Pero, X1 , . . . , Xn son iid U (0, θ), entonces

P (X1 ≤ y, . . . , Xn ≤ y) = (P (X1 ≤ y))n


(∫ y )n
= fX1 (u)du
−∞

- 286 -
2.6 Esperanza de Funciones de Vectores Aleatorios
(∫ y )n

 1

 du si 0 < y < θ

 0 θ
= 0n si y ≤ 0

( ∫ 0 ∫ ∫ )n


θ
1 y

 0du + du + 0du si y ≥ θ
−∞ 0 θ θ

 1 n

 θn y si 0 < y < θ
= 0 si y ≤ 0



1 si y ≥ θ
Como FY es función continua y derivable (salvo posiblemente en y = 0; y = θ), entonces
una densidad para Y está dada por

 d F (y) si la derivada existe
Y
fY (y) = dy

0 e.o.c
{n
n
y n−1 si 0 < y < θ
= θ
0 e.o.c

Ası́,
E(max{X1 , . . . , Xn }) = E(Y )
∫ ∞
= yfY (y)dy
−∞

∫ θ
n n−1
= y y dθ
0 θn
n
= θ.
n+1

Una de las propiedades más usadas de la esperanza, es que es una operación lineal, lo
que se describe en el siguiente teorema.

Teorema 2.6.2: Sean X1 , . . . , Xn , variables aleatorias con densidad conjunta f (en el


caso continuo), o función de cuantı́a conjunta p (en el caso discreto) y de modo que E(Xi )
existe, para todo i.
Entonces, para todo a, a1 , . . . , an , reales,
( )

n ∑
n
E a+ ai Xi =a+ ai E(Xi ).
i=1 i=1

Demostración: Verificamos el caso continuo con n = 2.

- 287 -
2.6 Esperanza de Funciones de Vectores Aleatorios


2
Como a + ai Xi = g(X1 , X2 ), con g : R2 → R, definida por
i=1
g(u, v) = a + a1 u + a2 v, entonces
( ) ∫ ∫

2 ∞ ∞
E a+ ai Xi = g(u, v)f (u, v)dudv
i=1 −∞ −∞

∫ ∞ ∫ ∞
= (a + a1 u + a2 v)f (u, v)dudv
−∞ −∞
∫ ∞ ∫ ∞ ∫ ∞ ∫ ∞
= a f (u, v)dudv + a1 uf (u, v)dudv
−∞ −∞ −∞ −∞
∫ ∞ ∫ ∞
+a2 vf (u, v)dudv.
−∞ −∞

La primera integral doble de esta última expresión vale 1, pues es la integral doble de
una densidad bidimensional. La segunda integral doble puede ser evaluada de la siguiente
forma:
∫ ∞∫ ∞ ∫ ∞( ∫ ∞ )
uf (u, v)dudv = u f (u, v)dv du
−∞ −∞ −∞ −∞
∫ ∞
= ufX1 (u)du
−∞

= E(X1 ).

De manera similar, la tercera integral doble toma el valor E(X2 ). Ası́,


( )
∑2
E a+ ai Xi = a · 1 + a1 E(X1 ) + a2 E(X2 )
i=1
= a + a1 E(X1 ) + a2 E(X2 ).
( )

2
La existencia de E a + a i Xi está garantizada debido a que
i=1

|a + a1 u + a2 v| ≤ |a| + |a1 | |u| + |a2 | |v| ,

y al supuesto que, para cada i, E(Xi ) existe.

Ejemplo 2.6.8: Supongamos que un número “grande” n, de muestras de cierto tipo


de material que es usado en la construcción, debe ser testeado. El test determina si el
material da negativo o positivo en relación a cierta caracterı́stica en estudio. Asumamos
que las n muestras son agrupadas en m grupos de k muestras cada uno, esto es, n = mk
(los m grupos podrı́an corresponder a m plantas distintas donde se produce el material que
se estudia). Cada uno de los m grupos se analizará de la siguiente forma:

- 288 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Cada una de las k muestras del grupo, se parte por la mitad y una de las mitades
se coloca en una bandeja, ahora la bandeja con las k mitades es sometida a un test.
Asumamos que el test es suficientemente sensitivo a la caracterı́stica en estudio, esto
significa que si el test arroja un resultado negativo para alguna de las k mitades, entonces
suponemos que si a cada una de las k muestras en la bandeja se les realizara el test
individualmente, darı́a también negativo. Por lo cual, en este caso, sólo un test serı́a
necesario hacer.
En caso contrario, es decir, si el test realizado a la bandeja arroja resultado positivo,
entonces se realiza el test a cada una de las k mitades que no fueron puestas en la bandeja,
por lo cual, en este caso, es necesario hacer k + 1 test (uno a la bandeja y k por cada una
de las mitades no incluidas en la bandeja).
Se asume que en cualquier test que se realize, la probabilidad de obtener resultado
negativo es p.
Además, si Xi , i = 1, . . . , m, representa el número de test ∑ efectuados en el
i-ésimo grupo, entonces el número total de test efectuados es N = m i=1 Xi , y el número
total de test que se espera realizar es

m
E(N ) = E(Xi ).
i=1

Pero, para cada i ∈ {1, . . . , m}, RecXi = {1, k + 1} y

pXi (1) = pk , pXi (k + 1) = 1 − pk ,

de donde
E(Xi ) = 1 pk + (k + 1)(1 − pk ).
En consecuencia,

m
E(N ) = E(Xi )
i=1


m
= pk + (k + 1) (1 − pk )
i=1

= m (pk + (k + 1) (1 − pk ))

= m (−k pk + k + 1)

= −m k pk + m k + m

= −n pk + n + n
k ( pues n = m k)
( )
= n 1+ 1
k − pk .

Por ejemplo, si cada grupo contiene k = 10 muestras y la probabilidad de obtener resultado


negativo en cualquier test es p = 0.95, entonces el número esperado de test que se deberı́an

- 289 -
2.6 Esperanza de Funciones de Vectores Aleatorios

1
realizar es de n (1 + 10 − (0.95)10 ) ≈ n 0.5. Es decir, con este método se espera realizar la
mitad del total de tests que en un principio deberı́an hacerse.

2.6.1 Covarianza y correlación


La varianza de una variable aleatoria es la medida de su variabilidad, y la covarianza de dos
variables aleatorias es la medida de su variabilidad conjunta, o su grado de asociación. En
este punto, después de definir la covarianza, desarrollaremos algunas de sus propiedades y
discutiremos otra medida de asociación llamada correlación, la cual es definida en términos
de la covarianza.

Definición 2.6.1: Sean X e Y variables aleatorias. Supongamos que la distribución


conjunta de (X, Y ) existe y que V ar(X); V ar(Y ) también existen. Entonces, la covarianza
entre X e Y se define como el número real
Cov(X, Y ) = E((X − E(X))(Y − E(Y ))).
Es claro que Cov(X, Y ) = Cov(Y, X) y además, usando la linealidad de la esperanza se
obtiene la siguiente expresión alternativa para la covarianza entre X e Y :
Cov(X, Y ) = E(X Y − E(Y ) X − E(X) Y + E(X) E(Y ))

= E(XY ) − E(Y ) E(X) − E(X) E(Y ) + E(X) E(Y )

= E(XY ) − E(X) E(Y ).


En particular, si X e Y son independientes, entonces E(XY ) = E(X) E(Y ), de donde
Cov(X, Y ) = 0. El recı́proco, en general, no es cierto, es decir, si se tiene que
Cov(X, Y ) = 0, no se puede concluir que X e Y sean independientes.

Ejemplo 2.6.9: Sea (X, Y ) vector aleatorio continuo con distribución uniforme sobre
el disco unitario, es decir,
{ 1
π si u2 + v 2 ≤ 1
fX,Y (u, v) =
0 e.o.c
Entonces, ∫ ∞
fX (u) = fX,Y (u, v)dv
−∞

 ∫ √
1−u2

 1
 √ dv si − 1 < u < 1
= − 1−u2 π



0 e.o.c
 2√

 1 − u2 si − 1 < u < 1
= π


0 e.o.c

- 290 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Análogamente,  2√

 1 − u2 si − 1 < v < 1
fY (v) = π


0 e.o.c
Ası́,
∫ ∞
E(X) = ufX (u)du
−∞

∫ 1
2 √
= u 1 − u2 du
−1 π

= 0 (pués el integrando es función impar)


y ∫ ∞
E(Y ) = v fY (v)dv
−∞

= 0.
También, ∫ ∫
∞ ∞
E(X Y ) = u v fX,Y (u, v)dudv
−∞ −∞

∫ (∫ √ )
1 1−u2
1
= √ uv dv du
−1 − 1−u2 π
∫ 1 (√ √ )
1
= u ( 1 − u2 )2 − (− 1 − u2 )2 du
2π −1

= 0.
Por lo tanto,
Cov(X, Y ) = 0 − 0 · 0
= 0.
Por otra parte,
 4 √ √

 2 1 − u2 1 − v 2 si − 1 < u < 1, −1<v <1
fX (u) fY (v) = π


0 e.o.c
ası́,
3 1
fX (0.5) fY (0.5) = 2
̸= = fX,Y (0.5, 0.5),
π π
es decir, X e Y no son independientes.

Ahora desarrollamos algunas expresiones para la covarianza de combinaciones lineales


de variables aleatorias.

- 291 -
2.6 Esperanza de Funciones de Vectores Aleatorios

• Cov(a + X, Y ) = E((a + X) Y ) − E(a + X) E(Y )

= a E(Y ) + E(XY ) − (a + E(X)) E(Y )

= E(X Y ) − E(X) E(Y )

= Cov(X, Y ).

• Cov(a X, b Y ) = E(a X b Y ) − E(a X) E(b Y )

= a b E(X Y ) − a E(X) b E(Y )

= a b (E(X Y ) − E(X) E(Y ))

= a b Cov(X, Y ).

• Cov(X, Y + Z) = E(X (Y + Z)) − E(X) E(Y + Z)

= E(X Y + X Z) − E(X) (E(Y ) + E(Z))

= E(X Y ) + E(X Z) − E(X) E(Y ) − E(X) E(Z)

= (E(X Y ) − E(X) E(Y )) + (E(X Z) − E(X) E(Z))

= Cov(X, Y ) + Cov(X, Z).

• Cov(a X + b Y, c Z + d W ) = Cov(a X + b Y, c Z) + Cov(a X + b Y, d W )

= Cov(c Z, a X + b Y ) + Cov(d W, a X + b Y )

= Cov(c Z, a X) + Cov(c Z, b Y ) + Cov(d W, a X)

+Cov(d W, b Y )

= c a Cov(Z, X) + c b Cov(Z, Y ) + d a Cov(W, X)

+d b Cov(W, Y )

= a c Cov(X, Z) + b c Cov(Y, Z) + a d Cov(X, W )

+b d Cov(Y, W ).

En general, el mismo tipo de argumento visto en estas expresiones entrega la siguiente


propiedad de la covarianza:

- 292 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Teorema 2.6.3: Sean U , V las variables aleatorias definidas por


n ∑
m
U =a+ bi Xi , V =c+ dj Yj .
i=1 j=1

Entonces,

n ∑
m
Cov(U, V ) = bi dj Cov(Xi , Yj ).
i=1 j=1

Este teorema tiene muchas aplicaciones, en particular:

Corolario 2.6.1:

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2 Cov(X, Y ).

En el caso en que Cov(X, Y ) = 0 (lo que ocurre, en particular, cuando X e Y son


independientes),
V ar(X + Y ) = V ar(X) + V ar(Y ) .
Esta propiedad es inmediata desde que

V ar(Z) = E((Z − E(Z))2 )


= E((Z − E(Z)) (Z − E(Z)))
= Cov(Z, Z),

por lo que, según Teorema 2.6.3,

V ar(X + Y ) = Cov(X + Y, X + Y )
= Cov(X, X) + Cov(X, Y ) + Cov(Y, X) + Cov(Y, Y )
= V ar(X) + V ar(Y ) + 2 Cov(X, Y ).

Es preciso resaltar que

V ar(X − Y ) = V ar(X + (−Y ))


= V ar(X) + V ar(−Y ) + 2 Cov(X, −Y )
= V ar(X) + (−1)2 V ar(Y ) + 2(−1) Cov(X, Y ),

es decir,
V ar(X − Y ) = V ar(X) + V ar(Y ) − 2 Cov(X, Y ).

Corolario 2.6.2:
( )

n ∑
n ∑
n
V ar a + bi Xi = bi bj Cov(Xi , Xj ).
i=1 i=1 j=1

- 293 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Demostración: Basta usar Teorema 2.6.3 con



n ∑
n
U =a+ b i Xi , V =a+ bj Xj .
i=1 j=1

Corolario 2.6.3: Si X1 , . . . , Xn son variables aleatorias independientes, entonces,


( n )
∑ ∑n
V ar Xi = V ar(Xi ).
i=1 i=1

Demostración: Basta usar Corolario 2.6.2, con a = 0; bi = 1, i = 1, . . . , n, y el hecho


que: X1 , . . . , Xn independientes, entonces para todo i ̸= j, Cov(Xi , Xj ) = 0.

Ejemplo 2.6.10: Sean X1 , . . . , Xn , variables aleatorias iid con media común igual a µ
y varianza común igual a σ 2 . Se define la media muestral de las Xi como

1∑
n
X̄ = Xi .
n
i=1

Entonces,
( )
1∑
n
E(X̄) =E Xi
n
i=1
1∑
n
= E(Xi )
n
i=1
1∑
n
= µ
n
i=1
1
= nµ
n

y
()
1∑
n
V ar(X̄) =V ar Xi
n
i=1
( n )
1 ∑
= 2 V ar Xi
n
i=1
1 ∑
n
= 2 V ar(Xi )
n
i=1
1 ∑n
= σ2
n2
i=1

- 294 -
2.6 Esperanza de Funciones de Vectores Aleatorios

1
= n σ2
n2
σ2
= .
n

Ejemplo 2.6.11: (Método de Monte Carlo) Supongamos que se desea calcular


∫b
la integral de una función, digamos H = a h(x)dx, con h una función “complicada”,
de modo que los métodos analı́ticos o numéricos usuales no resultan convenientes. El
siguiente método, llamado método de Monte Carlo, brinda una aproximación de H basada
en la generación de números pseudoaleatorios. Asumiremos a = 0 y b = 1, el caso general
siempre puede reducirse a éste.
Sean X1 , . . . , Xn , variables aleatorias iid U (0, 1), es decir, las variables aleatorias son
independientes y todas uniformes (0, 1). La aproximación de H que construiremos es la
siguiente.
Para cada n ≥ 1, definimos

1∑
n
Yn = h(Xi ).
n
i=1

Ası́, por ser las Xi uniformes (0, 1),

1 ∑
n
E(Yn ) = E(h(Xi ))
n
i=1
∑n ∫ ∞
1
= h(u) fXi (u)du
n
i=1 −∞
n ∫
1 ∑ 1
= h(u) 1du
n
i=1 0
∫ 1
1
= n h(u)du
n 0
=H,

y como h(X1 ), . . . , h(Xn ) son independientes (pues las Xi lo son),

1 ∑
n
V ar(Yn ) = V ar(h(Xi ))
n2
i=1
1 ∑
n
= 2 (E(h2 (Xi )) − H 2 )
n
i=1
(∫ 1 )
1
= 2n h (u) 1du − H .
2 2
n 0

- 295 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Además,
∫ 1 ∫ 1 ∫ 1 ∫ 1
(h(u) − H)2 du = h2 (u)du − 2 H 2 du
H h(u)du +
0 0 0 0
∫ 1 ∫ 1 ∫ 1
= h (u)du − 2H
2
h(u)du + H 2
1du
0 0 0
∫ 1
= h2 (u)du − 2H H + H 2
0
∫ 1
= h2 (u)du − H 2
0

por lo que,
∫ 1
1
V ar(Yn ) = (h(u) − H)2 du.
n 0
¿Cómo escoger el valor de n?
Dada una cota para el error, digamos ε, la desigualdad de Chebyshev implica que
V ar(Yn )
P (|Yn − H| > ε) ≤
ε2
∫1
0 (h(u) − H) du
2
= .
n ε2
Ası́, tomando n “suficientemente grande”, se puede hacer que P (|Yn − H| > ε) sea tan
pequeña como se quiera.

Ejemplo
( a b )2.6.12: Sea (X, Y ) vector normal bivariado de parámetros µ = (µ1 , µ2 ) y
Σ = b c . Según Ejemplo 2.4.12, X ∼ N (µ1 , a) e Y ∼ N (µ2 , c). En este ejemplo
mostraremos que Cov(X, Y ) = b. En efecto,
Cov(X, Y ) = E((X − E(X)) (Y − E(Y )))

= E((X − µ1 ) (Y − µ2 ))
∫ ∞ ∫ ∞
= (u − µ1 ) (v − µ2 ) fX,Y (u, v)dudv.
−∞ −∞

Ahora, usando la expresión obtenida en el Ejemplo 2.4.7 para fX,Y (u, v), se obtiene
que
∫ ∞ ∫ ∞
1
Cov(X, Y ) = √ √ √ (u − µ1 )(v − µ2 )
2π a c 1 − ρ2 −∞ −∞

[ { }]
−1 (u−µ1 )2 (v−µ2 )2
· exp 2(1−ρ2 ) a − 2ρ u−µ
√ 1
a
v−µ
√ 2
c
+ c dudv,

donde ρ = √ b√ .
a c
u−µ
√ 1; v−µ
√ 2,
Realizando, en la última integral doble, el cambio de variables x = y= cuyo
√ √ a c
jacobiano es a c, esta integral resulta igual a

- 296 -
2.6 Esperanza de Funciones de Vectores Aleatorios
∫ ∞ ∫ ∞ [ ]
√ √ √ √ −1
2 ) {x − 2ρ x y + y } dxdy.
2 2
( a x)( c y) a c exp 2(1−ρ
−∞ −∞

Además,
[ ] [ ]
−1 −1
2 ) {x − 2ρ x y + y } = 2 ) {(x − ρy) + (1 − ρ ) y }
exp 2(1−ρ 2 2 exp 2(1−ρ 2 2 2

( 2) ( )
−1
= exp − y2 exp 2(1−ρ 2 ) (x − ρy)
2

ası́, √ √ √ √ ∫ ∞∫ ∞ ( 2)
a c a c
Cov(X, Y ) = √ √ √ √ x y exp − y2
2π a c c 1 − ρ2 −∞ −∞
( )
−1
· exp 2(1−ρ2 )
(x − ρy)2 dxdy

√ √ ∫ ∞ [
a c ( 2) ∫ ∞ 1
−y
= √ y exp 2 x√ √
2π −∞ −∞ 2π 1 − ρ2
( ) ]
−1 (x−ρy)2
· exp 2 1−ρ2
dx dy.

La integral que está dentro del paréntesis cuadrado corresponde a la esperanza de una
normal de parámetros (ρ y, 1 − ρ2 ). Luego, esta integral es igual a ρ y.
De esta forma,
∫ ∞ ( 2)
√ √ 1
Cov(X, Y ) = a c ρ √ y 2 exp − y2 dy.
−∞ 2π

Pero, la última integral corresponde a E(Z 2 ), con Z ∼ N (0, 1), es decir su valor es 1.
En consecuencia,
√ √
Cov(X, Y ) = a cρ

√ √ b
= a c√ √
a c

= b.

Observación: A partir del ejemplo anterior podemos concluir que, si


(X, Y ) ∼ N ((µ1 , µ2 ), Σ) y Cov(X, Y ) = 0, entonces X e Y son independientes. Este
resultado también es válido en el caso en que (X1 , . . . , Xn ) es normal multivariada, con
n ≥ 3.

Ahora definimos un coeficiente que sirve para medir la dependencia lineal entre dos
variables aleatorias. Este coeficiente es conocido como correlación o coeficiente de corre-
lación.

- 297 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Definición 2.6.2: Si X e Y son variables aleatorias, de modo que la distribución


conjunta existe, ası́ como V ar(X); V ar(Y ) y ambas son no nulas, entonces el coeficiente
de correlación entre X e Y , denotado por ρ(X, Y ), se define como

Cov(X, Y )
ρ(X, Y ) = √ √ .
V ar(X) V ar(Y )

Notar que
( )
X − E(X) Y − E(Y ) 1
Cov √ ,√ =√ Cov(X − E(X), Y − E(Y ))
V ar(X) V ar(Y ) V ar(X)V ar(Y )
Cov(X, Y )
=√ √
V ar(X) V ar(Y )
=ρ(X, Y ).

Además, por la forma como se forma el cuociente de ρ(X, Y ), la correlación es una


cantidad que no tiene unidades de medida, pues las unidades del numerador y del denom-
inador se cancelan. Esta es una razón por la cual, en muchos casos, se usa como medida
de asociación (entre dos variables aleatorias) la correlación en lugar de la covarianza.

Ejemplo 2.6.13: Una urna contiene n fichas numeradas de 1 a n. Se extraen dos


fichas al azar, sin reposición. Sean respectivamente X1 y X2 los números resultantes de
la primera y segunda ficha. Encontremos la correlación entre X1 y X2 .
Para comenzar, calculemos la función de cuantı́a conjunta de (X1 , X2 ).
Sea j ∈ {1, . . . , n} y k ∈ {1, . . . , n}, entonces

P (X1 = j, X2 = k) = P (X2 = k/X1 = j) P (X1 = j).

Además, en la primera extracción todas las fichas son igualmente probables, y existen n
de éstas, por lo que P (X1 = j) = n1 , para todo j.
Ahora, suponiendo que X1 = j, es decir, la primera ficha escogida es la
j-ésima, la probabilidad de que la segunda ficha escogida sea la j-ésima es cero (pues
la extracción es sin reposición) y la probabilidad de que la segunda ficha sea la k-ésima,
k ̸= j, es n−1
1
(pues se escoge al azar desde la urna con n − 1 fichas).
En resumen,
{
0 si k = j
P (X2 = k/X1 = j) = 1
n−1 si k ̸= j

y por lo tanto,
{
1
n(n−1) si k ̸= j
P (X1 = j, X2 = k) =
0 si k = j

- 298 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Ası́, la distribución marginal de X2 resulta


n
P (X2 = k) = P (X1 = j, X2 = k)
j=1

n
1
= +0
n(n − 1)
j=1
j̸=k
1
= .
n

De lo anterior, se puede observar que X1 y X2 no son independientes, pues para


i, k ∈ {1, . . . , n}, i ̸= k,
1
P (X1 = i, X2 = k) =
n(n − 1)
y
1
P (X1 = i) · P (X2 = k) = .
n2
También,

n
E(X1 ) = j P (X1 = j)
j=1

1 ∑
n
= j
n
j=1

1 n(n + 1)
=
n 2
n+1
=
2
y

n
E(X12 ) = j 2 P (X1 = j)
j=1

1 ∑ 2
n
= j
n
j=1

1 n (n + 1) (2n + 1)
=
n 6
(n + 1) (2n + 1)
= .
6
(n+1)(2n+1)
Análogamente, E(X2 ) = n+1
2 y E(X22 ) = 6 .

- 299 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Por lo tanto,
( )2
(n + 1)(2n + 1) n+1
V ar(X1 ) = −
6 2

(n − 1)(n + 1)
=
12
y
(n − 1)(n + 1)
V ar(X2 ) = .
12
Finalmente,

n ∑
n
E(X1 X2 ) = j k P (X1 = j, X2 = k)
j=1 k=1


n ∑
n
1
= jk
(n − 1)n
j=1 k=1
k̸=j

 
1 ∑
n
∑n

= j
 k 

(n − 1)n
j=1 k=1
k̸=j

( )
1 ∑
n ∑
n
= j k−j
(n − 1)n
j=1 k=1


n ( )
1 n(n + 1)
= j −j
(n − 1)n 2
j=1

n(n + 1) ∑ ∑
n n
1 1
= j− j2
(n − 1)n 2 (n − 1)n
j=1 j=1

(n + 1) n(n + 1) 1 n(n + 1)(2n + 1)


= −
2(n − 1) 2 (n − 1)n 6

(n + 1)(3n + 2)
= .
12
En consecuencia,
(n+1)(3n+2)
− n+1 n+1
ρ(X1 , X2 ) = √ 12 √ 2 2
(n−1)(n+1) (n−1)(n+1)
12 12

1
= − .
n−1

- 300 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Ejemplo
( ) 2.6.14: Sea (X, Y ) vector normal bivariado de parámetros µ = (µ1 , µ2 ) y
Σ = ab cb . Entonces, Ejemplo 2.4.12 y 2.6.12 implican que

b
ρ(X, Y ) = √ √ ,
a c

que se acostumbra a denotar por ρ.

Ejemplo 2.6.15: Sean X e Y variables aleatorias tales que Y = aX + b con a, b reales,


a ̸= 0. Entonces,
Cov(X, Y ) = Cov(X, a X + b)
= Cov(X, a X) + Cov(X, b)
= a V ar(X) + 0.
Ası́,
a V ar(X)
ρ(X, Y ) = √ √
V ar(X) V ar(a X + b)

a V ar(X)
= √ √
V ar(X) a2 V ar(X)
a
=
|a|
{
1 si a>0
=
−1 si a<0

Es decir, si Y se obtiene a partir de una transformación lineal de X, entonces el


coeficiente de correlación entre X e Y es 1 ó −1, dependiendo del signo de a. Como
veremos en el próximo Teorema, 1 es el máximo valor (en valor absoluto) que puede
alcanzar ρ(X, Y ). Esto muestra que el coeficiente de correlación ρ(X, Y ), mide el grado de
dependencia lineal que existe entre X e Y . Cuando hay una dependencia lineal “perfecta”,
es decir, Y = aX + b, entonces |ρ(X, Y )| = 1.

Teorema 2.6.4: Sean X e Y variables aleatorias, entonces

−1 ≤ ρ(X, Y ) ≤ 1.

En particular, se obtiene la desigualdad de Cauchy-Schwartz


√ √
|Cov(X, Y )| ≤ V ar(X) V ar(Y ) .

Lo anterior es válido asumiendo que todas las cantidades involucradas existen.

Demostración: Usemos las siguientes notaciones:


2
V ar(X) = σX , V ar(Y ) = σY2 y ρ(X, Y ) = ρ.

- 301 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Como la varianza de cualquier variable aleatoria es no negativa,


( )
X Y
0 ≤ V ar +
σX σY
( ) ( ) ( )
X Y X Y
= V ar + V ar + 2 Cov ,
σX σY σX σY

V ar(X) V ar(Y ) Cov(X, Y )


= 2 + 2 +2
σX σY σX σY

= 1 + 1 + 2ρ

= 2(1 + ρ).
De esta desigualdad se obtiene que ρ ≥ −1.
Similarmente, ( )
X Y
0 ≤ V ar − = 2(1 − ρ),
σX σY
lo que implica la desigualdad ρ ≤ 1.
Finalmente, como ρ(X, Y ) = √ √
Cov(X,Y )
y −1 ≤ ρ(X, Y ) ≤ 1, es decir,
V ar(X) V ar(Y )

Cov(X, Y )
−1 ≤ √ √ ≤ 1,
V ar(X) V ar(Y )
se deduce que
√ √ √ √
− V ar(X) V ar(Y ) ≤ Cov(X, Y ) ≤ V ar(X) V ar(Y ),
de donde √ √
|Cov(X, Y )| ≤ V ar(X) V ar(Y ).

2.6.2 Función generadora de momentos


En este punto desarrollaremos y aplicaremos algunas de las propiedades de la función
generadora de momentos. Esta función es una herramienta que a menudo se usa para
simplificar una enormidad ciertos cálculos probabilı́sticos.

Definición 2.6.3: La función generadora de momentos (f.g.m.) de una variable aleato-


ria X, denotada por MX , es definida por MX (t) = E(etX ), para todo t donde esta espe-
ranza exista. En el caso discreto,

MX (t) = etu pX (u)
u

y en el caso continuo, ∫ ∞
MX (t) = etu fX (u)du.
−∞

- 302 -
2.6 Esperanza de Funciones de Vectores Aleatorios

La esperanza, y luego la función generadora de momentos, puede no existir en algún


valor particular de t.

Teorema 2.6.5: Si la función generadora de momentos existe, para t en un conjunto


abierto C ⊂ R que contiene a cero, esta determina únicamente la distribución de probabili-
dad de la variable aleatoria. En otras palabras, si dos variables aleatorias tienen la misma
función generadora de momentos en un intervalo abierto que contiene al cero, ellas tienen
la misma distribución de probabilidad.

La demostración de esta importante propiedad depende de la transformada de Laplace


y escapa a los objetivos de este texto.

Observación: El r-ésimo momento de la variable aleatoria X es E(X r ), si la esperanza


existe. En secciones anteriores hemos calculado el primer y segundo momento, esto es,
E(X) y E(X 2 ). Sin embargo, el r-ésimo momento central, definido por E((X − E(X))r ),
es a menudo usado en lugar del r-ésimo momento. La varianza corresponde al segundo
momento central y esta mide la dispersion en torno a la media. El tercer momento central
es usado para medir la asimetrı́a de la función de cuantı́a (o densidad) respecto de su media.
Si la densidad es simétrica respecto de su media, el coeficiente que mide la asimetrı́a,
definido por γ(X) = E((X−E(X))
3)

E(X 3 )
, es cero.

Como su nombre lo indica, la función generadora de momentos tiene algo que ver con
los momentos de la variable aleatoria. Para ver esto, consideremos el caso continuo:
∫ ∞
MX (t) = etu fX (u)du.
−∞

La derivada de MX (t) es ∫
′ d ∞ tu
MX (t)
= e fX (u)du.
dt −∞
Se puede verificar, que en este caso, la diferenciación con la integración pueden ser
intercambiados, esto es, ∫ ∞

MX (t) = u etu fX (u)du,
−∞
por lo que ∫ ∞
′ (0)
MX = u e0 u fX (u)du
−∞

= E(X).
Diferenciando r veces, vemos que
(r)
MX (0) = E(X r ).

Teorema 2.6.6: Si la función generadora de momentos existe en un intervalo abierto


que contenga al cero, entonces, para todo r ≥ 1, E(X r ) existe y
(r)
E(X r ) = MX (0).

- 303 -
2.6 Esperanza de Funciones de Vectores Aleatorios

La utilidad de esta propiedad es que, si la f.g.m. puede ser encontrada, el proceso de


integración o sumación involucrados en el cálculo de E(X r ), puede ser reemplazado por el
proceso de diferenciación, que es bastante más mecánico.

Ejemplo 2.6.16: (La f.g.m. de una variable aleatoria Poisson con parámetro λ). Sea
X ∼ P(λ), entonces
MX (t) = E(etX )



= et j P (X = j)
j=0


∑ λj −λ
= et j e
j!
j=0


∑ (λ et )j
= e−λ .
j!
j=0
t
Esta última serie converge, para todo t real, y su valor es eλe , ası́, para todo t real
MX (t) = e−λ eλe
t

= eλ (e −1) .
t

Derivando, se tiene que


′ t −1)
MX (t) = λ et eλ (e ,
y
′′ t −1) t −1)
MX (t) = λ et eλ (e + λ2 e2t (e .
Evaluando estas dos derivadas en t = 0, obtenemos
E(X) = λ, E(X 2 ) = λ2 + λ
de donde
V ar(X) = λ2 + λ − λ2
= λ.

Ejemplo 2.6.17: (La f.g.m. de una variable aleatoria Gamma de parámetros (α, λ)).
Sea X ∼ Gamma(α, λ), entonces
MX (t) = E(etX )
∫ ∞
= etu fX (u)du
−∞
∫ ∞
λα
= etu uα−1 e−λu du
0 Γ(α)
∫ ∞
λα
= uα−1 e−(λ−t)u du.
Γ(α) 0

- 304 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Esta última integral converge si λ − t > 0, es decir, si t < λ, y puede ser evaluada de la
siguiente forma. Con el cambio de variable z = (λ − t)u, se obtiene que
∫ ∞ ∫ ∞
α−1 −(λ−t)u 1 1
u e du = · z α−1 e−z dz
0 (λ − t)α−1 λ − t 0
∫ ∞
1 1α
= Γ(λ) z α−1 e−z dz.
(λ − t)α 0 Γ(α)
Como el integrando de esta última integral corresponde a la densidad de una dis-
tribución Gamma de parámetro (α, 1), la integral vale 1. En consecuencia, para todo
t < λ,

λα 1
MX (t) = Γ(α)
Γ(α) (λ − t)α
( )α
λ
=
λ−t
( )
1 −α
= 1− t .
λ

En este caso, el abierto que contiene al cero, donde está definida MX , es


D =] − ∞, λ[. Además, derivando y luego evaluando en t = 0 se obtiene que

′ (0) = α ′′ α(α + 1)
MX ; MX (0) = .
λ λ2
En consecuencia,
α α(α + 1) ( α )2 α
E(X) = y V ar(X) = 2
− = 2.
λ λ λ λ

Ejemplo 2.6.18: (La f.g.m. de una variable aleatoria normal (0, 1)). Sea X ∼ N (0, 1),
entonces

MX (t) = E(etX )
∫ ∞
1
e− 2 u du
1 2
= etu √
−∞ 2π
∫ ∞
1
e− 2 (u −2tu) du.
1 2
= √
−∞ 2π

Pero,

u2 − 2tu = (u − t)2 − t2 ,

- 305 -
2.6 Esperanza de Funciones de Vectores Aleatorios

de donde la última integral es igual a


∫ ∞
t2 1
e− 2 (u−t) du.
1 2
e2 √
−∞ 2π

Finalmente, el integrando de esta integral corresponde a la densidad de una normal


(t, 1), luego su valor es 1. En consecuencia,
1 2
MX (t) = e 2 t , para todo t real.

Desde este resultado es fácil ver que E(X) = 0 y V ar(X) = 1.


En el caso en que X ∼ N (µ, σ 2 ), la variable aleatoria Y = σ1 (X − µ) tiene distribución
normal (0, 1), y como X = σY + µ, entonces

MX (t) =E(etX )
=E(et(σY +µ) )
=etµ E(etσY )
=etµ MY (tσ)
1 2
=etµ e 2 (tσ)
1 2 t2
=eµt+ 2 σ , para todo t real.

Con este resultado se obtiene que


1
′ (t) = (µ + σ 2 t)eµt+ 2 σ
MX
2 t2

y
1 1
′′ (t) = σ 2 eµt+ 2 σ
MX
2 t2
+ (µ + σ 2 t)2 eµt+ 2 σ
2 t2
,

de donde
′ (0) = µ
E(X) = MX y ′′ (0) − µ2 = σ 2 .
V ar(X) = MX

Teorema 2.6.7: Si E(X r ) existe, para todo natural r, y si existe a > 0 de modo que
la serie

∑ tr
E(X r )
r!
r=0

converge absolutamente para t ∈] − a, a[, entonces MX (t) existe, para todo t ∈] − a, a[.
Además se verifica la relación

d(r)
E(X r ) = MX (0). (∗)
dtr

Teorema 2.6.8: Si MX (t) existe para t en un intervalo de la forma ]−h, h[, con h > 0,
y si MX (t) puede desarrollarse en serie de potencias infinita en torno a t = 0, entonces
E(X r ) existe, para todo r natural, y estos momentos pueden obtenerse de la ecuación (∗).

- 306 -
2.6 Esperanza de Funciones de Vectores Aleatorios

La demostración de estos dos teoremas se basan en el desarrollo en serie de Taylor de


la función MX (t) y escapan a los objetivos de este texto. Cabe señalar que (∗) dice que
E(X r ) no es más que el coeficiente del término tr en el desarrollo en serie de Taylor de
MX (t) en torno de t = 0.

Ejemplo 2.6.19: Sea X variable aleatoria normal estándar, es decir, de parámetros


(0, 1). Entonces, según Ejemplo 2.6.18,
1 2
MX (t) = e 2 t , para todo t real.

Sabemos de cálculo integral, que la función g(x) = ex se puede desarrollar en serie de


Taylor en torno de x = 0, y su radio de convergencia es R = ∞. Además, su desarrollo
resulta

∑ xr
ex = , para todo x real,
r!
r=0

de donde,
∞ (1 )r
∑ t2
2
MX (t) =
r!
r=0

∞ ( )r 2r
∑ 1 t
=
2 r!
r=0


∑ 1 (2r)! t2r
=
2r r! (2r)!
r=0

1 (2 · 0)! t0 1 (2 · 1)! t2 1 (2 · 2)! t4


= + + + ···
20 0! 0! 21 1! 2! 22 2! 4!

∑ tk
= ak
k!
k=0

con 


1 k!
 k si k es par
ak = 2 2 (k/2)!



0 si k es impar
Notar que, si k es impar, entonces el término tk no aparece en el desarrollo, por esta
razón ak = 0 cuando k es impar.
En consecuencia, MX (t) existe para t en el intervalo ] − ∞, ∞[ y MX (t) se puede
desarrollar en serie de potencias en torno de t = 0. Luego, Teorema 2.6.8 implica que,
para una variable aleatoria normal (0, 1),

E(X k ) = ak ,

- 307 -
2.6 Esperanza de Funciones de Vectores Aleatorios

es decir, 


1
·
k!
 si k es par
2k/2 (k/2)!
E(X ) =
k



0 si k es impar
Ası́,
E(X) = 0, E(X 3 ) = 0, E(X 2001 ) = 0, etc.
y
E(X 2 ) = 1, E(X 4 ) = 3, E(X 6 ) = 15, etc.

Proposición 2.6.1: Si la variable aleatoria X tiene f.g.m. MX (t), entonces la variable


aleatoria Y = aX + b, con a, b reales, tiene f.g.m. igual a

MY (t) = ebt MX (at).

Demostración:

MY (t) =E(etY )
=E(et(aX+b) )
=E(e(at)X ebt )
=ebt MX (at).

Proposición 2.6.2: Si X e Y son variables aleatorias independientes, con funciones


generadoras de momentos MX (t); MY (t), entonces la variable aleatoria Z = X + Y , tiene
f.g.m. igual a
MX+Y (t) = MX (t) MY (t).

Demostración:
MZ (t) = E(etZ )
= E(et(X+Y ) )
= E(etX etY ).
Desde el supuesto de independencia,

MZ (t) = E(etX ) E(etY )


= MX (t) MY (t).

Inductivamente, Proposición 2.6.2 puede ser extendida a la suma de n, n ≥ 3, variables


aleatorias independientes. Es decir, si X1 , . . . , Xn son variables aleatorias independientes
y Z = X1 + · · · + Xn , entonces

MZ (t) = MX1 (t) · · · MXn (t).

- 308 -
2.6 Esperanza de Funciones de Vectores Aleatorios

En particular, si X1 , . . . , Xn son iid, entonces

MZ (t) = (MX1 (t))n.

Una de las propiedades más usadas de la f.g.m. es la enunciada en la Proposición


2.6.2. Los ejemplos siguientes muestran como esta propiedad puede usarse para derivar
resultados que tomarı́an mucho tiempo y trabajo sin la f.g.m.

Ejemplo 2.6.20: La suma de dos variables aleatorias independientes Poisson también


es Poisson.
Sean X e Y variables aleatorias independientes tales que X ∼ P(λ) e Y ∼ P(α). Entonces
X + Y ∼ P(λ + α). En efecto, por la independencia de X e Y ,

MX+Y (t) = MX (t) MY (t),

y del Ejemplo 2.6.16, se deduce que

MX+Y (t) = eλ(e −1) eα(e −1)


t t

= e(λ+α)(e −1) , para todo t real .


t

Ahora Teorema 2.6.5 implica que X + Y ∼ P(λ + α).

Ejemplo 2.6.21: Sean X1 , . . . , Xn variables aleatorias independientes y tales que, para


cada i, Xi tiene distribución Gamma de parámetros (αi , λ). Entonces la variable aleatoria
Z = X1 + · · · + Xn , tiene distribución Gamma de parámetros (α1 + · · · + αn , λ).
En particular, si αi = 1, para todo i, es decir, todas las Xi tienen distribución exponen-
cial de parámetro λ (y son independientes), entonces la suma es Gamma de parámetros
(n, λ). En otras palabras, suma de n variables aleatorias independientes y exp(λ) es
Gamma (n, λ).
En efecto, la independencia de las Xi y el Ejemplo 2.6.17 implican que, para t < λ,

MZ (t) = MX1 (t) · · · MXn (t)


( ) ( )
1 −α1 1 −αn
= 1− t ··· 1 − t
λ λ
( )
1 −(α1 +···+αn )
= 1− t .
λ
Finalmente, Teorema 2.6.5 nos lleva a concluir que

X1 + · · · + Xn ∼ Gamma(α1 + · · · + αn , λ).

Este resultado fue anunciado en el Ejemplo 2.5.2 y el caso exponencial fue obtenido
con bastante más trabajo.

- 309 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Otro resultado interesante que se desprende de este ejemplo es que la suma de variables
aleatorias independientes, cada una de ellas con distribución chi-cuadrado, también es chi-
cuadrado. En efecto, como la distribución chi-cuadrado
( m 1 ) con m grados de libertad es lo
mismo que la distribución Gamma de parámetros 2 , 2 , entonces, decir que X1 , . . . , Xn
son independientes y para cada i, Xi ∼ χ2(mi ) , es lo mismo que decir que X1 , . . . , Xn son
( )
independientes y para cada i, Xi ∼ Gamma m2i , 12 .
Ahora, usando el ejemplo anterior con αi = m2i y λ = 12 , se obtiene que
( )
m1 + · · · + mn 1
X1 + · · · + Xn ∼ Gamma , ,
2 2

o sea

X1 + · · · + Xn ∼ χ2(m1 +···+mn ) .
( )2
En particular, usando el hecho que si Y ∼ N (µ, σ 2 ), entonces Z = Y σ−µ ∼ χ2(1)
(lo que se verifica, por ejemplo, encontrando FZ y luego derivándola), se deduce que: si
X1 , . . . , Xn son independientes y para cada i, Xi ∼ N (µi , σi2 ), entonces

n (
∑ )
Xi − µ 2
∼ χ2(n) .
σ
i=1

2.6.3 Función generadora de momentos multivariada


Como en casos anteriores, nos reducimos al caso bivariado.

Definición 2.6.4: Si X e Y son variables aleatorias, se define la función generadora


de momentos conjunta, se anota MX,Y (u, v), como función de dos variables
( )
MX,Y (u, v) =E e(u,v) (X,Y )
( )
=E euX+vY

cuando esta esperanza existe.


Si la función generadora de momentos conjunta está definida sobre un conjunto C ⊂ R2
abierto, que contenga a (0, 0), entonces ésta determina únicamente la densidad (o función
de cuantı́a) conjunta del vector aleatorio (X, Y ).
También, la f.g.m. de la marginal X es obtenida como
( )
MX (t) =E etX
( )
=E etX+0Y
=MX,Y (t, 0)

y similarmente,
MY (t) = MX,Y (0, t).

- 310 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Además, si X e Y son independientes,


( )
MX,Y (u, v) =E euX+vY
( )
=E euX evY
( )
=E euX ) E(evY
=MX (u) MY (v).

La f.g.m. conjunta puede ser usada para calcular momentos conjuntos de la forma
E(X r Y q ), en particular E(XY ). Similar al caso unidimensional, vale la relación
∂ n+m

MX,Y (u, v) = E(X n Y m ).
∂un ∂v m (u,v)=(0,0)

Ejemplo 2.6.22: Sea (X1 , X2 , X3 ) vector aleatorio con distribución trinomial. Es


decir, su función de cuantı́a conjunta está dada por
k!
pX1 ,X2 ,X3 (a1 , a2 , a3 ) = pa11 pa22 pa33 ,
a1 ! a2 ! a3 !
para i ∈ {1, 2, 3}, 0 < pi < 1, p1 + p2 + p3 = 1 y a1 , a2 , a3 son enteros no negativos
cuya suma es k.
Para (u1 , u2 , u3 ) ∈ R3 ,
( )
MX1 ,X2 ,X3 (u1 , u2 , u3 ) = E e(u1 ,u2 ,u3 ) (X1 ,X2 ,X3 )
( )
= E eu1 X1 +u2 X2 +u3 X3
∑∑∑
= eu1 a1 +u2 a2 +u3 a3 pX1 ,X2 ,X3 (a1 , a2 , a3 )
a1 a2 a3

∑∑∑ k!
= (p1 eu1 )a1 (p2 eu2 )a2 (p3 eu3 )a3
a1 a2 a3
a1 ! a2 ! a3 !

= (p1 eu1 + p2 eu2 + p3 eu3 )k .


De modo que,
MX1 (t) = MX1 ,X2 ,X3 (t, 0, 0)

= (p1 et + p2 + p3 )k .
Pero, p1 + p2 + p3 = 1, de donde p2 + p3 = 1 − p1 , o sea,

MX1 (t) = (1 − p1 + p1 et )k , para todo t ∈ R,

que corresponde exactamente a la f.g.m. de una variable aleatoria binomial de parámetros


(k, p1 ). En consecuencia, X1 ∼ B(k, p1 ).

Análogamente, X2 ∼ B(k, p2 ) y X3 ∼ B(k, p3 ), de donde E(X2 ) = k p2 ; E(X3 ) = k p3


y V ar(X2 ) = k p2 (1 − p2 ); V ar(X3 ) = k p3 (1 − p3 ).

- 311 -
2.6 Esperanza de Funciones de Vectores Aleatorios

∂2
Por otra parte, E(X2 X3 ) es la función ∂u12 ∂u13
MX1 ,X2 ,X3 (u1 , u2 , u3 ) evaluada en
(u1 , u2 , u3 ) = (0, 0, 0). Pero,

∂2 ∂ ( )
MX1 ,X2 ,X3 (u1 , u2 , u3 ) = k (p1 eu1 + p2 eu2 + p3 eu3 )k−1 p3 eu3
∂u2 ∂u3 ∂u2

= k(k − 1) p2 p3 eu2 eu3 (p1 eu1 + p2 eu2 + p3 eu3 )k−2 ,

de donde
( )k−2
E(X2 X3 ) = k(k − 1) p2 p3 e0 e0 p1 e0 + p2 e0 + p3 e0

= k(k − 1) p2 p3 (p1 + p2 + p3 )k−2

= k(k − 1) p2 p3 1k−2 .

Ası́, por ejemplo, ρ(X2 , X3 ) resulta:

Cov(X2 , X3 )
ρ(X2 , X3 ) = √ √
V ar(X2 ) V ar(X3 )

E(X2 X3 ) − E(X2 )E(X3 )


= √ √
V ar(X2 ) V ar(X3 )

k(k − 1)p2 p3 − kp2 kp3


= √ √
kp2 (1 − p2 ) kp3 (1 − p3 )

−kp2 p3
= √ √ √
k p2 p3 (1 − p2 )(1 − p3 )

p2 p3
= − .
(1 − p2 )(1 − p3 )

Comentario Final
La función generadora de momentos pese a ser, como hemos visto, de gran utilidad en
teorı́a de probabilidades, tiene una importante limitación, y es el hecho que ella puede
no existir. De esta forma, cuando se quiere, por ejemplo, hacer una demostración que
involucre variables aleatorias generales, la f.g.m. no puede ser utilizada. Por el contrario,
la función que definimos a continuación, conocida como función caracterı́stica de una
variable aleatoria, siempre existe, pero usar esta función requiere alguna familiaridad con
las técnicas de variable compleja.

Definición 2.6.5: La función caracterı́stica de una variable aleatoria X, denotada por


ΦX , es definida por ( )
ΦX (t) = E eitX , para todo t real,

- 312 -
2.6 Esperanza de Funciones de Vectores Aleatorios

donde i = −1.

Recordemos que por la fórmula de Euler, eitu = cos(t u) + i sin(t u), u ∈ R, luego
la variable aleatoria compleja eitX = cos tX + i sin tX, siempre tiene esperanza finita,
cualquiera sea la variable
√ aleatoria X. En efecto, como el módulo de un número complejo,
z = a + ib, es |z| = a + b2 , entonces
2


|ΦX (t)| = E(eitX )

= |E(cos tX) + iE(sin tX)|



= E2 (cos tX) + E2 (sin tX).
Usando ahora la desigualdad de Jensen, se obtiene que
√ √
E2 (cos tX) + E2 (sin tX) ≤ E(cos2 tX) + E(sin2 tX)

= E(cos2 tX + sin2 tX)

= E(1)

= 1.

Por lo tanto, para todo t real, |ΦX (t)| ≤ 1.


La función caracterı́stica ΦX (t) resulta, en el caso discreto
∑ ∑
ΦX (t) = cos(tu) pX (u) + i sin(tu) pX (u)
u∈RecX u∈RecX

y en el caso continuo
ΦX (t) = E(cos tX) + i E(sin tX)
∫ ∞ ∫ ∞
= cos(tu) fX (u)du + i sin(tu) fX (u)du.
−∞ −∞

Cabe hacer notar que, en el caso en que la f.g.m. exista, se tiene que ΦX (t) = MX (it).
Por ejemplo, si X ∼ N (µ, σ 2 ), entonces
ΦX (t) = MX (it)
1 2 (it)2
= eµ(it)+ 2 σ
1 2 t2
= eµti− 2 σ .
Las propiedades de la función caracterı́stica son similares a las de la f.g.m., por ejemplo,
los momentos de una variable aleatoria pueden ser obtenidos derivando la función carac-
terı́stica, y la función caracterı́stica de una suma de variables aleatorias independientes es
el producto de sus funciones caracterı́sticas.
Para ahondar acerca de la función caracterı́stica puede consultarse en [7], capı́tulo VI.

- 313 -
2.6 Esperanza de Funciones de Vectores Aleatorios

PROBLEMAS

Problema 2.6.A: Sean X, Y variables aleatorias independientes con varianza finita.


Pruebe que
V (XY ) = V (X)V (Y ) + (E(X))2 V (Y ) + (E(Y ))2 V (X).

Problema 2.6.B: Sea X1 , . . . , Xn , n ≥ 2, variables aleatorias iid con esperanza común


µ y varianza común σ 2 .

n
1
a) Calcule la esperanza y varianza de X̄n = n Xi .
i=1


n
b) Calcule la esperanza de Sn2 = 1
n−1 (Xi − X̄n )2 .
i=1

Problema 2.6.C: Sean X1 , X2 , . . . , Xn , n ≥ 2, variables aleatorias iid U (0, a). Considere


las variables aleatorias

1∑
n
Y1 = max{X1 , . . . , Xn }, Y2 = Xi .
n
i=1

a) Calcule E(Y1 ) y E(Y2 ).

b) Encuentre λ1 y λ2 reales de modo que

E(λ1 Y1 ) = E(λ2 Y2 ) = a.

c) Compare las varianzas de λ1 Y1 y λ2 Y2 .

Problema 2.6.D: La tabla siguiente, resume los tamaños de 100 cobros realizados en
una compañı́a de seguros a raı́z de 100 siniestros para los que la compañı́a mantenı́a un
seguro.

tamaño cobro número de cobros


(en unidades monetarias)
0 − 400 2
400 − 800 24
800 − 1200 32
1200 − 1600 21
1600 − 2000 10
2000 − 2400 6
2400 − 2800 3
2800 − 3200 1
3200 − 3600 1
3600 − 4000 0
Total 100

- 314 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Suponiendo que la distribución log-normal es un modelo para el tamaño de los cobros,


estime la probabilidad de que un cobro particular sea mayor que 1600.

Problema 2.6.E: Sean (X1 , Y1 ), . . . , (X100 , Y100 ) vectores aleatorios independientes y


con igual distribución. Suponga que, para i = 1, . . . , 100,

E(Xi ) = 0.5, Var(Xi ) = 0.05,

E(Yi ) = 0.4, Var(Yi ) = 0.05,

Cov(Xi , Yi ) = 0.03.

Sea T la variable aleatoria definida por

1 ∑
100
T = (Xi + Yi ).
100
i=1

Calcule E(T ) y Var(T ).

Problema 2.6.F: Sean X, Y variables aleatorias. Verifique que, para todo (x, y) ∈ R2 ,

F(X,Y ) (x, y) ≤ FX (x) FY (y).

Problema 2.6.G: Suponga que n objetos, n ≥ 2, están ordenados consecutivamente


ocupando las posiciones 1, . . . , n. Sea Xi la posición que ocupa el i-ésimo objeto después
de permutar, al azar, estos objetos (o sea, se elige al azar una de las n! permutaciones
posibles y luego se le aplica a los objetos). Sea Yi = 1 si el i-ésimo objeto queda en su
posición original y sea Yi = 0 en caso contrario, donde i ∈ {1, . . . , n}.

a) Calcule E(Y1 ) y E(Y1 Y2 ).



n
b) Sea T = Yi . Calcule la media y varianza de T .
i=1

Problema 2.6.H: Sea (X, Y ) vector aleatorio discreto, con función de cuantı́a conjunta
dada por la siguiente tabla

Y \X 0 1 2 3 4 5
α
0 32 0 0 0 0 0
β 4 3 2 1
1 0 32 32 32 32 32
6 6 3
2 0 0 32 32 32 0
1
3 0 0 0 32 0 0

- 315 -
2.6 Esperanza de Funciones de Vectores Aleatorios

a) Suponga que E(X) = 52 , hallar α y β.

b) Calcule ρ(X, Y ).

Problema 2.6.I: Sea X variable aleatoria discreta. Suponga que la función de cuantı́a
conjunta para (X, Y ) está dada por la tabla siguiente:

X\Y 0 π/4 π/2


0 0.1 0.2 0.6
1/2 0.1 0 0

Encuentre:

a) E(4X cos2 Y ).

b) Var(4X cos2 Y ).

c) Función de cuantı́a conjunta para (U, V ) = (4X , cos2 Y ).

d) Cov(U, V ).

Problema 2.6.J: Sean X1 , X2 , variables aleatorias iid N (0, 1). Considere el vector
aleatorio (Y1 , Y2 ), definido por

Y1 = a11 X1 + b1 , a11 > 0,

Y2 = a21 X1 + a22 X2 + b2 , a22 > 0.

a) Determine las constantes a11 , a21 , a22 , b1 , b2 , para que (Y1 , Y2 ) satisfaga las condi-
ciones siguientes:

E(Y1 ) = 4, E(Y2 ) = 5, V (Y1 ) = 4, V (Y2 ) = 34, Cov(Y1 , Y2 ) = 10.

b) Calcule E(etY2 ).

Problema 2.6.K: Sean X1 , . . . , Xn , n ≥ 2, variables aleatorias iid N (0, 1),


µ = (µ1 , . . . , µn ) vector n-dimensional y A matriz real de orden n × n.
 
a11 a12 . . . a1n
 a21 a22 . . . a2n 
 
A= . .. .. .. 
 .. . . . 
an1 an2 . . . ann

Considere las variables aleatorias Yj , j = 1, . . . , n, definidas por

Yj = a1j X1 + a2j X2 + · · · + anj Xn + µj .

- 316 -
2.6 Esperanza de Funciones de Vectores Aleatorios

En notación matricial se puede escribir

(Y1 Y2 . . . Yn )1×n = (X1 X2 . . . Xn )1×n An×n + (µ1 µ2 . . . µn )1×n .

Verifique que:
( ∑ )
a) Yj ∼ N µj , nk=1 a2kj ,

b) Cov(Yi , Yj ) = cij , donde cij es el elemento ubicado en la fila i columna j de la matriz


At A. Esta matriz es simétrica y es común denotarla por Σ, y al elemento cij se le
denota por Σij .

Problema 2.6.L: Sean Y1 , Y2 , Y3 variables aleatorias independientes de media cero y


varianza uno. Se definen las variables aleatorias X1 , X2 , X3 por:

Y1
X1 = √ , X2 = αX1 + Y2 , X3 = αX2 + Y3 (|α| < 1).
1 − α2
a) Halle Cov(Xi , Xj ), i, j ∈ {1, 2, 3}.

b) Calcule E(Xi ), i ∈ {1, 2, 3}.

Problema 2.6.M: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid N (µ, σ 2 ). Para
cada natural n y real x, se define la variable aleatoria Zn,x ,

1∑
n
Zn,x = I]−∞,x[ (Xi ),
n
i=1

es decir, Zn,x representa el número promedio de variables Xi (i ≤ n) que son menores que
x.
Para cada x, y ∈ R, x < y, calcule:

a) E(Zn,x ),

b) V (Zn,x ),

c) Cov(Zn,x , Zn,y ),
(( ( ))2 )
d) lim E Zn,x − Φ x−µ σ .
n→∞

Problema 2.6.N: Sean X1 , . . . , Xn variables aleatorias iid N (0, 1) y

1∑ 1∑
n n
X̄ = Xi , σ = 2
(Xi − X̄)2 , n ≥ 2.
n n
i=1 i=1

Pruebe que X̄ y σ 2 son independientes.

- 317 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Problema 2.6.O: Sean Y1 , . . . , Yn (n ≥ 2), variables aleatorias definidas por

Yi = U + Yi−1 + Zi−1 , i = 1, . . . , n.

Asuma que Z0 = 0, Y0 = 0 y U, Z1 , . . . , Zn−1 son variables aleatorias independientes, de


media nula, V (U ) = a, y para todo i ∈ {1, . . . , n − 1}, V (Zi ) = b.
Encuentre Cov(Yi , Yj ), para todo i, j ∈ {1, . . . , n}.

Problema 2.6.P: Sea X variable aleatoria tal que, para todo n ≥ 1,


2n
E(X n ) = .
n+1
Encuentre alguna (de hecho es la única) distribución de probabilidad para X que satisfaga
la condición anterior.

Problema 2.6.Q: Una persona realiza el siguiente juego: lanza una moneda honesta en
forma sucesiva e independiente, hasta obtener ya sea 2 caras o 2 sellos. Sea N el número
de lanzamientos requeridos para terminar el juego.

a) Calcule la función generadora de momentos de N.

b) Calcule el valor esperado y varianza de N.

Problema 2.6.R: Sea (X, Y ) vector aleatorio discreto, con función de cuantı́a conjunta
dada por la tabla siguiente:

X\Y 0 1 2 3
1 0.05 0 0.20 0
2 0.05 0.10 0 0.20
3 0 0.10 0.10 0.20

a) Encuentre la función generadora de momentos para la variable aleatoria


Z = 2X − 3Y.

b) ¿M2X−3Y (t) = M2X (t) M−3Y (t)?

Problema 2.6.S: Sea Xi ∼ N (µi , σi2 ), 1 ≤ i ≤ n. Suponga que X1 , . . . , Xn son inde-


pendientes.
Pruebe que ( n )
∑n ∑ ∑
n
αi Xi ∼ N αi µi , αi2 σi2 .
i=1 i=1 i=1

Problema 2.6.T: Sean X1 , . . . , Xr variables aleatorias independientes,


∑ tal que
Xi ∼Gamma(ni , λ), i∑= 1, . . . , r. Verificar que la variable aleatoria Z = ri=1 Xi tiene
distribución Gamma( ri=1 ni , λ).

- 318 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Problema 2.6.U: Sean X1 , . . . , Xn (n ≥ 2), variables aleatorias iid U (0, 1). Asuma que
( n )1/n

Y = Xi y Z = −2n ln(Y ).
i=1

Halle la distribución de la variable aleatoria Z.

Problema 2.6.V: Sea X1 , . . . , Xn , . . . sucesión de variables aleatorias iid exp(λ). Para


t > 0 fijo, se definen

n
N = max{n ≥ 0 : Sn ≤ t}, con S0 = 0 y Sn = Xi .
i=1

O sea, N indica el ı́ndice de la última suma parcial menor o igual a t. Pruebe que N tiene
distribución Poisson con parámetro λt.

Problema 2.6.W: Sea (X, Y ) vector aleatorio con función generadora de momentos
definida por

M(X,Y ) (s, t) = exp{2s + 3t + s2 + ast + 2t2 }, a constante y s, t reales.

i) Determine a de modo que X +2Y y 2X −Y sean variables aleatorias independientes.

ii) Calcule P (X + 2Y < 2X − Y ), con el valor de a encontrado en i).

Problema 2.6.X: Sean X, Y variables aleatorias discretas con recorridos {0, 1} y {0, 1, 2},
respectivamente. Suponga que la función de cuantı́a conjunta para (X, Y ) está dada por
la tabla siguiente.
X\Y 0 1 2
1 1 1
0 6 9 18
1 1
1 3 0 3

a) Halle M(X,Y ) .

b) Calcule E(XY 2 + X 2 ).

Problema 2.6.Y: Sean X1 , . . . , Xn variables aleatorias iid con densidad de probabilidad


f (x; α) = αxe−αx I( x>0 ) , con α > 0, constante.
2

a) Pruebe que si X sigue la distribucin descrita, entonces X 2 se distribuye exponencial


de parámetro α.
∑n 2
b) Muestre que i=1 Xi tiene distribución Gamma.
n
c) Sea Y = . Determine E(Y ), y encuentre el valor de c, tal que E(cY ) = α.
T

- 319 -
2.6 Esperanza de Funciones de Vectores Aleatorios

Recuerde que, si Y ∼ Gamma(a, b), a, b > 0, entonces

- E(Y ) = ab , V ar(Y ) = a
b2
.

- MY (t) = (1 − bt )−a , t < b.


( ) ( )
1 b 1 b2
- Para a ̸= 1 y a ̸= 2, E = y V ar = .
Y a−1 Y (a − 1)2 (a − 2)

Problema 2.6.Z: Sean X1 , . . . , Xn variables aleatorias iid exp(θ). Encuentre la dis-



n
tribución de la variable aleatoria Y = 2θ Xi .
i=1

Problema 2.6.AA: Asuma que (X1 , X2 , X3 ) ∼ N (µ, Σ) y además X1 , X2 , X3 satisfacen

i) X1 y X2 + X3 son independientes.

ii) X2 y X1 + X3 son independientes.

iii) X3 y X1 + X2 son independientes.

Pruebe que X1 , X2 , X3 son independientes.

- 320 -
2.7. APROXIMACIÓN

2.7 Aproximación

El teorema que enunciaremos en esta sección permite calcular probabilidades (aproxima-


das) en las que está involucrada una suma de n variables aleatorias independientes y
con igual distribución, sin necesariamente conocer la distribución de la suma. Más pre-
cisamente, estudia el comportamiento asintótico de una suma estandarizada de variables
aleatorias iid.
Este teorema es conocido como Teorema del Lı́mite Central Clásico, y es uno de los
principales resultados de la Teorı́a de Probabilidades.

Teorema 2.7.1: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias independientes y con


igual distribución (iid), con media común µ y varianza común σ 2 , 0 < σ 2 < ∞.
Para cada n ≥ 1, se definen las variables aleatorias

n
Sn − E(Sn )
Sn = Xi , Yn = √ .
i=1
V ar(Sn )

Entonces, para todo t real,

lim FYn (t) = FZ (t),


n→∞

con Z ∼ N (0, 1). Es decir,

lim P (Yn ≤ t) = P (Z ≤ t) := Φ(t).


n→∞

Notar que, por el hecho de que X1 , X2 , . . . tienen igual distribución,

Sn − nµ
Yn = √
nσ 2
√ ( )
n X1 + · · · + Xn
= −µ .
σ n
El teorema anterior puede leerse como: para “n grande”, la variable aleatoria Yn es
próxima a una variable aleatoria Normal (0, 1).
La demostración de este teorema escapa los objetivos de este texto, pero, puede consul-
tarse, por ejemplo, en [10]. A continuación presentamos un bosquejo de la demostración.

Nota:
( Esta propiedad
) es la que permite decir que, para n “suficientemente grande”,
Sn −E(Sn )
P √ ≤ an es aproximadamente igual a Φ(an ), (el número Φ(an ) se calcula desde
V (Sn )
una tabla N(0,1)).

Demostración: Para demostrar el Teorema 2.7.1 es suficiente probar que (Ver sección
2.9)
t2
lim ΦYn (t) = e− 2 ,
n→∞

- 321 -
2.7 Aproximación

donde ΦYn (·) representa la función caracterı́stica asociada a la variable aleatoria Yn .


Calculemos la función ΦYn (t).

  
 it ∑ [ ( { })]n
Xj − µ 
n
it (X1 − µ)
ΦYn (t) = E(eitYn ) = E exp √ = E exp √
 n σ  n σ
j=1

donde usamos que las variables aleatorias X1 , X2 , ..., Xn son iid.


( ( ))n
X1 −µ it
Denotemos por W = σ , luego ΦYn (t) = E exp √ W .
n
Consideremos la serie de Taylor de la función exponencial en torno de cero hasta orden 3.

it
√ W it i 2 t2 2 i3 t3 √itξ
e n = 1+ √ W + W + 3/2 e n W 3 .
n 2n 6n
Note que E(W ) = 0 y V ar(W ) = 1.
Luego tomando esperanza en la última expresión tenemos
2
( 3 3 )
√it
W t 1 i t itξ

E(e n ) = 1 − + E √ e nW .3
2n n 6 n
( )
itξ
i3√t3 √n
Sea Rn = E 6 n e W . Se puede probar que Rn converge a cero conforme n tiende a
3

infinito.
Por lo tanto,
[ ]n
t2 Rn t2
lim ΦYn (t) = lim 1 − + = e− 2 .
n→∞ n→∞ 2n n
lo concluye la demostración.

Ejemplo 2.7.1: Considere el promedio X̄n = n1 (X1 + · · · + Xn ), de n variables aleato-


rias independientes, cada una de ellas con distribución uniforme sobre ]0, 1[, esto es,
X1 , . . . , Xn son iid U (0, 1).
Encontremos el valor de n, de modo que, P (X̄n ≤ 0.51), sea aproximadamente igual a 0.9.
En este caso, para todo i ≥ 1,

1−0 (1 − 0)2 1
E(Xi ) = = 0.5 y V ar(Xi ) = = .
2 12 12
En consecuencia,

P (X̄n ≤ 0.51) = P (X1 + · · · + Xn ≤ 0.51 n)


( )
= P √ n −n 0.5
X1 +···+X
≤ 0.51
√n−n 0.5 .
1 1
n 12
n 12

- 322 -
2.7 Aproximación

Por lo tanto, Teorema 2.7.1 implica que, para n “grande”,


( )
P (X̄n ≤ 0.51) ≃ Φ 0.51
√n−n 0.5
1
n 12

(√ √ )
= Φ n 12 0.01 .
Por las condiciones del problema, n debe satisfacer la ecuación
(√ √ )
Φ n 12 0.01 = 0.9.

Usando la tabla normal (0, 1), se deduce que


√ √
n 12 0.01 = 1.29,

de donde
1292
n= ,
12
o sea n = 1387.

Ejemplo 2.7.2: La inspección de un cierto tipo de piezas metálicas es destructiva.


Se sabe que el costo, en pesos, por inspeccionar una pieza es 100 veces su longitud, en
milı́metros. Si la longitud de una pieza es una variable aleatoria con media 12mm y
desviación estándar 0.2mm. ¿Cuál es el número de piezas que se deben inspeccionar en
un dı́a, para que, con probabilidad “cercana” a 0.8413, la pérdida diaria por inspección no
supere los $43.320? Asumiremos que la longitud de una pieza cualquiera no influye en la
longitud de cualquier otra.
Para cada i ≥ 1, definamos las siguientes variables aleatorias:

Li = longitud, en milı́metros, de la i-ésima pieza inspeccionada,

Pi = costo, en pesos, por inspeccionar la i-ésima pieza.

Supongamos que el número de piezas que deben ser inspeccionadas es n. Entonces,


de los datos del problema, podemos asumir que L1 , L2 , . . . , Ln son iid. con media común
12mm y varianza común (0.2)2 mm2 .
También, para cada i ≥ 1, definamos Pi = 100Li . Ası́, si denotamos por Sn a la
variable aleatoria que representa la pérdida diaria por inspección, entonces


n
Sn = Pi .
i=1

Por ser L1 , . . . , Ln iid. con media común 12mm y desviación estándar 0.2mm, se
deduce que P1 , . . . , Pn son iid. con media común $1200 y desviación estándar común $20.
Ahora, por las condiciones del problema, n debe satisfacer la relación

P (Sn < 43.320) ≃ 0.8413.

- 323 -
2.7 Aproximación

Pero, ( )
Sn − n 1200 43.320 − n 1200
P (Sn < 43.320) = P √ < √ ,
n 202 n 202
por lo que Teorema 2.7.1 implica
( )
43.320 − n 1200
P (Sn < 43.320) ≃ Φ √ ,
n 202
y de la tabla normal (0, 1) concluimos que
43.320 − n 1200
√ = 1,
n 202
de donde n = 36.
Es decir, se deben inspeccionar 36 piezas en el dı́a para que la pérdida no supere los
$43.320, esto con un 84% de certeza.

Ejemplo 2.7.3: Se arroja n veces un dado equilibrado. Sea Z la variable aleatoria que
representa la suma de todos los puntos obtenidos.
a) Calculemos, para n = 200, el valor aproximado de P (680 ≤ Z ≤ 720).
( )
b) ¿Cuál serı́a el menor valor de n tal que P Zn − 3.5 ≤ 0.1 ≥ 0.9?
Para cada i ≥ 1, denotemos por Zi a la variable aleatoria que representa el número
que aparece al lanzar el dado en la i-ésima oportunidad.
Por las condiciones del problema, podemos asumir que las variables aleatorias Z1 , . . . , Zn
son iid uniformes sobre {1, 2, 3, 4, 5, 6}, o sea, Z1 , . . . , Zn son iid con media común
1 1 1 1 1 1
µ= 1· +2· +3· +4· +5· +6·
6 6 6 6 6 6

= 3.5
y varianza común
1 1 1 1 1 1
σ 2 = 12 · + 22 · + 32 · + 42 · + 52 · + 62 · − 3.52
6 6 6 6 6 6
35
= .
12
∑n
Ası́, si Z = i=1 Zi , y n = 200,
 
680 − 200 · 3.5 Z − 200 · 3.5 720 − 200 · 3.5 
P (680 ≤ Z ≤ 720) = P  √ ≤ √ ≤ √
200 · 35
12 200 · 35
12 200 · 12
35

 
Z − 200 · 3.5 720 − 200 · 3.5 
= P √ ≤ √
200 · 35
12 200 · 12
35

 
Z − 200 · 3.5 680 − 200 · 3.5 
−P  √ ≤ √ .
200 · 12
35
200 · 35
12

- 324 -
2.7 Aproximación

Teorema 2.7.1 implica que


   
720 − 200 · 3.5  680 − 200 · 3.5 
P (680 ≤ Z ≤ 720) ≃ Φ  √ − Φ √
200 · 35
12 200 · 35
12

= Φ(0.83) − Φ(−0.83)

= Φ(0.83) − (1 − Φ(0.83))

= 2 Φ(0.83) − 1

= 0.5934.

También, para cada n ≥ 1,


( ) ( )
Z Z
P − 3.5 ≤ 0.1 = P −0.1 ≤ − 3.5 ≤ 0.1
n n

= P (−0.1 n ≤ Z − 3.5 n ≤ 0.1 n)


 
−0.1 n Z − 3.5 n 0.1 · n 
= P √ ≤ √ ≤√ .
n · 35
12 n · 35
12 n · 35
12

Nuevamente, Teorema 2.7.1 implica que


   
( )
Z 0.1 n  −0.1 n 
P − 3.5 ≤ 0.1 ≃ Φ  √ − Φ √
n n · 35 n · 35
12 12

    
0.1 n 0.1 n
= Φ √  − 1 − Φ  √ 
n · 35
12 n · 35
12

 
0.1 n 
= 2Φ  √ − 1.
n · 35
12
( )
Por lo tanto, el menor natural n que debe cumplir P Zn − 3.5 ≤ 0.1 ≥ 0.9, satisface
la relación  
0.1 n 
2Φ  √ − 1 ≥ 0.9,
n · 35
12

es decir, satisface que ( )



√ 12
Φ n √ ≥ 0.95.
10 35

- 325 -
2.7 Aproximación

Desde la tabla normal (0, 1) se concluye que



√ 12
n √ ≥ 1.65,
10 35
o sea,
n ≥ 794.0625.
En consecuencia, el número mı́nimo
( Z de lanzamientos
) del dado que se deben realizar,

para que se cumpla la relación P n − 3.5 ≤ 0.1 ≥ 0.9, es n = 795.

Ejemplo 2.7.4: En una ciudad, la proporción de consumidores que prefieren la marca


(A) de bebida gaseosa es p. Se toma una muestra al azar de tamaño n (la ciudad es lo
bastante grande como para que se puedan considerar equivalentes al muestreo con o sin
reemplazo). Sea R la proporción de consumidores en la muestra que prefieren la marca A.
Calculemos:

a) aproximadamente P (|R − p| ≤ 0.01), si p = 0.2 y n = 200,

b) el menor δ > 0 tal que P (|R − p| ≤ δ) ≥ 0.9, si p = 0.2 y n = 200,

c) el menor natural n tal que P (|R − p| ≤ 0.01) ≥ 0.9, si p = 0.2,

d) el menor natural n tal que P (|R − p| ≤ 0.01) ≥ 0.9, si 0.1 < p < 0.3.

Denotemos por Xi la variable aleatoria que indica 1 si el consumidor muestreado pre-


fiere la marca A, y 0 si no.
Como se consideran equivalentes el muestreo con o sin reemplazo, podemos asumir
que X1 , . . . , Xn son iid binomiales de parámetros (1, p), es decir, tienen media común p
y varianza común p (1 − p). Además, como R es la proporción de consumidores en la
muestra que prefieren la marca A, entonces

X1 + · · · + Xn
R= .
n
Ası́, para δ > 0,

P (|R − p| ≤ δ) = P (−δ < R − p < δ)


( √ √ √ )
n n n
= P −δ √ <√ (R − p) < δ √ ,
p(1 − p) p(1 − p) p(1 − p)

por lo que Teorema 2.7.1 implica que


( √ ) ( √ )
δ n δ n
P (|R − p| ≤ δ) ≃ Φ √ − Φ −√
p(1 − p) p(1 − p)
( √ )
δ n
= 2Φ √ − 1.
p(1 − p)

- 326 -
2.7 Aproximación

Para a), p = 0.2; n = 200 y δ = 0.01, de donde


( √ )
δ n
2Φ √ − 1 = 2Φ(0.35) − 1
p(1 − p)
= 0.2736.

En el caso b), p = 0.2; n = 200 y δ cumple que P (|R − p| ≤ δ) ≥ 0.9. Por esta razón,
( √ )
δ 200
2Φ √ − 1 ≥ 0.9,
0.2 · 0.8

de donde
Φ(35.6 δ) ≥ 0.95,
o sea, el menor δ > 0 satisface que, 35.6 δ ≥ 1.65, por lo que δ = 0.047.

En el punto c), se debe cumplir la relación


( √ )
0.01 n
2Φ √ − 1 ≥ 0.9,
0.2 · 0.8
de donde √
0.01 n
≥ 1.65.
0.4
Entonces, el menor n que satisface la relación pedida es n = 4356.

Finalmente, en el caso d), se debe cumplir que


( √ )
0.01 n
Φ √ ≥ 0.95,
p(1 − p)

es decir, √
0.01 n
√ ≥ 1.65,
p(1 − p)
por lo que
n ≥ 27225 p (1 − p).
La función g(p) = p(1 − p), 0 < p < 1, se muestra en la figura siguiente

g(p)

0.25

0.5 1 p

Figura 2.7.1

- 327 -
2.7 Aproximación

En consecuencia, la función g(p) es creciente para 0 < p < 0.5, por lo que se tiene
g(0.1) < g(p) < g(0.3), de donde,

0.1 · 0.9 < p(1 − p) < 0.3 · 0.7,

o sea,
0.09 < p(1 − p) < 0.21,

concluyéndose que
2450.25 < 27225 p (1 − p) < 5717.25.

Por lo tanto, el menor valor de n es 5718.

Ejemplo 2.7.5: Sean f : [0, 1] → R+ función continua, tal que


∫ 1
sup |f (x)| = m < 1 y p= f (t)dt .
x∈[0,1] 0

Sean Z1 , . . . , Zn , vectores bidimensionales tales que:

a) Z1 , . . . , Zn independientes,

b) Zi ∼ U (G), con G = [0, 1] × [0, 1].

Para cada i ≥ 1, se define la variable aleatoria Xi por, Xi = I(Zi ∈D) , donde


D = {(x, y) ∈ [0, 1]2 : 0 < y ≤ f (x)}, es decir, Xi es uno si el punto escogido al azar está
en la región D y 0 si no.
La área sombreada de la figura siguiente muestra la región D.

f (x)

1 x

Figura 2.7.2

Calculemos

i) E(X̄n ) y V (X̄n ),

ii) el mı́nimo natural n, de modo que con probabilidad inferior a 0.005, la distancia
entre X̄n y p sea mayor que 0.01.

- 328 -
2.7 Aproximación

Desde que los vectores Z1 , . . . , Zn son iid U ([0, 1] × [0, 1]), se tiene que las variables
aleatorias X1 , . . . , Xn son iid, por lo que,
1
E(X̄n ) = n E(X1 )
n

= P (Z1 ∈ D)
∫ ∫
= fZ1 (u, v)dudv
D

área D
=
área G

= área D

= p,
y
1
V (X̄n ) = n V (X1 )
n2
1
=p(1 − p).
n
Para el caso ii), n debe satisfacer la relación
( )
P X̄n − p > 0.01 < 0.005.
Nótese que, la desigualdad de Chebyshev implica que
( ) V (X̄n ) p (1 − p)
P X̄n − E(X̄n ) > 0.01 ≤ = ,
(0.01)2 n (0.01)2
p(1−p)
luego, n debe satisfacer la desigualdad n(0.01)2
≤ 0.005, lo cual equivale a que
p (1−p) p (1−p)
n≥ (0.01)2 ·0.005
= 5·10−7
.

Si se asume que f (x) = 34 x2 , entonces p = 41 , y luego basta tomar n ≥ 375.000.


También, usando Teorema 2.7.1, se deduce que
( ) ( )
P X̄n − p > 0.01 = 1 − P X̄n − p ≤ 0.01
( √ √ )

n n
= 1 − P √ (X̄ − p) ≤ √ 0.01
p(1 − p) p(1 − p)
[ ( √ ) ]
n
≃ 1 − 2Φ √ · 0.01 −1 .
p(1 − p)
Por lo tanto, n debe satisfacer la desigualdad
( √ )
n
1 − 2Φ √ 0.01 + 1 < 0.005,
p(1 − p)

- 329 -
2.7 Aproximación

o sea √
n
√ 0.01 > 2.81,
p(1 − p)
por lo que n ≥ 7896 p(1 − p).
Para el caso en que p = 41 , el número n debe ser n = 14805.
Notar, que el número de puntos que se deben generar para calcular X̄n , en el caso
p = 41 , se reduce drásticamente si se usa el Teorema del Lı́mite Central en lugar de la
desigualdad de Chebyshev. ∫1
Este ejemplo muestra como aproximar la integral 0 f (x)dx por medio de X̄n , el cual
puede ser generado computacionalmente.

Ejemplo 2.7.6: (Aproximación normal a la binomial) Sean A1 , . . . , An , sucesos


independientes y tales que, para todo i ∈ {1, . . . , n}, P (Ai ) = p, 0 < p < 1.
Consideremos ahora las variables aleatorias Xi = IAi , 1 ≤ i ≤ n, esto es, Xi vale uno
si el suceso Ai ocurre y 0 si no. Entonces, X1 , . . . , Xn son iid con media común

E(Xi ) =E (IAi )
=1 P (IAi = 1) + 0 P (IAi = 0)
=P (Ai )
=p,

y varianza común,

V ar(Xi ) =V ar (IAi )
( 2 )
=E IA i
− [E (IAi )]2
=12 P (IAi = 1) + 02 P (IAi = 0) − p2
=P (Ai ) − p2
=p − p2
=p(1 − p).

Teorema 2.7.1 implica que, para “n grande”,


( )
X1 + · · · + Xn − np x − np
P (X1 + · · · + Xn ≤ x) = P √ ≤√
np(1 − p) np(1 − p)
( )
x − np
≃ Φ √ .
np(1 − p)

Cabe hacer notar que, X1 + · · · + Xn ∼ Bi(n, p), por esta razón, la aproximación
anterior se acostumbra a leer de la siguiente forma:
Si X ∼ B(n, p), entonces √X−np tiene distribución aproximadamente N (0, 1), o dicho
np(1−p)
de otra forma, X tiene distribución aproximadamente N (np, np(1 − p)).

- 330 -
2.7 Aproximación

La aproximación anterior puede mejorarse utilizando


( la llamada
) “corrección
( por con-)
tinuidad” (véase [8]) que consiste en aproximar con Φ √x+0.5−np
en lugar de Φ √ x−np ,
np(1−p) np(1−p)
esto es, si X ∼ B(n, p), entonces
( )
x + 0.5 − np
P (X ≤ x) ≃ Φ √ .
np(1 − p)

En particular, para los naturales m, r tal que 0 ≤ m < r ≤ n,


P (m ≤ X ≤ r) = P (X ≤ r) − P (X < m)

= P (X ≤ r) − P (X ≤ m − 1)
( ) ( )
r + 0.5 − np m − 1 + 0.5 − np
= Φ √ −Φ √
np(1 − p) np(1 − p)
( ) ( )
r + 0.5 − np m − 0.5 − np
= Φ √ −Φ √ .
np(1 − p) np(1 − p)
( )
Por ejemplo, si X ∼ B 50, 13 , entonces
13 ( ) ( )k ( )50−k
∑ 50 1 2
P (10 ≤ X ≤ 13) = ,
k 3 3
k=10

y después de algunos cálculos resulta que P (10 ≤ X ≤ 13) = 0.15875746502.


Usando la aproximación normal, obtenemos que
   
13.5 − 350
9.5 − 350
P (10 ≤ X ≤ 13) ≃ Φ  √  − Φ√ 
3 · 3 3 · 3
50 2 50 2

= Φ(−0.95) − Φ(−2.15)

= Φ(2.15) − Φ(0.95)

= 0.1553 .
Más aún, existe otra aproximación de la distribución binomial que resulta ser todavı́a
más precisa.
Si X ∼ B(n, p), entonces
( )
x + 0.5 − np 1 1 − 2p
P (X ≤ x) ≃ Φ √ − √
np(1 − p) 6 np(1 − p)
{[ ] ( )}
(x + 0.5 − np)2 x + 0.5 − np
· −1 Φ √ .
np(1 − p) np(1 − p)

- 331 -
2.7 Aproximación

Usando esta aproximación puede verificarse como mejora la aproximación de la probabi-


lidad P (10 ≤ X ≤ 13).

Ejemplo 2.7.7: (Aproximación normal a la Poisson) Sean X1 , . . . , Xn , variables


aleatorias iid con distribución Poisson de parámetro 1, esto es, X1 , . . . , Xn iid con media
común 1 y varianza común 1. Entonces, usando la función generadora de momentos, se
verifica que (X1 + · · · + Xn ) ∼ P(1 + 1 + · · · + 1), o sea, (X1 + · · · + Xn ) ∼ P(n).
Luego, Teorema 2.7.1 implica que
( )
X1 + · · · + Xn − n · 1 x−n·1
P (X1 + · · · + Xn ≤ x) = P √ ≤ √
n·1 n·1
( )
x−n
≃ Φ √ .
n

En este sentido, si X ∼ P(n), n natural, entonces, para todo x real,


( )
x−n
P (X ≤ x) ≃ Φ √ .
n

Más aún si X ∼ P(λ), λ > 0, se puede verificar (usando, por ejemplo, que la dis-
tribución de Poisson es infinitamente divisible) que, para λ “grande”,
( )
P (X ≤ x) ≃ Φ x−λ√
λ
, x real.

Esta es la razón por la cual se dice que si X ∼ P(λ), entonces, para λ “grande”, X−λ

λ
tiene distribución aproximadamente N (0, 1).

Por ejemplo, si X ∼ P(900),

P (X > 950) = 1 − P (X ≤ 950)


( )
≃ 1−Φ 950−900

900

(5)
= 1−Φ 3

= 0.04779.

Es posible verificar que el valor exacto de P (X > 950) es 0.04712.

- 332 -
2.8. DEPENDENCIA

2.8 Dependencia

Sean X e Y dos variables aleatorias definidas sobre un mismo espacio muestral Ω.


Si conociéramos un modelo probabilı́stico para el comportamiento conjunto de X con Y,
¿qué información aporta X respecto de Y ? Es decir, si la variable aleatoria X toma el
valor x (ocurrió el suceso (X = x)) ¿cuál es ahora el comportamiento probabilı́stico de la
variable aleatoria Y ?
La herramienta que permite responder, en particular, la pregunta anterior es el con-
cepto de distribución condicional.

2.8.1 Caso discreto


Sea (X, Y ) vector aleatorio discreto, en particular, se deduce que X e Y son variables
aleatorias discretas. La probabilidad de Y = y, dado que X = x es, para P (X = x) > 0,

P (X = x, Y = y)
P (Y = y/X = x) =
P (X = x)

pX,Y (x, y)
= .
pX (x)

Es común definir P (Y = y/X = x) = 0, cuando P (X = x) = 0.


La probabilidad condicional, P (Y = y/X = x), se acostumbra a denotar por pY /X=x (y) o
también por pY /X (y/x).
Nótese que pY /X=x (y) ≥ 0 y si x ∈ RecX = {u : pX (u) > 0},

∑ ∑ pX,Y (x, y)
pY /X=x (y) =
pX (x)
y∈RecY y∈RecY

1 ∑
= pX,Y (x, y)
pX (x)
y∈RecY

1
= pX (x)
pX (x)

= 1.

En consecuencia si, x ∈ RecX, entonces pY /X=x es una función de distribución de


probabilidad, conocida como distribución condicional.
Por ejemplo, si pY /X=x resulta la distribución de probabilidad binomial de pará-
metros (x, p), entonces se usa la notación

Y /X = x ∼ B(x, p).

Es evidente, desde la definición de pY /X=x , que en el caso en que X e Y sean indepen-


dientes,
pY /X=x (y) = pY (y).

- 333 -
2.8 Dependencia

Ejemplo 2.8.1: Sea (X, Y ) vector aleatorio discreto, con función de cuantı́a conjunta
dada por la tabla siguiente:

X\Y 0 1 2 3

1 2 3
0 28 28 28 0

4 5 6 7
1 28 28 28 28

Tabla 2.8.1

Entonces,
pX,Y (0, y)
pY /X=0 (y) =
pX (0)

pX,Y (0, y)
= 6 .
28
Ası́,
1 3
28 1 28 3
pY /X=0 (0) = 6 = , pY /X=0 (2) = 6 = ,
28
6 28
6

2
28 2 0
pY /X=0 (1) = 6 = , pY /X=0 (3) = 6 = 0.
28
6 28
También,
pX,Y (1, y)
pY /X=1 (y) =
pX (1)

pX,Y (1, y)
= 22 .
28
Por lo tanto,
4 6
28 4 28 6
pY /X=1 (0) = 22 = , pY /X=1 (2) = 22 = ,
28
22 28
22

5 7
28 5 28 7
pY /X=1 (1) = 22 = , pY /X=1 (3) = 22 = .
28
22 28
22

Análogamente, cambiando el rol de X por el de Y ,

pX,Y (x, y)
pX/Y =y (x) = ,
pY (y)

- 334 -
2.8 Dependencia

por lo que

pX,Y (x, 0) pX,Y (x, 0)


pX/Y =0 (x) = = 5 ,
pY (0) 28
o sea,
1 4
28 1 28 4
pX/Y =0 (0) = 5 = , pX/Y =0 (1) = 5 = .
28
5 28
5
De similar forma,
2 3
28 2 28 3 0
pX/Y =1 (0) = 7 = , pX/Y =2 (0) = 9 = , pX/Y =3 (0) = 7 = 0,
28
7 28
9 28

5 6 7
28 5 28 6 28
pX/Y =1 (1) = 7 = , pX/Y =2 (1) = 9 = , pX/Y =3 (1) = 7 = 1.
28
7 28
9 28

Ejemplo 2.8.2: Sean X e Y los números de los intentos correspondientes al primer y


segundo éxito en un esquema Bernoulli con parámetro p. Calculemos la distribución de
probabilidad pX/Y =y .
Notemos que Rec(X, Y ) = {(x, y) ∈ N × N : x < y}, ya que el segundo éxito no puede
ocurrir antes del primero. Además,
{
(1 − p)x−1 p (1 − p)y−x−1 p si x < y
P (X = x, Y = y) =
0 e.o.c.
Por ejemplo, si x = 3 e y = 8,
1 2 3 4 5 6 7 8
F F E F F F F E
1−p 1−p p 1−p 1−p 1−p 1−p p
También, como vimos en la Sección 2.1, Y ∼ BN (2, p). Ası́,
{
(y − 1)p2 (1 − p)y−2 si y ∈ {2, 3, . . .}
P (Y = y) =
0 e.o.c.

En consecuencia, si y ∈ {2, 3, . . .},

pX,Y (x, y)
pX/Y =y (x) =
pY (y)

 (1 − p)
x−1 p (1 − p)y−x−1 p
si x ∈ {1, . . . , y − 1}
= (y − 1) p2 (1 − p)y−2

0 e.o.c.

 1 si x ∈ {1, . . . , y − 1}
= y−1
0 e.o.c.

- 335 -
2.8 Dependencia

Es decir, X/Y = y ∼ U {1, . . . , y − 1}.


Intuitivamente, saber que el segundo éxito ocurrió en el y-ésimo intento, no da ninguna
información sobre cuando ocurrió el primero.

Observación 2.8.1: De la definición de distribución condicional se obtiene que

pX,Y (x, y) = pY /X=x (y) pX (x),

de donde ∑ ∑
pX,Y (x, y) = pY /X=x (y) pX (x),
x∈RecX x∈RecX

es decir, ∑
pY (y) = pY /X=x (y) pX (x).
x∈RecX

Por analogı́a,
pX,Y (x, y) = pX/Y =y (x) pY (y),
y ∑
pX (x) = pX/Y =y (x) pY (y).
y∈RecY

Por otra parte,


pX,Y (x, y)
pY /X=x (y) =
pX (x)

pX/Y =y (x) pY (y)


= ,
pX (x)
o sea,
pX/Y =y (x) pY (y)
pY /X=x (y) = ,
pX (x)
o también
pX/Y =y (x) pY (y)
pY /X=x (y) = ∑ .
pX/Y =v (x) pY (v)
v∈RecY

Intercambiando el rol de X por el de Y obtenemos

pY /X=x (y) pX (x)


pX/Y =y (x) = ∑ .
pY /X=u (y) pX (u)
u∈RecX

Notar que cada una de las relaciones obtenidas en esta observación tiene un análogo en la
Sección 1.5.

Ejemplo 2.8.3: Supongamos que en una Compañı́a de Seguros, el número de pólizas


de seguros de automóviles, que se cobrarán durante el año 2004, es una variable aleatoria
X que sigue una distribución Poisson (α). Asumamos que la proporción de pólizas que
cobran más de UF100 es p, y que el cobro de una póliza cualquiera no tiene relación con
el cobro de otra.

- 336 -
2.8 Dependencia

Encontremos la distribución de probabilidad para el número de pólizas que cobrarán


más de UF100 en el año 2004.
Si llamamos Y a la variable aleatoria que cuenta el número de pólizas que cobrarán
más de UF100 en el año 2004, entonces, por los supuestos del problema, podemos asumir
que
Y /X = x ∼ B(x, p).

Por ejemplo si X = 250, entonces en el año 2004 se cobrarán 250 pólizas, y cada una
de estas cobrará más de UF100 (éxito) o cobrará menos de UF100 (fracaso).
Sea y natural, entonces,

P (Y = y) = pY (y) = pY /X=x (y) pX (x)
x∈RecX

∑∞ ( )
x y αx
= p (1 − p)x−y e−α .
x=y
y x!

Nótese que, para x < y, pY /X=x (y) = 0, ya que el número de pólizas que cobran más de
UF100 no puede exceder al total de pólizas.
En consecuencia,


∑ x! αx
P (Y = y) = py (1 − p)x−y e−α
x=y
(x − y)! y! x!


py e−α ∑ 1
= (1 − p)x−y αx−y αy
y! x=y (x − y)!


py e−α αy ∑ 1
= [(1 − p)α]x−y .
y! x=y
(x − y)!

Realizando, en la sumatoria, el cambio de variable k = x − y, obtenemos


py e−α αy ∑ 1
P (Y = y) = [(1 − p) α]k
y! k!
k=0

py e−α αy (1−p) α
= e
y!

(α p)y −α p
= e .
y!

Por lo tanto,
Y ∼ P(α p) .

- 337 -
2.8 Dependencia

Además, si x, y ∈ N0 , con x ≥ y,
pY /X=x (y) pX (x)
pX/Y =y =
pY (y)
(x )
y py (1 − p)x−y e−α αx
x!
= (αp)y
y! e−αp
( )
x y!
= (1 − p)x−y e−α(1−p) αx−y
y x!

1
= [α(1 − p)]x−y e−α(1−p) .
(x − y)!

2.8.2 Caso continuo


Sea (X, Y ) vector aleatorio continuo (en particular X e Y son variables aleatorias con-
tinuas). Por analogı́a con el caso discreto, se define la densidad condicional de Y dado
X = x por
fX,Y (x, y)
fY /X=x (y) = , si fX (x) ̸= 0.
fX (x)
También acá es común definir fY /X=x (y) = 0 cuando fX (x) = 0.

Notar que, para todo x ∈ R, P (X = x) = 0, por lo que la interpretación de fY /X=x (y)


es un poco diferente al caso discreto.
En efecto, si dx; dy son diferenciales, entonces, como vimos en la Sección 2.3,
P (x ≤ X ≤ x + dx, y ≤ Y ≤ y + dy)
P (y < Y ≤ y + dy / x ≤ X ≤ x + dx) =
P (x ≤ X ≤ x + dx)

fX,Y (x, y)dxdy



fX (x)dx

fX,Y (x, y)
= dy,
fX (x)
lo que motiva la definición de fY /X=x (y).
También, fY /X=x (y) ≥ 0 y si x ∈ RecX = {u : fX (u) > 0},
∫ ∞ ∫ ∞
fX,Y (x, y)
fY /X=x (y)dy = dy
−∞ −∞ fX (x)
∫ ∞
1
= fX,Y (x, y)dy
fX (x) −∞

1
= fX (x)
fX (x)

= 1.

- 338 -
2.8 Dependencia

En consecuencia, si x ∈ RecX, entonces fY /X=x es una función de densidad de probabili-


dad, conocida como densidad condicional.
Por ejemplo, si fY /X=x resulta la función de densidad normal de parámetros (0, x2 +1),
entonces se usa la notación Y /X = x ∼ N (0, x2 + 1).
En el caso continuo, también es evidente que, si X e Y son independientes, entonces

fY /X=x (y) = fY (y).

Ejemplo 2.8.4: Sea (X, Y ) vector aleatorio continuo con densidad conjunta dada por

{
λ2 e−λy si 0 ≤ x ≤ y
f(X,Y ) (x, y) =
0 e.o.c.

Encontremos fY /X=x y fX/Y =y .


Primeramente, encontremos las distribuciones marginales fX y fY .

∫ ∞
fX (x) = fX,Y (x, y)dy
−∞
∫ x ∫ ∞



 0dy + λ2 e−λy dy si x ≥ 0
0 x
=



0 e.o.c.
{
λ e−λx si x ≥ 0
=
0 e.o.c.

y
∫ ∞
fY (y) = fX,Y (x, y)dx
−∞
∫ y ∫ ∞

 2 −λy
si y ≥ 0

 0 λ e dx + 0dx
y
=



0 e.o.c.
{
λ2 y e−λy si y ≥ 0
=
0 e.o.c.

- 339 -
2.8 Dependencia

Ası́, para x ≥ 0,
fX,Y (x, y)
fY /X=x (y) =
fX (x)
{
λ2 e−λy
λ e−λx
si y ≥ x
=
0 e.o.c.
{
λ e−λ(y−x) si y ≥ x
=
0 e.o.c.

Es decir, la densidad condicional de Y dado X = x resulta exponencial sobre [x, ∞[.


También, para y > 0,

fX,Y (x, y)
fX/Y =y (x) =
fY (y)
{
λ2 e−λy
λ2 y e−λy
si 0 < x ≤ y
=
0 e.o.c.
{
1
y si 0 < x ≤ y
=
0 e.o.c.

Es decir, X/Y = y ∼ U (0, y).

Observación 2.8.2: Al igual que en el caso discreto, a partir de la densidad condicional


se obtiene que
fX,Y (x, y) = fY /X=x (y) fX (x),
de donde
∫ ∞ ∫ ∞
fX,Y (x, y)dx = fY /X=x (y) fX (x)dx,
−∞ −∞
o sea
∫ ∞
fY (y) = fY /X=x (y) fX (x)dx.
−∞
Por analogı́a,
fX,Y (x, y) = fX/Y =y (x) fY (y)
y
∫ ∞
fX (x) = fX/Y =y (x) fY (y)dy.
−∞

- 340 -
2.8 Dependencia

Además, la relación entre las densidades condicionales está dada por

fX,Y (x, y)
fY /X=x (y) =
fX (x)

fX/Y =y (x) fY (y)


= ,
fX (x)
o dicho de otra forma,

fX/Y =y (x) fY (y)


fY /X=x (y) = ∫ ∞ .
−∞ fX/Y =v (x) fY (v)dv

Análogamente,
fY /X=x (y) fX (x)
fX/Y =y (x) = ∫ ∞ .
−∞ fY /X=u (y) fX (u)du

Ejemplo 2.8.5: Sean X e Y variables aleatorias continuas y supongamos que x es real


tal que x ∈]0, 1[. Si X ∼ U (0, 1) y Y /X = x ∼ U (x, x + 1), calculemos fX/Y =y .
Desde que X ∼ U (0, 1) y Y /X = x ∼ U (x, x + 1), se deduce que
{
1 si 0 < u < 1
fX (u) =
0 e.o.c.

y {
1 si x < y < x + 1
fY /X=x (y) =
0 e.o.c.
Además,
fY /X=x (y) fX (x)
fX/Y =y (x) = ∫ ∞ .
−∞ fY /X=u (y) fX (u)du

La región sombreada de la figura siguiente muestra al subconjunto del plano


{(x, y) ∈ R2 : 0 < x < 1 , x < y < x + 1}.

y=x+1
2

1 x

y=x

Figura 2.8.1

- 341 -
2.8 Dependencia

Ası́,
∫ y

 1 · 1du si 0 < y < 1
∫ 

∞  0
fY /X=u (y) fX (u)du =
−∞ ∫



1
 1 · 1du si 1 ≤ y < 2
y−1
{
y si 0 < y < 1
=
2−y si 1 ≤ y < 2.
Además, si 0 < y < 1,
1 · 1

 si 0 < x < y
 y
fX/Y =y (x) =



0 e.o.c.
1

 si 0 < x < y
y
=



0 e.o.c.

y para 1 ≤ y < 2,
 1·1

 si y − 1 < x < 1
2 − y
fX/Y =y (x) =



0 e.o.c.
 1

 si y − 1 < x < 1
2 − y
=



0 e.o.c.

Por lo tanto, si 0 < y < 1, entonces X/Y = y ∼ U (0, y) y si 1 ≤ y < 2, entonces


X/Y = y ∼ U (y − 1, 1).

Ejemplo 2.8.6: Sea (X, Y ) vector aleatorio con densidad conjunta f , dada por
[
1 −1
f (x, y) = √ exp
2πσ1 σ2 1 − ρ2 2(1 − ρ2 )
(( )2 ( )( ) ( )2 )]
x − µ1 x − µ1 y − µ2 y − µ2
· − 2p + ,
σ1 σ1 σ2 σ2

(x, y) ∈ R2 y µ1 , µ2 , σ1 , σ2 , ρ constantes tales que, σ1 > 0, σ2 > 0, |ρ| < 1.


Encontremos las distribuciones condicionales X/Y = y; Y /X = x.

- 342 -
2.8 Dependencia

Recordemos que, de lo visto en la Sección 2.4,


( )
σ12 ρσ1 σ2
(X, Y ) ∼ N (µ, Σ) con µ = (µ1 , µ2 ) y Σ= ,
ρσ1 σ2 σ22

por lo que ρ(X, Y ) = ρ y también Y ∼ N (µ2 , σ22 ).

En consecuencia,

f (x, y)
fX/Y =y (x) =
fY (y)

= C(σ12 , σ22 , ρ, y)
[ (( )2 ( ) ( ))]
−1 x − µ1 x − µ1 y − µ2
· exp − 2ρ · ,
2(1 − ρ2 ) σ1 σ1 σ2

donde C(σ12 , σ22 , ρ, y) se determina de la ecuación


∫ ∞
fX/Y =y (x)dx = 1.
−∞

Luego, completando cuadrados en el argumento de la exponencial se tiene que


[ (( ) ( ))2 ]
x−µ1 y−µ2
fX/Y =y (x) = C1 (σ12 , σ22 , ρ, y) exp − 2(1−ρ
1
2) σ1 − ρ σ2

[ ( )2 ]
σ
x−(µ1 +ρ σ1 (y−µ2 ))
= C1 (σ12 , σ22 , ρ, y) exp − 21 √2 ,
σ1 1−ρ2

donde [ ( )2 ]
(y−µ2 )
C1 (σ12 , σ22 , ρ, y) = C(σ12 , σ22 , ρ, y) exp 1
2(1−ρ2 )
ρ σ2 .

Por lo tanto,
( )
X/Y = y ∼ N µ1 + ρ σσ12 (y − µ2 ) , σ12 (1 − ρ2 ) .

Por analogı́a,
( )
Y /X = x ∼ N µ2 + ρ σσ21 (x − µ1 ) , σ22 (1 − ρ2 ) .

Observación 2.8.3: Sean X e Y variables aleatorias discretas y C ⊂ R. Entonces,


para x ∈ RecX,
P (Y ∈ C, X = x)
P (Y ∈ C/X = x) = .
P (X = x)

- 343 -
2.8 Dependencia

Pero, Y es variable aleatoria discreta, luego el conjunto RecY es contable, digamos


RecY = {y1 , y2 , . . .}. En consecuencia,
( )

P (Y = y, X = x)
y∈(C∩RecY )
P (Y ∈ C, X = x) =
P (X = x)

P (Y = y, X = x)
y∈(C∩RecY )
=
P (X = x)
∑ P (X = x, Y = y)
=
P (X = x)
y∈(C∩RecY )


= pY /X=x (y).
y∈(C∩RecY )

O sea, se tiene la regla de cálculo



P (Y ∈ C/X = x) = pY /X=x (y).
y∈(C∩RecY )

¿Existirá una regla de cálculo similar en el caso continuo? La respuesta es positiva y


se expresa de la siguiente forma:
Sean X e Y variables aleatorias continuas y C ⊂ R. Entonces, para x ∈ RecX,

P (Y ∈ C/X = x) = fY /X=x (y)dy.
C

De un modo más general, si A es suceso, entonces P (A/X = x) se expresa como



 lim P (A/X ∈ Ih ) si el lı́mite existe
P (A/X = x) = h→0+
0 e.o.c.

con el] conjunto Ih [un intervalo abierto que contiene a x y de largo h, como por ejemplo,
Ih = x − h2 , x + h2 .

Observación 2.8.4: Recordemos que, si X es variable aleatoria discreta (es decir,


RecX es un conjunto finito y numerable, digamos RecX = {x1 , x2 , . . .}) y A es un suceso,
el Teorema de Probabilidades Totales visto en la Sección 1.5 implica que

P (A) = P (A/Bj ) P (Bj ),
j∈J

con J = {1, 2, . . .} y Bj = (X = xj ).

- 344 -
2.8 Dependencia

La siguiente Proposición extiende este resultado al caso en que X es variable aleatoria


continua.

Proposición 2.8.1: Sea X variable aleatoria continua y A suceso. Entonces,


∫ ∞
P (A) = P (A/X = x)fX (x)dx.
−∞

La demostración de esta propiedad escapa los objetivos de este texto.

Ejemplo 2.8.7: Sea Y variable aleatoria con distribución Poisson de parámetro X,


aleatorio, es decir, si x > 0, Y /X = x ∼ P(x). Asumiendo que X tiene distribución
Gamma(α, β), encontremos la distribución de la variable aleatoria Y.
Sea y ∈ {0, 1, . . .}. Aplicando la Proposición anterior con A = (Y = y), obtenemos,
∫ ∞
P (Y = y) = P (Y = y/X = x) fX (x)dx
−∞

∫ ∞
xy β α xα−1 e−βx
= e−x · dx
0 y! Γ(α)
∫ ∞
βα
= e−(1+β)x xy+α−1 dx.
Γ(α)y! 0

Realizando el cambio de variable u = (1 + β)x, la última integral se transforma en


∫ ∞ ( )y+α−1 ∫ ∞
−u u du 1
e = uy+α−1 e−u du
0 1+β 1+β (1 + β)y+α 0

Γ(y + α)
= .
(1 + β)y+α

En consecuencia, si y ∈ {0, 1, . . .},

βα Γ(y + α)
P (Y = y) =
Γ(α) y! (1 + β)y+α
( )α ( )y
β 1 Γ(y + α)
= .
1+β 1+β Γ(α) y!

Ejemplo 2.8.8: Sea T variable aleatoria con distribución exponencial de parámetro µ y


Ti , i = 1, 2, . . ., variables aleatorias iid, de modo que su distribución común es exponencial
de parámetro λ. Asumiremos que T es independiente de las variables aleatorias Ti .
La variable T puede interpretarse como el tiempo que demora un cajero en atender a
un cliente (se supone que hay una única caja y que los clientes llegan de a uno, formando
una fila).
La variable Ti , i = 1, 2, . . ., se interpreta como el intervalo de tiempo que transcurre
entre la llegada del (i−1)-ésimo e i-ésimo cliente a la fila, después de iniciado el servicio.

- 345 -
2.8 Dependencia

Ası́, T1 representa el tiempo que demora en llegar el primer cliente a la fila, después de
iniciado el servicio.
Si M es la variable aleatoria que cuenta el número de clientes que han llegado a la fila
durante el intervalo de tiempo que toma en atender a un cliente, calculemos:
a) P (M > n), b) P (M = n).
Por ejemplo, si n = 3, entonces (M > 3) = (T > T1 + T2 + T3 + T4 ), ya que, en el
caso que hayan llegado más de tres clientes durante el tiempo que toma en atender a uno
(que corresponde a T ), significará que el tiempo que ha transcurrido desde que comenzó la
atención y hasta la llegada del cuarto cliente (que corresponde a T1 + T2 + T3 + T4 ) deberı́a
ser menor que éste.
En general, (M > n) = (T > T1 + · · · + Tn+1 ), para todo n ∈ {1, 2, . . .}.
Definamos Sm = T1 +· · ·+Tm . Entonces, Ejemplo 2.6.21 implica que Sm ∼ Gamma(m, λ).
Ası́, usando la Proposición anterior con A = (T > Sn+1 ) y X = Sn+1 , se obtiene que

P (M > n) = P (T > T1 + · · · + Tn+1 )

= P (T > Sn+1 )
∫ ∞
= P (T > Sn+1 /Sn+1 = x) fSn+1 (x)dx
−∞

∫ ∞
λn+1 xn e−λx
= P (T > x/Sn+1 = x) dx.
0 Γ(n + 1)

Pero, T es independiente de las Ti , i = 1, . . . , n + 1, entonces T es independiente de


T1 + · · · + Tn+1 = Sn+1 . Luego,
∫ ∞
P (T > x/Sn+1 = x) = fT /Sn+1 =x (t)dt
x
∫ ∞
= fT (t)dt
x

= P (T > x).
Esta última probabilidad es igual a e−µx pues T ∼ exp(µ).
Por lo tanto,

P (M > n) = P (T > Sn+1 )


∫ ∞
λn+1 xn e−λx
= P (T > x/Sn+1 = x) dx
0 n!
∫ ∞
λn+1 xn e−λx
= e−µx dx
0 n!
∫ ∞
λn+1
= xn e−(λ+µ)x dx .
n! 0

- 346 -
2.8 Dependencia

Haciendo el cambio de variable u = (λ + µ)x, y usando que Γ(n + 1) = n!, se obtiene que
∫ ∞ ∫ ∞( )n
n −(λ+µ)x u 1
x e dx = e−u du
0 0 λ+µ λ+µ
∫ ∞
1
= un e−u du
(λ + µ)n+1 0

1
= Γ(n + 1)
(λ + µ)n+1

1
= n!.
(λ + µ)n+1

En consecuencia,
λn+1 1
P (M > n) = · n!
n! (λ + µ)n+1
( )n+1
λ
= .
λ+µ
Finalmente, si n ∈ {1, 2, 3, . . .},

P (M = n) = P (M > n − 1) − P (M > n)
( )(n−1)+1 ( )n+1
λ λ
= −
λ+µ λ+µ
( )n [ ]
λ λ
= 1−
λ+µ λ+µ
( )n
λ µ
= .
λ+µ λ+µ

2.8.3 Esperanza condicional


Sean X e Y variables aleatorias discretas y sea x ∈ RecX. Recordemos que la esperanza
de Y se calcula como ∑
E(Y ) = y pY (y).
y∈RecY

Si en lugar de multiplicar por la distribución de probabilidad pY (y), lo hacemos por


la distribución de probabilidad pY /X=x (y), obtendremos la llamada esperanza condicional
de Y dado X = x, que se anota E(Y /X = x). Esto es,

E(Y /X = x) = y pY /X=x (y).
y∈RecY

- 347 -
2.8 Dependencia

En el caso en que X e Y sean independientes, resulta de inmediato que

E(Y /X = x) = E(Y ).

Por analogı́a, en el caso continuo se obtiene que, para x ∈ RecX,


∫ ∞
E(Y /X = x) = y fY /X=x (y)dy.
−∞

También, en este caso, cuando X e Y son independientes.

E(Y /X = x) = E(Y ).

Del mismo modo, la varianza condicional de Y dado X = x, que se anota V ar(Y /X = x),
se define por

V ar(Y /X = x) = (y − E(Y /X = x))2 pY /X=x (y),
y∈RecY

en el caso discreto y
∫ ∞
V ar(Y /X = x) = (y − E(Y /X = x))2 fY /X=x (y)dy
−∞

en el caso continuo.
También, en este caso, si X e Y son independientes, se deduce que

V ar(Y /X = x) = V ar(Y ).

Ejemplo 2.8.9: Sea (X, Y ) vector aleatorio discreto como el del Ejemplo 2.8.1. En-
tonces,


3
E(Y /X = 0) = y pY /X=0 (y)
y=0

= 0 · pY /X=0 (0) + 1 · pY /X=0 (1) + 2 · pY /X=0 (2) + 3 · pY /X=0 (3)

1 2 3
= 0· +1· +2· +3·0
6 6 6
4
= .
3
Análogamente,
4 5 6 7
E(Y /X = 1) = 0 · +1· +2· +3·
22 22 22 22
19
= .
11

- 348 -
2.8 Dependencia

En forma similar
1 4 4
E(X/Y = 0) = 0 · +1· = ,
5 5 5
2 5 5
E(X/Y = 1) = 0 · +1· = ,
7 7 7
3 6 6
E(X/Y = 2) = 0 · +1· = ,
9 9 9

E(X/Y = 3) = 0 · 0 + 1 · 1 = 1.

Por otra parte, si x = 1,

V ar(Y /X = 1) = (0 − E(Y /X = 1))2 pY /X=1 (0) + (1 − E(Y /X = 1))2 pY /X=1 (1)

+ (2 − E(Y /X = 1))2 pY /X=1 (2) + (3 − E(Y /X = 1))2 pY /X=1 (3)


( )2 ( ) ( ) ( )
19 4 19 2 5 19 2 6 19 2 7
= 0− + 1− + 2− + 3−
11 22 11 22 11 22 11 22

145
= .
121

Ejemplo 2.8.10: Sean X e Y las variables aleatorias del Ejemplo 2.8.3. Entonces
Y /X = x ∼ B(x, p). En consecuencia, de la Sección 2.1 se obtiene que

E(Y /X = x) = x p y V ar(Y /X = x) = x p (1 − p).

Ejemplo 2.8.11: Sea (X, Y ) vector aleatorio continuo como el del Ejemplo 2.8.4. En-
tonces, para x ≥ 0,
∫ ∞
E(Y /X = x) = yfY /X=x (y)dy
−∞
∫ x ∫ ∞
= y · 0dy + y λ e−λ(y−x) dy
−∞ x
∫ ∞
= eλx λ y e−λy dy.
x

- 349 -
2.8 Dependencia

Integrando por partes esta última integral resulta que


∫ ∞ ( )
−λy −λy 1 −λy ∞
λye dy = −ye − e
x λ x
[ ( )] [ ]
−λy 1 −λy −λx 1 −λx
= lim −ye − e − −xe − e
y→∞ λ λ
[ ( )] [ ]
y 1 1
= − lim λy
+ lim e−λy + xe−λx + e−λx
y→∞ e λ y→∞ λ
[ ( ) ] [ ]
1 1 −λx 1 −λx
= − lim + · 0 + xe + e
y→∞ λeλy λ λ
[ ] [ ]
1 −λx 1 −λx
= − 0 + · 0 + xe + e
λ λ

1 −λx
= xe−λx + e .
λ
En consecuencia, [ ]
1
E(Y /X = x) = eλx xe−λx + e−λx
λ

1
= x+ .
λ

Ejemplo 2.8.12: Sea (X, Y ) vector


( aleatorio normal bivariado ) como el del Ejemplo
2.8.6. Entonces, Y /X = x ∼ N µ2 + ρ σ1 (x − µ1 ) , σ2 (1 − ρ ) , de donde, para todo x
σ2 2 2

real,
σ2
E(Y /X = x) = µ2 + ρ (x − µ1 )
σ1

Cov(X, Y ) V ar(Y )
= E(Y ) + √ √ ·√ (x − E(X))
V ar(X) V ar(Y ) V ar(X)

Cov(X, Y )
= E(Y ) + (x − E(X)) .
V ar(X)

Análogamente, para todo y real,

Cov(X, Y )
E(X/Y = y) = E(X) + (y − E(Y )).
V ar(Y )

- 350 -
2.8 Dependencia

También, en este caso,

V ar(Y /X = x) = σ22 (1 − ρ2 )
( )
Cov 2 (X, Y )
= V ar(Y ) 1 −
V ar(X)V ar(Y )

Cov 2 (X, Y )
= V ar(Y ) − ,
V ar(X)
es decir, no depende del real x escogido.

Proposición 2.8.2: Sea (X, Y ) vector aleatorio y h : R → R función. La esperanza


condicional de h(Y ) dado X = x, puede ser calculada de la siguiente forma:
 ∑

 h(v) pY /X=x (v) caso discreto


v∈RecY
E(h(Y )/X = x) =

 ∫ ∞


 h(v) fY /X=x (v)dv caso continuo
−∞

En particular:

i) Si h(t) = at + b, entonces,

E(aY + b/X = x) = a E(Y /X = x) + b.

ii) Si h(t) = (t − E(Y /X = x))2 , entonces,

V ar(Y /X = x) = E(Y 2 /X = x) − (E(Y /X = x))2 .

Desde ii) se deduce que, para todo a, b reales,

iii) V ar(aY /X = x) = a2 V ar(Y /X = x),

iv) V ar(aY + b/X = x) = a2 V ar(Y /X = x).

La demostración de esta Proposición es idéntica a la demostración de la Proposición


2.1.2, cambiando la distribución de X, por la distribución de Y /X = x.
Asumiendo que la esperanza condicional de Y dado X = x existe, para todo x ∈ RecX,
entonces podemos definir la función g(x) = E(Y /X = x).
En el caso del Ejemplo 2.8.10, g(x) = xp, x ∈ {1, 2, . . .}. También, en el Ejemplo 2.8.11,
g(x) = x+ λ1 , x > 0 y en el Ejemplo 2.8.12, g(x) es la función E(Y )+ Cov(X,Y )
V ar(X) (x−E(X)),
x real.
Similarmente, si todas las cantidades involucradas existen, se puede definir la función
k(x) = V ar(Y /X = x). Ası́, en el Ejemplo 2.8.10, k(x) = xp(1 − p), x ∈ {1, 2, . . .}.
En consecuencia, g(X) y k(X) son variables aleatorias. En el caso en que
1 1
g(x) = x + λ , la variable aleatoria g(X) resulta ser X + λ , si g(x) = xp, la variable

- 351 -
2.8 Dependencia

aleatoria resultante es pX, y en el caso en que k(x) = xp(1 − p), la variable aleatoria k(X)
será p(1 − p)X.
La variable aleatoria g(X) se acostumbra a denotar por E(Y/X) y la variable aleatoria
k(X) por Var(Y/X).

Ejemplo 2.8.13: Calculemos E(g(X)) en los recién mencionados, esto es, calculemos
E(E(Y /X)) cuando g(x) = x + λ1 ; g(x) = xp.
En el primer caso, ( )
1
E(E(Y /X)) = E X +
λ

1
= E(X) + .
λ
Pero, según Ejemplo 2.8.4,
{
λe−λx si x ≥ 0
fX (x) =
0 e.o.c.

es decir, X ∼ exp(λ). Luego, Ejemplo 2.2.15 implica que E(X) = λ1 , por lo que
1 1 2
E(E(Y /X)) = + = .
λ λ λ
También, del Ejemplo 2.8.4, se deduce que Y ∼ Gamma(2, λ), y nuevamente Ejemplo
2.2.15 implica que E(Y ) = λ2 . En consecuencia,
E(E(Y /X)) = E(Y ).

En el segundo caso,
E(E(Y /X)) =E(pX)
=p E(X).
Pero, del Ejemplo 2.8.10, X ∼ P(α), por lo que E(X) = α (véase Sección 2.1). Ası́,
E(E(Y /X)) = p α.
También, en este caso, Y ∼ P(αp), de donde E(Y ) = αp, es decir,
E(E(Y /X)) = E(Y ).

Ejemplo 2.8.14: Calculemos E(k(X)) en el Ejemplo 2.8.10. En este caso


Y /X = x ∼ B(x, p), por lo que k(x) = x p (1 − p), es decir, V ar(Y /X) = X p (1 − p). Por
lo tanto,
E(V ar(Y /X)) =E(X p (1 − p))
=p (1 − p)E(X)
=p (1 − p)α.

- 352 -
2.8 Dependencia

Por otra parte, E(Y /X) = p X, de donde

V ar(E(Y /X)) =V ar(pX)


=p2 V ar(X)
=p2 α.

Finalmente, como V ar(Y ) = αp (pues Y ∼ P(αp)), entonces

V ar(Y ) = p(1 − p)α + p2 α,

o sea,
V ar(Y ) = E(V ar(Y /X)) + V ar(E(Y /X)).

La siguiente proposición generaliza los Ejemplos 2.8.13 y 2.8.14.

Proposición 2.8.3: Sea (X, Y ) vector aleatorio. Suponiendo que todas las cantidades
involucradas existen,

(a) E(Y ) = E(E(Y /X)).

(b) V ar(Y ) = E(V ar(Y /X)) + V ar(E(Y /X)).

Demostración: Verificaremos (a) en el caso discreto. El caso continuo se prueba en


forma similar. La parte (b) es un poco más compleja, por lo que no la incluimos en este
texto, pero puede consultarse en [8].
Como E(Y /X) = g(X), con g(x) = E(Y /X = x), entonces Proposición 2.1.2 implica
que
E(E(Y /X)) = E(g(X))

= g(x) pX (x)
x∈RecX


= E(Y /X = x) pX (x) .
x∈RecX

Pero, ∑
E(Y /X = x) = y pY /X=x (y)
y∈RecY

∑ pX,Y (x, y)
= y
pX (x)
y∈RecY

1 ∑
= y pX,Y (x, y),
pX (x)
y∈RecY

- 353 -
2.8 Dependencia

de donde

E(E(Y /X)) = E(Y /X = x) pX (x)
x∈RecX
 
∑ 1 ∑
=  y pX,Y (x, y) pX (x)
pX (x)
x∈RecX y∈RecY

 
∑ ∑
=  y pX,Y (x, y)
x∈RecX y∈RecY

( )
∑ ∑
= y pX,Y (x, y) .
y∈RecY x∈RecX

Si RecX y RecY son conjuntos finitos, el intercambio de sumatorias es obvio. Si


RecX es numerable y/o RecY es numerable, es posible verificar que el intercambio de
sumatorias aún es válido.
También, Proposición 2.4.3 implica que

pX,Y (x, y) = pY (y),
x∈RecX

por lo que, ∑ ∑
y pX,Y (x, y) = y pX,Y (x, y)
x∈RecX x∈RecX

= y pY (y).
En consecuencia, ∑
E(E(Y /X)) = y pY (y)
y∈RecY

= E(Y ).

La siguiente Proposición es de gran ayuda en el cálculo de esperanzas condicionales,


como lo veremos en algunos ejemplos posteriores. Por la complejidad de su demostración,
esta no se incluye en este texto, pero puede ser consultada en [7].

Proposición 2.8.4: (Principio de Sustitución) Sea (X, Y ) un vector aleatorio y


u : R → R función. Asumiendo que todas las cantidades involucradas existen, se tiene
2

que
E(u(X, Y )/X = x) = E(u(x, Y )/X = x).

- 354 -
2.8 Dependencia

Por ejemplo, si u(x, y) = x2 y 3 , entonces

E(X 2 Y 3 /X = x) =E(x2 Y 3 /X = x)
=x2 E(Y 3 /X = x),

por lo que
E(X 2 Y 3 /X) = X 2 E(Y 3 /X).

Más aún, si u(x, y) = h1 (x) h2 (y), con h1 y h2 funciones reales, entonces

E(h1 (X) h2 (Y )/X = x) =E(h1 (x) h2 (Y )/X = x)


=h1 (x) E(h2 (Y )/X = x),

o sea,
E(h1 (X) h2 (Y )/X) = h1 (X) E(h2 (Y )/X).

De esta forma, Proposición 2.8.2 implica que

E(h1 (X) h2 (Y )) =E [ E(h1 (X) h2 (Y )/X) ]


=E [ h1 (X) E(h2 (Y )/X) ].

En particular, si h1 y h2 son iguales a la función identidad, se obtiene que

E(XY ) = E [ X E(Y /X)] .

En algunos casos, esta relación es de utilidad cuando se desea calcular Cov(X, Y ).

Ejemplo 2.8.15: Sea X1 , . . . , Xn , . . ., sucesión de variables aleatorias iid, con media


común µ y varianza común σ 2 . Supongamos que N es variable aleatoria discreta con
RecN = {0, 1, . . .}, media α y varianza θ2 , independiente de las Xi . Calculemos E(T ) y
V ar(T ), donde T es la variable aleatoria definida por


N
T = Xi .
i=1

Por ejemplo, en un cajero automático, N puede representar el número de clientes que


ingresan al cajero en un determinado perı́odo de tiempo y las Xi , el monto de dinero que
retira el i-ésimo cliente que ingresa. De este modo, T representa la cantidad de dinero que
se ha retirado del cajero automático en el perı́odo de tiempo observado.
También, N puede representar el número de pólizas de seguros que una compañı́a debe
pagar en un año determinado y Xi , el monto de dinero que se le paga a la i-ésima póliza.
En este caso, T representa el monto de dinero que la compañı́a pagará en el año.
Ahora bien, de Proposición 2.8.3,

E(T ) = E(E(T /N )),

ası́
E(T /N ) = g(N ),

- 355 -
2.8 Dependencia

con
g(n) = E(T /N = n).
Además, Principio de Sustitución implica que
(( N ) )

E(T /N = n) =E Xi / N = n
i=1
(( n ) )

=E Xi /N = n
i=1

n
= E(Xi / N = n).
i=1
Pero, las Xi son independientes de N , por lo que, para todo i ≥ 1,
E(Xi /N = n) = E(Xi )
= µ,
o sea,

n
E(T /N = n) = µ
i=1
=n µ.
En consecuencia,
E(T /N ) = N µ,
por lo que
E(T ) =E(N µ)
=µ E(N )
=µ α.
También, usando nuevamente Principio de Sustitución y la independencia de las Xi con
N, resulta
( )2 
∑N
E(T 2 /N = n) =E  Xi / N = n
i=1
( )2 

n
=E  Xi / N = n
i=1
( )2 

n
=E  Xi 
i=1
( ) ( ( ))2

n ∑
n
=V ar Xi + E Xi
i=1 i=1
( n )

=V ar Xi + (nµ)2 .
i=1

- 356 -
2.8 Dependencia

Finalmente, la independencia entre las Xi , implica que


( n )
∑ ∑n
V ar Xi = V ar(Xi )
i=1 i=1
2
=n σ ,
por lo que
V ar(T /N = n) =E(T 2 /N = n) − (E(T /N = n))2
=n σ 2 + (n µ)2 − (n µ)2 .
Ası́,
V ar(T /N ) = N σ 2 ,
por lo cual, Proposición 2.8.3 (b) implica que
V ar(T ) =E(N σ 2 ) + V ar(N µ)
=σ 2 E(N ) + µ2 V ar(N )
=σ 2 α + µ2 θ2 .

Ejemplo 2.8.16: Sea (X, Y ) vector aleatorio continuo. Supongamos que la distribución
condicional de Y dado X = x es normal (x2 , 1), esto es, Y /X = x ∼ N (x2 , 1). Asumamos
también que una densidad para la variable aleatoria X está dada por
{
4
5 si x ≥ 1
fX (x) = x
0 e.o.c.
Calculemos
a) E(X r ), para r < 4,
b) E(Y ),
c) Cov(X, Y ).
Primeramente, ∫ ∞
E(X r ) = xr fX (x)dx
−∞
∫ ∞
4
= xr dx
1 x5
∫ ∞
= 4 xr−5 dx
1

xr−5+1
= 4
r − 5 + 1 1

4 [( ) ]
= lim xr−4 − 1r−4 .
r − 4 x→∞

- 357 -
2.8 Dependencia

Pero r < 4, de donde lim xr−4 = 0. Por lo tanto,


x→∞

4
E(X r ) = .
4−r

También, desde que Y /X = x ∼ N (x2 , 1),

E(Y /X = x) = x2 ,

por lo que
E(Y /X) = X 2 .

Ası́

E(Y ) =E( E(Y /X) )


=E(X 2 )
4
=
4−2
=2.

Finalmente,

E(X Y ) =E( E(XY /X) )


=E(X E(Y /X))
=E(X X 2 )
=E(X 3 )
4
=
4−3
=4,

de donde

Cov(X, Y ) =E(X Y ) − E(X) E(Y )


4
=4 − ·2
4−1
4
= .
3

Ejemplo 2.8.17: Sean X e Y variables aleatorias, de modo que Y = −X (en conse-


cuencia X e Y no son independientes) y E(Y ) = 0. Entonces,

E(X + Y /X = 1) =E(0/X = 1)
=0.

- 358 -
2.8 Dependencia

Por otra parte, Principio de Sustitución implica que

E(X + Y /X = 1) =E(1 + Y /X = 1)
=1 + E(Y /X = 1).

Un error común es usar el Principio de Sustitución en la siguiente forma:

E(X + Y /X = 1) =E(1 + Y )
=1 + E(Y )
=1.

Lo anterior serı́a válido sólo si X e Y fuesen independientes.

En general, si u : R2 → R es función y las variables aleatorias X e Y son independientes,


entonces, por Principio de Sustitución,

E(u(X, Y )/X = x) = E(u(x, Y )/X = x).

Las variables aleatorias X y u(x, Y ) son independientes, pues X e Y lo son. Por lo tanto,

E(u(x, Y )/X = x) = E(u(x, Y )).

En consecuencia,
E(u(X, Y )/X = x) = E(u(x, Y )).

Por ejemplo, si X e Y son independientes, entonces


( ) ( )
E X 2Y 5 + X
Y
/ X = x =E x2 Y 5 + 1
Y
x
1
=x2 E(Y 5 ) + E(Y ),
x
en particular, ( )
E X 2Y 5 + Y
X / X = 2 = 4E(Y 5 ) + 12 E(Y ).

Observación 2.8.5: El método de rechazo es comúnmente usado para generar varia-


bles aleatorias continuas desde una densidad dada, especialmente cuando la inversa de la
función distribución acumulada no puede ser encontrada explı́citamente.
Suponga que f es una función de densidad que es no nula en un intervalo [a, b] y cero
fuera de él (a y/o b pueden ser infinito). Sea M (x) una función tal que f (x) ≤ M (x)
sobre [a, b] y definamos
M (x)
m(x) = ∫ b ,
a M (x)dx
la cual es una función densidad.
La idea de este método es elegir M de modo que sea fácil generar variables aleatorias
que tengan densidad m. Si [a, b] es limitado, m puede ser elegido de modo que sea la
densidad de una distribución uniforme en [a, b]. El algoritmo es el siguiente:

- 359 -
2.8 Dependencia

Paso 1: Genere T con densidad m.


Paso 2: Genere U , uniforme en [0, 1] e independiente de T . Si M (T )U ≤ f (T ), entonces
elija X = T (acepte T ). En caso contrario, regrese al paso 1 (rechaza T ).

y
.....
..... .............. .
..... ...... ....M ....... .........
.....
....... ... ..... .... ..
........... ..
......................................... ...
..
... ................. rechaza ..
..
.... ...... ..
.
... .......... f ..
.... ........... ..
...
.. ............
. ............... .
.......... acepta .................. ...
..........
..
x
a T b

Figura 2.8.2

Verifiquemos que la variable aleatoria X, obtenida por este método, tiene densidad f .

P (x < X ≤ x + dx) = P (x < T ≤ x + dx/aceptar)

P (aceptar/x < T ≤ x + dx) P (x < T ≤ x + dx)


= (∗)
P (aceptar)

Además, la independencia de U con T y el hecho que U ∼ U (0, 1), implican que

P (aceptar/x < T ≤ x + dx) =P (M (T )U ≤ f (T ) / x < T ≤ x + dx)


( )
f (T )
=P U ≤ M (T ) / x < T ≤ x + dx
( )
f (x)
=P U ≤ M (x) / x < T ≤ x + dx
( )
f (x)
=P U ≤ M (x) U, T
f (x)
= ,
M (x)

luego, el numerador de (∗) resulta

f (x)
P (aceptar/x < T ≤ x + dx)P (x < T ≤ x + dx) = · P (x < T ≤ x + dx)
M (x)
f (x) P (x < T ≤ x + dx)
= · dx
M (x) dx
f (x)
= m(x)dx
M (x)
m(x)
=f (x)dx
M (x)
1
=f (x)dx ∫ b .
a M (x)dx

- 360 -
2.8 Dependencia

Ahora, usando Proposición 2.8.1 resulta que

P (aceptar) =P (M (T )U ≤ f (T ))
( )
f (T )
=P U ≤ M (T )
∫ ∞ ( )
f (T )
= P U≤M (T ) /T = t fT (t)dt.
0

Pero, la densidad de T es m y U, T son independientes, ası́,


∫ b ( )
f (t)
P (aceptar) = P U≤M (t) /T = t m(t)dt
a
∫ b ( )
f (t)
= P U≤M (t) m(t)dt.
a

Finalmente como U ∼ U (0, 1), entonces


∫ b
f (t)
P (acertar) = m(t)dt
a M (t)
∫ b
1
= f (t) ∫ b dt
a a M (x)dx
∫ b
1
=∫ b f (t)dt
a M (x)dx a
1
=∫ b .
a M (x)dx

Ası́,
P (aceptar/x < T ≤ x + dx)P (x < T ≤ x + dx)
P (x < X ≤ x + dx) =
P (aceptar)
1
f (x)dx ∫ b
a M (u)du
=
1
∫b
a M (u)du

=f (x)dx,

o sea,
P (x < X ≤ x + dx)
= f (x),
dx
por lo que se concluye que f es densidad para X.

Observación 2.8.6: Todas las definiciones y resultados de esta sección, también son
válidos cuando la variable aleatoria X se reemplaza por un vector aleatorio m-variado
X = (X1 , . . . , Xm ), y la variable aleatoria Y por un vector aleatorio n-variado

- 361 -
2.8 Dependencia

Y = (Y1 , . . . , Yn ). Por ejemplo, la definición de distribución condicional en el caso discreto


serı́a
pX1 ,...,Xm ,Y1 ,...,Yn (x1 , . . . , xm , y1 , . . . , yn )
pY1 ,...,Yn /X1 =x1 ,...,Xm =xm (y1 , . . . , yn ) = .
pX1 ,...,Xm (x1 , . . . , xm )

2.8.4 Predicción
En este párrafo trataremos el problema de predecir una variable aleatoria a partir de otra.
Por ejemplo, en problemas forestales, el volumen de un árbol es, a veces, estimado a
partir de su diámetro, el cual es más simple de medir. Para un bosque completo, es
razonable modelar el diámetro (X) y el volumen (Y ) como un vector aleatorio con alguna
distribución conjunta, y entonces tratar de predecir Y (el volumen) a partir de X (el
diámetro). Formalmente, se busca aproximar a Y con una función de X. O sea, se busca
una función, h : RecX → R, tal que Y sea “parecido” a h(X). En otras palabras, se
desea encontrar una función h de modo que la “distancia d” entre Y y h(X) sea “lo más
pequeña posible”.
Una distancia posible serı́a d(Y, h(X)) = E|Y − h(X)|. Sin embargo, la distancia que
usaremos es d(Y, h(X)) = E((Y − h(X))2 ), conocida como error cuadrático medio, y la
razón de usarla radica en que permite realizar cálculos explı́citos en muchos casos.
En resumen, el problema de predicción general consiste en encontrar una función
h : RecX → R, de modo que el valor E((Y − h(X))2 ), sea mı́nimo.
Un caso elemental, serı́a suponer que deseamos predecir Y por medio de una constante,
esto es, escoger h de entre todas las funciones constantes. En este caso, si h(x) = c,
entonces
[ ] [ ]
E (Y − h(X))2 =E (Y − c)2
[ ]
=E (Y − E(Y ) + E(Y ) − c)2
[ ]
=E [(Y − E(Y )) + (E(Y ) − c)]2
[ ]
=E (Y − E(Y ))2 + (E(Y ) − c)2 + 2(Y − E(Y ))(E(Y ) − c)
=V ar(Y ) + (E(Y ) − c)2 + 0.

El primer término de la última expresión no depende de c, y el segundo término es


minimizado cuando c = E(Y ), el cual es la óptima elección de c.
O sea, si se dispone solamente de constantes para predecir la variable aleatoria Y , el
óptimo es el valor esperado de Y (parece bastante obvio).

Veamos ahora el caso general


Primeramente, desde la Proposición 2.8.3, vemos que
( )
E((Y − h(X))2 ) =E E((Y − h(X))2 /X)
=E(g(X)),

con g la función
g(x) = E((Y − h(x))2 /X = x).

- 362 -
2.8 Dependencia

Ası́, por analogı́a con el caso de h constante, pero ahora usando αx = E(Y /X = x) en
lugar de E(Y ), resulta
( )
g(x) =E (Y − h(x))2 / X = x
( )
=E ((Y − αx ) + (αx − h(x)))2 / X = x
( ) ( )
=E (Y − αx )2 / X = x + E (αx − h(x))2 / X = x
+ 2E ((Y − αx )(αx − h(x)) / X = x).
Además,
E ((Y − αx )(αx − h(x)) / X = x) =(αx − h(x))E (Y − αx / X = x)
=(αx − h(x)) [E(Y / X = x) − E(αx / X = x)]
=(αx − h(x)) [αx − αx E(1 / X = x)]
=(αx − h(x)) · 0
=0.
También, V ar(Y /X = x) no depende de h y E((E(Y /X = x) − h(x))2 /X = x) es
minimizado cuando (E(Y /X = x) − h(x))2 es mı́nimo, es decir, es minimizado cuando
E(Y /X = x) − h(x) = 0.
En consecuencia, g(x) es mı́nimo cuando h(x) = E(Y /X = x), por lo que E((Y − h(x))2 )
es mı́nimo si h(x) = E(Y /X = x). O sea, el “mejor” predictor de la variable aleatoria Y ,
a partir de la variable aleatoria X es E(Y /X).
Una limitación práctica en cuanto al mejor predictor, es que su implementación de-
pende del conocimiento de la distribución conjunta del vector (X, Y ) para poder calcular
E(Y /X), y a menudo esta información no está disponible, ni siquiera aproximadamente.
Por esta razón, podrı́amos no ser tan ambiciosos y en lugar de encontrar el mejor predictor
de Y , tratar de encontrar el mejor predictor lineal de Y . Esto es, en lugar de buscar de
entre todas las4 funciones, h : RecX → R, aquella que minimize E((Y − h(x))2 ), buscar
sólo entre las funciones h que son lineales, es decir, funciones h de la forma h(t) = a + b t.
Por lo tanto, el problema de predicción lineal consiste en encontrar reales a y b de
modo de minimizar la expresión
E((Y − (a + b X))2 ).
Si ã y b̃ son los valores que hacen mı́nima esta expresión, la variable aleatoria ã + b̃ X
recibe el nombre de mejor predictor lineal de Y , basado en la variable aleatoria X, y se
acostumbra a denotar por Ŷ .
La siguiente Proposición entrega la forma de como calcular ã y b̃.

Proposición 2.8.5: Sean X e Y variables aleatorias, de modo que todas las cantidades
involucradas posteriormente existen. Entonces,
( )
min E (Y − (a + bX))2
a,b

es alcanzado en los valores ã y b̃, con


Cov(X, Y ) Cov(X, Y )
ã = E(Y ) − E(X), b̃ = .
V ar(X) V ar(X)

- 363 -
2.8 Dependencia

Demostración: Sea u : R2 → R, función definida por


( )
u(a, b) = E (Y − (a + b X))2 .
Es decir,
( )
u(a, b) =E (Y − (a + b X))2
( )
=E Y 2 + (a + b X)2 − 2Y (a + b X)
=E(Y 2 ) + a2 + 2 a b E(X) + b2 E(X 2 ) − 2a E(Y ) − 2b E(XY ).
Además,
∂u(a, b)
= 2a + 2b E(X) − 2 E(Y )
∂a
∂u(a, b)
= 2a E(X) + 2b E(X 2 ) − 2 E(X Y )
∂b
y
∂ 2 u(a, b) ∂ 2 u(a, b)
= 2; = 2E(X 2 )
∂a2 ∂b2

∂ 2 u(a, b) ∂ 2 u(a, b)
= 2E(X); = 2E(X)
∂a∂b ∂b∂a
Si ahora resolvemos el sistema
∂u(a, b)
= 0
∂a
∂u(a, b)
= 0
∂b

se obtiene que la única solución es (ã, b̃), con



E(Y ) E(X)

E(XY ) E(X 2 )
ã =
1
E(X)
E(X) E(X 2 )

E(X 2 ) E(Y ) − E(X) E(XY )


=
E(X 2 ) − (E(X))2
E(X 2 ) E(Y ) − E(X) [E(XY ) − E(X) E(Y )] − (E(X))2 E(Y )
=
V ar(X)
[ ]
E(Y ) E(X ) − (E(X)) − E(X) Cov(X, Y )
2 2
=
V ar(X)
E(Y ) V ar(X) − E(X) Cov(X, Y )
=
V ar(X)
Cov(X, Y )
=E(Y ) − E(X)
V ar(X)

- 364 -
2.8 Dependencia

y

1
E(Y )
E(X) E(XY )

b̃ =
1
E(X)
E(X) E(X 2 )

E(XY ) − E(X) E(Y )


=
V ar(X)
Cov(X, Y )
= .
V ar(X)

Finalmente, la matriz hessiana de la función u(a, b), evaluada en (ã, b̃) es


 
2 2E(X)
 
2
2E(X) 2E(X )

y su determinante resulta igual a 4 V ar(X) > 0, por lo que en el punto (ã, b̃) se alcanza
un mı́nimo.

Observación 2.8.7: Como Ŷ denota el mejor predictor lineal de Y basado en X,


entonces la Proposición anterior nos dice que

Cov(X, Y ) Cov(X, Y )
Ŷ = E(Y ) − E(X) + X.
V ar(X) V ar(X)

Además,
Cov(X, Y ) Cov(X, Y )
E(Ŷ ) = E(Y ) − E(X) + E(X)
V ar(X) V ar(X)

= E(Y ).

Si llamamos error de predicción al valor E((Y − Ŷ )2 ), entonces, Proposición 2.1.2 y


Corolario 2.6.1 implican que
( )2
E((Y − Ŷ )2 ) =V ar(Y − Ŷ ) + E(Y − Ŷ )
[ ]2
=V ar(Y − ã − b̃X) + E(Y ) − E(Ŷ )
=V ar(Y − b̃X)
=V ar(Y ) + b̃2 V ar(X) − 2b̃ Cov(X, Y )
Cov 2 (X, Y ) Cov(X, Y )
=V ar(Y ) + 2
V ar(X) − 2 Cov(X, Y )
V ar (X) V ar(X)

- 365 -
2.8 Dependencia

Cov 2 (X, Y )
=V ar(Y ) −
V ar(X)
( )2
Cov(X, Y )
=V ar(Y ) − √ V ar(Y )
V ar(X)V ar(Y )
( )
=V ar(Y ) 1 − ρ2 (X, Y ) .

En consecuencia, el error de predicción sólo depende de la varianza de Y y de la correlación


entre X e Y , y este se hace más “pequeño” a medida que ρ se “acerca” al valor 1 o al
valor −1. Esto muestra que el coeficiente de correlación es una medida de la dependencia
lineal entre X e Y .
Notemos que el mejor predictor lineal depende de la distribución conjunta de (X, Y )
solamente a través de las medias, varianzas y covarianzas. Ası́, en la práctica, es más
fácil construir el mejor predictor lineal o una aproximación de este que construir el mejor
predictor E(Y /X).

Ejemplo 2.8.18: Sean Z e Y variables aleatorias independientes, de modo que


Z ∼ P(α) ; Y ∼ P(β). Suponiendo que X = Y + Z, calculemos:

a) ρ(X, Y ),

b) el mejor predictor lineal de Y dado (es decir, basado en) X,

c) el mejor predictor de Y dado X.

Primeramente,
Cov(X, Y )
ρ(X, Y ) = √
V ar(X) V ar(Y )

Cov(Y + Z, Y )
= √ .
V ar(Y + Z) V ar(Y )

Pero, Z ∼ P(α); Y ∼ P(β) y también Z e Y son independientes, por lo que

Cov(Y + Z, Y ) =Cov(Y, Y ) + Cov(Z, Y )


=V ar(Y ) + 0

V ar(Y + Z) =V ar(Y ) + V ar(Z)


=β + α.

En consecuencia,
β
ρ(X, Y ) = √ .
(β + α)β

- 366 -
2.8 Dependencia

También,

Cov(X, Y ) Cov(X, Y )
Ŷ =E(Y ) − E(X) + X
V ar(X) V ar(X)
β β
=β − (β + α) + X,
β+α β+α
o sea,
β
Ŷ = 0 + X.
β+α

Por otra parte, como Z e Y son independientes, entonces Ejemplo 2.6.20 implica que
X ∼ P(α + β), por lo que, para y ≤ x,

pX/Y =y (x) =P (X = x/Y = y)


=P (Z = x − y / Y = y)
=P (Z = x − y)
αx−y
=e−α ,
(x − y)!

de donde

pX/Y =y (x) pY (y)


pY /X=x (y) =
pX (x)

e−α αx−y e−β β y


(x−y)! y!
=
e−(α+β) (α+β)x
x!
( )( )y ( )x−y
x β β
= 1− ,
y α+β α+β
( )
β
o sea, Y /X = x ∼ B x, α+β .
β β
En consecuencia, E(Y /X = x) = x · α+β y por tanto E(Y /X) = α+β X.
Nótese que en este caso, el mejor predictor coincide con el mejor predictor lineal.

Ejemplo 2.8.19: Para X e Y del ejemplo 2.8.1, encontramos el mejor predictor lineal
de Y dado X y el mejor predictor de Y dado X.
Observando éste ejemplo, obtenemos:

6 22
pX (0) = ; pX (1) =
28 28
y
5 7 9 7
pY (0) = , pY (1) = , pY (2) = , pY (3) = .
28 28 28 28

- 367 -
2.8 Dependencia

Ası́,
6 22 22
E(X) =0· +1· = ,
28 28 28
6 22 22
E(X 2 ) = 02 ·
+ 12 · = ,
28 28 28
( )2
22 22 132
V ar(X) = − = ,
28 28 784

5 7 9 7 46
E(Y ) =0· +1· +2· +3· = ,
28 28 28 28 28
5 7 9 7 106
E(Y 2 ) = 02 · + 12 · + 22 · + 32 · = ,
28 28 28 28 28
( )2
106 46 852
V ar(Y ) = − = .
28 28 784
También,

1 2 3 4
E(X Y ) = 0 · 0 · +0·1· +0·2· +0·3·0+1·0·
28 28 28 28
5 6 7
+1 · 1 · +1·2· +1·3·
28 28 28
38
= ,
28
de donde
38 22 46
Cov(X, Y ) = −
28 28 28
52
= .
784
En consecuencia,
52 52
46 22
Ŷ = − 784
132 + 784
132 X
28 784
28 784

4928 52
= + X
3696 132
4 13
= + X.
3 33

Finalmente, para x ∈ {0, 1},

− 23 x3 + 2 x2 − 13 x + 1
E(Y /X = x) = ,
6

- 368 -
2.8 Dependencia

por lo que
1 1 1 1
E(Y /X) = − X 3 + X 2 − X+ .
9 3 18 6
Claramente, el mejor predictor lineal no coincide con el mejor predictor.

¿Bajo qué condiciones podremos asegurar que el mejor predictor lineal y el mejor
predictor coinciden? La Proposición siguiente nos responde esta interrogante.

Proposición 2.8.6: Sean X e Y variables aleatorias. Si el vector aleatorio (X, Y )


tiene distribución normal bivariada, entonces el mejor predictor lineal y el mejor predictor
coinciden.

Demostración: Si (X, Y ) tiene distribución normal bivariada, entonces, Ejemplo 2.8.6


implica que
( √ )
V ar(Y )
Y /X = x ∼ N E(Y ) + ρ(X, Y ) √ (x − E(X)), V ar(Y ) (1 − ρ2 (X, Y )) .
V ar(X)

Por lo tanto,

V ar(Y )
E(Y /X = x) = E(Y ) + ρ(X, Y ) √ (x − E(X))
V ar(X)

Cov(X, Y ) V ar(Y )
= E(Y ) + √ √ (x − E(X))
V ar(X) V ar(Y ) V ar(X)

Cov(X, Y ) Cov(X, Y )
= E(Y ) − E(X) + x,
V ar(X) V ar(X)
es decir,
Cov(X, Y ) Cov(X, Y )
E(Y /X) = E(Y ) − E(X) + X.
V ar(X) V ar(X)
Pero, Observación 2.8.7 implica que
Cov(X, Y ) Cov(X, Y )
Ŷ = E(Y ) − E(X) + X,
V ar(X) V ar(X)

por lo que, E(Y /X) = Ŷ .

Ejemplo 2.8.20: Sea (Z, Y ) vector normal bivariado y A la matriz de 2 × 2 con deter-
minante no nulo, [ ]
1 0
A=
1 1
Como vimos en el Ejemplo 2.5.6, el vector (Z, Y )A es normal bivariado, es decir,
[ ]
1 0
(Z, Y )A = (Z, Y ) = (Z + Y, Y ) es normal bivariado.
1 1

- 369 -
2.8 Dependencia

Si X = Z + Y , Proposición anterior implica que

E(Z + Y ) Cov(Z + Y, Y ) Cov(Z + Y, Y )


E(Y /X) = E(Y ) − + X
V ar(Z + Y ) V ar(Z + Y )

(E(Z) + E(Y )) (Cov(Z, Y ) + V ar(Y ))


= E(Y ) −
V ar(Z) + V ar(Y ) + 2 Cov(Z, Y )

(Cov(Z, Y ) + V ar(Y ))
+ (Z + Y ).
V ar(Z) + V ar(Y ) + 2 Cov(Z, Y )

En el caso particular en que (Z, Y ) ∼ N ((0, 0), ( 10 01 )), el mejor predictor resulta

E(Y /X) = 12 (Z + Y ).

Observación 2.8.8: Sea Y variable aleatoria y X= (X1 , . . . , Xm ) vector aleatorio


m-dimensional. El problema de predicción general multidimensional, consiste en encontrar
una función h : RecX ⊂ Rm → R, de modo que
( )
E (Y − h(X))2 ,

sea mı́nimo.
Notese que h(X) = h(X1 , . . . , Xm ) es una variable aletoria real.
También, el mejor predictor lineal de Y dado X= (X1 , . . . , Xm ), consiste en encontrar
reales a0 , a1 , . . . , am , de modo que
( )2 

m
E  Y − a0 − ai Xi ,
i=1

sea mı́nimo.
Es posible verificar, al igual que en el caso unidimensional, que:

a) el mejor predictor de Y dado X= (X1 , . . . , Xm ) es la variable aleatoria


E(Y /(X1 , . . . , Xm )).
Por ejemplo, si X1 , . . . Xm , Y son variables aleatorias discretas, entonces

h(x1 , . . . , xm ) = E(Y / (X1 , . . . , Xm ) = (x1 , . . . , xm ))



= y pY /X1 =x1 ,...,Xm =xm (y)
y∈RecY

y
E(Y /(X1 , . . . , Xm )) = h(X1 , . . . , Xm ).

- 370 -
2.8 Dependencia

b) el mejor predictor lineal de Y dado X= (X1 , . . . , Xm ) es la variable aleatoria


m
Ŷ = ã0 + ãi Xi ,
i=1

donde el vector (ã1 , . . . , ãm ) se calcula desde la relación

(ã1 , . . . , ãm ) = (Cov(Y, X1 ), . . . , Cov(Y, Xm )) Γ−1


X ,

con ΓX matriz de orden m × m, cuyo elemento (i, j) es Cov(Xi , Xj ), y el valor ã0


se determina de la ecuación

m
ã0 = E(Y ) − ãi E(Xi ).
i=1

Por ejemplo, si m = 2,
Ŷ = ã0 + ã1 X1 + ã2 X2 ,
con
 −1
Cov(X1 , X1 ) Cov(X1 , X2 )
(ã1 , ã2 ) = (Cov(Y, X1 ), Cov(Y, X2 ))1×2  
Cov(X2 , X1 ) Cov(X2 , X2 ) 2×2

y
ã0 = E(Y ) − (ã1 E(X1 ) + ã2 E(X2 )).

Ejemplo 2.8.21: Sean Z1 , Z2 y Z3 variables aleatorias independientes, todas de va-


rianza uno y de modo que E(Zi ) = i, para i = 1, 2, 3.
Asumamos que, 0 < α < 1, y
1 α
X1 = √ Z1 , X2 = √ Z1 + Z2 ,
1 − α2 1 − α2

α2
Y = √ Z1 + α Z 2 + Z3 .
1 − α2
Encontremos el mejor predictor lineal de Y dado (X1 , X2 ).
Notemos primeramente que, por las condiciones de las Zi ,
( )
α2 1
Cov(Y, X1 ) =Cov √ Z1 + α Z2 + Z3 , √ Z1
1 − α2 1 − α2
α2 α 1
= Cov(Z1 , Z1 ) + √ Cov(Z2 , Z1 ) + √ Cov(Z3 , Z1 )
1 − α2 1−α 2 1 − α2
α2
= ,
1 − α2

- 371 -
2.8 Dependencia

Cov(Y, X2 ) =Cov(Y, α X1 + Z2 )
=α Cov(Y, X1 ) + Cov(Y, Z2 )
( )
α2 α2
=α + Cov √ Z1 + αZ2 + Z3 , Z2
1 − α2 1 − α2
α3 α2
= + √ Cov(Z1 , Z2 ) + α Cov(Z2 , Z2 ) + Cov(Z3 , Z2 )
1 − α2 1 − α2
α
= .
1 − α2
También,

Cov(X1 , X1 ) =V ar(X1 )
1
= V ar(Z1 )
1 − α2
1
= ,
1 − α2

Cov(X1 , X2 ) =Cov(X2 , X1 )
( )
α 1
=Cov √ Z1 + Z2 , √ Z1
1 − α2 1 − α2
α 1
= Cov(Z1 , Z1 ) + √ Cov(Z2 , Z1 )
1−α 2
1 − α2
α
= ,
1 − α2

Cov(X2 , X2 ) =V ar(X2 )
( )
α
=V ar √ Z1 + Z2
1 − α2
α 2
= V ar(Z1 ) + V ar(Z2 )
1 − α2
α2
= +1
1 − α2
1
=
1 − α2
y
1
E(X1 ) = √ ,
1 − α2
α
E(X2 ) = √ + 2,
1 − α2

α2
E(Y ) = √ + 2 α + 3.
1 − α2

- 372 -
2.8 Dependencia

Por lo tanto, ( )
α2 α
(Cov(Y, X1 ), Cov(Y, X2 )) = ,
1 − α2 1 − α2

y
 −1
 −1 1 α  
V ar(X1 ) Cov(X1 , X2 )  1 − α2 1 − α2  1 −α
  =

 = .
 α 
Cov(X2 , X1 ) V ar(X2 ) 1 −α 1
1 − α2 1 − α2
O sea,  
( ) 1 −α
α2 α  
(ã1 , ã2 ) = , = (0, α)
1− α2 1 − α2 1×2 −α 1 2×2

ã0 =E(Y ) − (ã1 E(X1 ) + ã2 E(X2 ))


[ ( )]
α2 1 α
=√ + 2α + 3 − 0 · √ +α· √ +2
1 − α2 1 − α2 1 − α2
=3.

En consecuencia, el mejor predictor lineal de Y dado X= (X1 , X2 ) es la variable


aleatoria
Ŷ = 3 − 0 X1 + α X2 .

Ejemplo 2.8.22: Sea µ= (µ1 , . . . , µp ) vector de Rp y Σ = [σij ] matriz de orden


p × p, simétrica y definida positiva. Recordemos que el vector aleatorio p-dimensional
(Z1 , . . . , Zp ), se dice que tiene distribución p-variada de parámetros (µ,Σ), se anota
(Z1 , . . . , Zp ) ∼ N (µ, Σ), si su densidad conjunta está dada por
1 1 ( )
fZ1 ,...,Zp (v1 , . . . , vp ) = √ √ exp − 12 Q(v1 , . . . , vp ) ,
( 2π)p detΣ
con v= (v1 , . . . , vp ) ∈ Rp , y

Q(v1 , . . . , vp ) = ( µ - v )Σ−1 ( µ - v)t .

La “t” representa la transpuesta y la función Q se llama forma cuadrática asociada


al vector (Z1 , . . . , Zp ). El caso p = 2, fue visto en el Ejemplo 2.4.7.

Es posible verificar que se cumplen las siguientes propiedades:

i) Para todo j ∈ {1, . . . , p}, Zj ∼ N (µj , σjj ).

ii) Para todo i, j ∈ {1, . . . , p}, Cov(Zi , Zj ) = σij .

- 373 -
2.8 Dependencia

iii) Si {j1 , . . . , jr } ⊂ {1, . . . , p}, entonces (Zj1 , . . . , Zjr ) ∼ N (ξ,η), con ξ= (µj1 , . . . , µjr )
y η matriz de tamaño r × r, con elemento qjm jn en el lugar (m, n) de esta matriz.

Asumiendo que (X1 , X2 , Y ) es un vector aleatorio normal tri-variado, con


 
2 0 0.2
µ = (1, 3, −2) y Σ= 0 3 −0.5,
0.2 −0.5 4

encontremos el mejor predictor lineal de Y dado (X1 , X2 ).


De las observaciones i), ii) y iii),

• E(X1 ) = 1; E(X2 ) = 3; E(Y ) = −2.

• Cov(Y, X1 ) = 0.2; Cov(Y, X2 ) = −0.5.

• V ar(X1 ) = 2; Cov(X1 , X2 ) = 0; V ar(X2 ) = 3.

Por lo tanto,
 −1  
2 0 0.5 0
  = ,
1
0 3 0 3
por lo que  
( ) 0.5 0 ( )
1 −1  = 1 −1
(ã1 , ã2 ) = , ,
5 2 1 10 6
0 3
y ( )
1 −1 8
ã0 = −2 − ·1+ ·3 =− .
10 6 5
En consecuencia,
8 1 1
Ŷ = − + X1 − X2 .
5 10 6

Observación 2.8.9: Es posible verificar que en el caso en que (X1 , . . . , Xn , Y ) sea un


vector normal n + 1-variado, el mejor predictor de Y dado (X1 , . . . , Xn ), coincide con el
mejor predictor lineal. Esto corresponde a la generalización de la Proposición 2.8.6.

- 374 -
2.8 Dependencia

PROBLEMAS

Problema 2.8.A: Sean U, V variables aleatorias tales que:


{ 3
v2
si v ≥ 3
fV (v) =
0 e.o.c.

y
U/V = v ∼ U (0, 3v).

a) Encuentre f(U,V ) .

b) Encuentre fV /U =u .

Problema 2.8.B: Sea (X, N ) vector aleatorio tal que

X/N = n ∼ B(n, p), N ∼ P(λ).

Halle la distribución de X.

Problema 2.8.C: Sea (X, Y ) vector aleatorio con densidad conjunta dada por

f(X,Y ) (x, y) = c exp{−(1 + x2 ) (1 + y 2 )}, (x, y) ∈ R2 ,

donde c es constante con la que se satisface


∫ ∞∫ ∞
f(X,Y ) (x, y)dxdy = 1.
−∞ −∞

Muestre que tanto Y /X = x como X/Y = y tienen distribución normal.

Problema 2.8.D: Sea (X, Y ) vector normal bivariado, con

(X, Y ) ∼ N ((1, 1), ( 31 12 )).

Halle la distribución condicional de X + Y dado X − Y = 0.

Problema 2.8.E: Se observa a dos lámparas durante sus vidas útiles. Suponga que
las vidas útiles son independientes y siguen una distribución exponencial de parámetro λ.
Sea X el tiempo que transcurre hasta que la primera lámpara se queme, Y el tiempo que
transcurre hasta que la otra lámpara se queme.

a) ¿Cuál es la distribución condicional de X dado Y = y?

b) ¿Cuál es la distribución de Y dado X = x?

c) Halle la distribución condicional de Y − X dado X = x.

- 375 -
2.8 Dependencia

Problema 2.8.F: Recordemos que una variable aleatoria X tiene distribución Beta de
parámetros a, b > 0, se anota X ∼ Beta(a, b), si su densidad está dada por
{ Γ(a+b)
xa−1 (1 − x)b−1 si 0 ≤ x ≤ 1
f (x, a, b) = Γ(a)Γ(b)
0 e.o.c.

Sea X variable aleatoria tal que X ∼ B(n, P ), n conocido y P aleatorio, con distribución
Beta(a, b) (a esta distribución se le conoce como distribución a priori para P ).
Encuentre la distribución de P/X = x (esta distribución es conocida como a posteriori
2
de P ). Además, calcule lim µposteriori y lim σposteriori .
n→∞ n→∞

Problema 2.8.G: Sea X = (X1 , . . . , Xn ) vector aleatorio, donde las variables aleatorias
Xi son independientes y N (M, σ 2 ), σ 2 conocido y M aleatorio, con distribución a priori
N (µ0 , σ 2 ). Encuentre la distribución a posteriori de M .

Problema 2.8.H: Si la distribución a priori pertenece a una familia G, los datos tienen
distribución perteneciente a una familia H, y la distribución a posteriori también pertenece
a G, entonces se dice que G es una familia de prioris conjugadas para H. Ası́, desde
el problema anterior, se tiene que la distribución Beta es una priori conjugada para la
distribución Binomial.
Suponga que M ∼ N (µ0 , σ02 ) y X/M = µ ∼ N (µ, σ 2 ). Muestre que la distribución a
posteriori de M es normal con media

σ02 σ 2 µ0 + σ02 x
µ1 = µ0 + (x − µ0 ) =
σ 2 + σ02 σ 2 + σ02

y varianza
σ02 σ 2 1
σ12 = = .
σ02 + σ 2 1
σ2
+ 1
σ02

Es decir, la distribución normal es conjugada de si misma.

Problema 2.8.I: Sea X variable aleatoria discreta con RecX = {0, 1, . . .} y Z variable
aleatoria continua, Z ∼Gamma(α, β). Asuma que X/Z = λ tiene distribución Poisson(λ),
λ > 0. Encuentre la distribución de la variable aleatoria X.

Problema 2.8.J: La tabla siguiente, resume la distribución del número de cobros, en un


año, para 100000 pólizas de vehı́culos motorizados.
Número de cobros Número de pólizas observadas
0 88585
1 10577
2 779
3 54
4 4
5 1
6 0
Total 100000

- 376 -
2.8 Dependencia

Por ejemplo, 10577 pólizas hicieron uso de su seguro sólo una vez en el año.
Suponiendo que la distribución de Poisson(λ), con λ tasa aleatoria y
λ ∼ Gamma(α, β), es un modelo para el número de cobros, estime el número de pólizas
con 0 cobros, 1 cobro, etc.

Problema 2.8.K: Sean (Xn ; n ≥ 1) sucesión de variables aleatorias discretas con


Rec Xn = {0, 1, . . . , n} y P variable aleatoria continua. Asuma que, para cada n,

Xn / P = p ∼ B(n, p), P ∼ U (0, 1).

a) Halle la distribución de Xn .

b) Obtenga la distribución condicional de P dado que Xn = k, k = 0, 1, . . . , n.

Problema 2.8.L: Sea X variable aleatoria con densidad dada por


{ 1
Γ(α) xα−1 e−x si x > 0 (α > 0)
fX (x) =
0 e.o.c.

Suponga que dado X = x (x > 0), Y tiene distribución Poisson con parámetro x, es decir,

xk e−x
P (Y = k/X = x) = , k ∈ {0, 1, 2, . . .}.
k!
a) Pruebe que
Γ(α + k)
P (Y = k) = , k ∈ {0, 1, 2, . . .}.
k! Γ(α) 2α+k

b) Obtenga la distribución condicional de X dado que Y = k, con k = 0, 1, 2, . . .

c) Calcule E(Y ) de dos formas distintas, y use esto para concluir que
∞ (
∑ )
k+n−1 1
= 2n , para n = 1, 2, 3, . . .
n 2k
k=1

d) Asuma α = 1, es decir, X es variable aleatoria exp(1). Verifique ahora que


X/Y = k ∼ Gamma(k + 1, 2), k = 0, 1, . . .

Problema 2.8.M: Para cada t ∈ R+ , sea Nt variable aleatoria tal que Nt ∼ P(λ t). Sea
T una variable aleatoria exponencial de parámetro µ.
Suponga que, para todo t ∈ R+ , las variables aleatorias Nt y T son independientes.
Halle la distribución de la variable aleatoria NT .

Problema 2.8.N: Clientes llegan a un supermercado según un proceso de Poisson con


parámetro λ, es decir, el número de clientes que llegan en el intervalo [0, t] es la variable
aleatoria Nt , la cual tiene distribución Poisson con parámetro λt.

- 377 -
2.8 Dependencia

Un fusible es instalado en el supermercado en el instante t = 0, y su vida útil T , tiene


distribución exponencial de parámetro µ.
¿Cuál es el número esperado de clientes que entran al supermercado hasta que el fusible
falla? Suponga que T es independiente del proceso de Poisson.

Problema 2.8.O: Sea (X, Y ) vector aleatorio discreto, con función de cuantı́a conjunta
dada por la tabla del Problema 2.6.H. Calcule:

a) E(X/Y = j), j ∈ {0, 1, 2, 3},

b) E(E(X/Y )),

c) E(V (X/Y )),

d) V (X − E(X/Y )).

Problema 2.8.P: Sea (X, Y ) vector aleatorio bidimensional. Suponga que la distribución
condicional de X dado Y = y es N (y 2 , y), siendo la densidad de Y dada por
{ 4
y5
si y ≥ 1
fY (y) =
0 si y < 1

Calcule:

a) E(Y r ), para r < 4,

b) E(X),

c) Cov(X, Y ).

Problema 2.8.Q: En un proceso productivo la probabilidad de que un ı́tem sea defec-


tuoso es p. Se examinan al azar n ı́tems (n ≥ 2) y se determina el número x de defectuosos.
Los x ı́tems defectuosos son sometidos a un examen más cuidadoso, determinándose que y
de estos son reparables. En base a la experiencia histórica, se sabe que un item defectuoso
es reparable con probabilidad α.

a) Obtenga p(X,Y ) (x, y), donde X es la variable aleatoria número de items defectuosos
al examinar n e Y el número de items reparables.

b) Pruebe que X − Y tiene distribución Binomial.

c) Calcule E(Y ).

Problema 2.8.R: Sean X1 , X2 variables aleatorias iid con densidad común


{
θ e−θx si x > 0, θ > 0
f (x, θ) =
0 e.o.c.

- 378 -
2.8 Dependencia

a) Encuentre fX1 /X1 +X2 =t (s).

b) Calcule E(Z/X1 + X2 = t), con Z = I(X1 >x0 ) y x0 real positivo fijo.

Problema 2.8.S: Sea (Xn ; n ≥ 0) sucesión de variables aleatorias discretas con valores
en {0, 1, . . . , d}, d ≥ 2. Suponga que, para todo n ≥ 0,
 1

 2 si |i − j| = 1 con 0 < i < d



P (Xn+1 = j / Xn = i) = 1 si (i, j) = (0, 0) ó (i, j) = (d, d)





0 e.o.c.
a) Encuentre E(Xn+1 /Xn = x), para x ∈ {0, 1, . . . , d} y n ≥ 0.

b) Asuma que E(X0 ) = 15 . Calcule E(Xn ), para todo n ≥ 1.

Problema 2.8.T: Sean X, Y variables aleatorias con esperanza y varianza finita. Veri-
fique la relación
V (Y ) = E(V (Y /X)) + V (E(Y /X)).

Problema 2.8.U: Sea (X, Y ) vector aleatorio normal bivariado con forma cuadrática
asociada
Q(x, y) = x2 + 2y 2 − xy − 3x − 2y + 4.
a) Halle la distribución de X/Y = y.

b) Calcule E(X/Y ).

Problema 2.8.V: Sea (X, Y ) vector aleatorio con densidad conjunta dada por
{ 1
π si x + y ≤ 1
2 2
f (x, y) =
0 e.o.c.

a) Halle fY /X=x y calcule E(Y /X).

b) ¿Son X e Y independientes?

c) Pruebe que X e Y son no correlacionadas.

Problema 2.8.W: El número de accidentes que ocurren a la semana en una cierta


fábrica, es una variable aleatoria con media µ y varianza σ 2 . El número de individuos
heridos, en los diferentes, accidentes son variables aleatorias iid con media ε y varianza τ 2
e independiente del número de accidentes.
Sea Y la variable aleatoria: número de individuos heridos en una semana.
a) Calcule E(Y ).

- 379 -
2.8 Dependencia

b) Calcule V (Y ).

Problema ∑2.8.X: Sean X1 , . . . , Xn , n ≥ 2, variables aleatorias iid B(p).


Sea Sn = ni=1 Xi , es decir, Sn es el número de éxitos que ocurren en n-ensayos indepen-
dientes, con probabilidad p de éxito en cada ensayo. En consecuencia, Sn ∼ B(n, p).
Para m ≤ n, calcule E(Sm /Sn ).

Problema 2.8.Y: Sean X1 , X2 variables aleatorias iid con densidad común dada por:
{ 2
3t si 0 < t < 1
f (t) =
0 e.o.c.

Sean Y1 = X1
X2 ; Y2 = X1 X2 . Calcule E(Y1 /Y2 ).

Problema 2.8.Z: Sea {Zij , i = 1, 2, . . . ; j = 0, 1, 2, . . .} un conjunto de variables aleato-


rias iid tal que
P (Zij = k) = pk , k = 0, 1, 2, . . . ,

E(Zij ) = µ,

Var(Zij ) = σ 2 .
Nótese que el conjunto de variables aleatorias consideradas es el siguiente:

Z10 Z11 Z12 · · ·


Z20 Z21 Z22 · · ·
.. .. .. ..
. . . .

Considere la sucesión (Xn ; n ≥ 0) definida por


Xn
X0 = 1, Xn+1 = Zkn , n = 0, 1, 2, ...
k=1

Por ejemplo, si n = 0,

X0
X1 = Zk0 = Z10 , pues X0 = 1.
k=1
∑Xn
En el caso en que Xn = 0, k=1 se interpreta como 0.
La sucesión (Xn ; n ≥ 0) es una cadena de Markov y es conocida como proceso de
ramificación de Galton-Watson.
La variable aleatoria Zij representa el número de descendientes del i-ésimo individuo
en la j-ésima generación. Ası́, Xn representa el total de la población después de n − 1
generaciones. Para todo n ≥ 0, calcule
a) E(Xn+1 ).

b) Var(Xn+1 ).

- 380 -
2.8 Dependencia

c) Si 0 < µ < 1, calcule lim E(Xn+1 ).


n→∞

Problema 2.8.AA: Sea X1 , . . . , Xn variables aleatorias iid N(0,1).Muestre que:


( )
i) X̄ ∼ N 0, n1 ,

ii) X̄ (media muestral) y S 2 (varianza muestral) son independientes.

Problema 2.8.AB: Sean X1 , X2 variables aleatorias iid N (θ, 1). Considere las siguientes
variables aleatorias,
X1 + X2
Y = , T = X1 , S = E(Y /T ).
2
a) Calcule E(Y ) y V (Y ).

b) Verifique que S depende de θ.

c) Calcule E(S) y compruebe que V (S) ≤ V (Y ).

d) Muestre que la distribución de (X1 , X2 )/T = t depende de θ.

Problema 2.8.AC: Sea X1 , . . . , Xn variables aleatorias idd B(θ)

a) Sea Y = I(Xn =1) . Calcule E(Y ) y V (Y ).


T
b) Sea T = X1 + . . . + Xn . Muestre que E(Y /T ) = .
n

Problema 2.8.AD: Sean X e Y variables aleatorias. Asuma que Y tiene distribución


Gamma(α, β) y X tiene distribución Poisson de parámetro Y , es decir, X/Y = λ ∼ P (λ).

a) Verifique que la variable aleatoria X tiene distribución Binomial Negativa de parámetros


β
(α, p), con p = .
1+β
α(1 − p)
b) Encuentre E(X/Y ) y verifique que E(X) = .
p
α(1 − p)
c) Calcule V (X/Y ) y verifique que V (X) = .
p2

Problema 2.8.AE: Sea (X, Y ) vector aleatorio normal bivariado de modo que se cumple
(X, Y ) ∼ N ((0, 0), ( 10 01 )).

Encuentre la función M (t) = E(exp(tXY )), con su correspondiente dominio para t.

- 381 -
2.9. CONVERGENCIA

2.9 Convergencia

En esta sección mostraremos, principalmente, el comportamiento asintótico de una sucesión


de variables aleatorias. En particular, el comportamiento lı́mite de sumas de variables
aleatorias independientes. Los resultados que se mostrarán son de gran importancia para
el estudio de propiedades de ciertas “cantidades estadı́sticas” que aparecen en la Teorı́a
de Inferencia.
En general, las propiedades que enunciaremos no serán demostradas debido al grado
de complejidad de estas, pero, una excelente referencia donde podrı́an consultarse es [7].

2.9.1 Tipos de convergencia


Comúnmente se cree (y se puede verificar experimentalmente o a través de simulaciones
computacionales) que al lanzar muchas veces una moneda honesta, la proporción de ve-
ces que sale cara es cercana a 0.5. La ley de los grandes números es una formulación
matemática de esta creencia. Los sucesivos lanzamientos de la moneda son modelados
como ensayos aleatorios independientes. La variable aleatoria Xn toma el valor 0 ó 1 de
acuerdo a si en el n-ésimo ensayo resulta un sello o una cara. Entonces, la proporción de
resultados en que la moneda sale cara, cuando se realizan n lanzamientos de esta, puede
ser expresado como
1∑
n
X̄n = Xi .
n
i=1

La ley de los grandes números expresa que X̄n es “cercano” a 0.5 en algún sentido.
También, en algunas aplicaciones, como las vistas, por ejemplo, en la Sección 2.7, es
común querer aproximar P (a < X ≤ b) = FX (b) − FX (a), cuando no se conoce la función
de distribución acumulada FX .
El sentido de la “cercanı́a” de X̄n con 0.5 y el tipo de aproximación de FX , son algunas
de las diferentes formas de convergencia que veremos a continuación.

Definición 2.9.1: Sean (Xn ; n ≥ 1) sucesión de variables aleatorias y X otra variable


aleatoria

(a) La sucesión (Xn ; n ≥ 1) se dice que converge en probabilidad a X, se anota


P
Xn −→ X, si, para todo ε > 0,
n

lim P (|Xn − X| > ε) = 0.


n→∞

Notar que, de la definición de convergencia en probabilidad,


P P
Xn −→ X ⇔ (Xn − X) −→ 0.
n n

(b) La sucesión (Xn ; n ≥ 1) se dice que converge casi seguramente a X, se anota


c.s.
Xn −→ X, si
n ( )
P {ω ∈ Ω : lim Xn (ω) = X(ω)} = 1.
n→∞

- 382 -
2.9 Convergencia

También, en este caso, de la definición de convergencia casi segura,


c.s. c.s.
Xn −→ X ⇔ (Xn − X) −→ 0.
n n

D
(c) La sucesión (Xn ; n ≥ 1) se dice que converge en distribución a X, se anota Xn −→ X,
n
si, para todo x donde FX es continua,

lim FXn (x) = FX (x).


n→∞

Es común denotar a FXn por Fn y a FX por F .


D D
En este tipo de convergencia, Xn −→ X no es equivalente a (Xn − X) −→ 0, salvo
n n
cuando X es constante.
Lp
(d) La sucesión (Xn ; n ≥ 1) se dice que converge en Lp a X, se anota Xn −→ X, si,
n

lim E (|Xn − X|p ) = 0.


n→∞

En el caso en que p = 2, la convergencia en L2 se conoce como convergencia en


media cuadrática, y desde que
( ) ( )
E |Xn − X|2 = E (Xn − X)2
= V ar(Xn − X) + [E(Xn − X)]2
= V ar(Xn − X) + [E(Xn ) − E(X)]2 ,
la convergencia en media cuadrática equivale a que se verifiquen las relaciones

lim V ar(Xn − X) = 0 y lim E(Xn ) = E(X).


n→∞ n→∞

Proposición 2.9.1: Las relaciones entre los distintos tipos de convergencia se expresan
en el siguiente diagrama:

Lq
Xn −→ X
n

⇓ si q ≥ p ≥ 1

Lp
Xn −→ X
n

c.s. P D
Xn −−→ X ⇒ Xn −
→ X ⇒ Xn −
→X
n n n

⇐ si X es constante

- 383 -
2.9 Convergencia

Ejemplo 2.9.1: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias de modo que, para todo
n ≥ 1, ( ) ( )
P Xn = 1 − n1 = 12 , P Xn = 1 + n1 = 1
2

y X variable aleatoria constante igual a 1.


D
a) Verifiquemos que Xn −
→ X.
n

L2 c.s.
b) Mostremos que Xn −→ 1 y también Xn −−→ 1.
n n

Primeramente,


0 si x < 1 − n1
Fn (x) = P (Xn ≤ x) = 1
si 1 − n1 ≤ x < 1 + 1


2 n
1 si x ≥ 1 + n1

y también, {
0 si x < 1
F (x) = P (X ≤ x) =
1 si x ≥ 1

Caso 1: Si x < 1, entonces existe n(0 ∈ N, de modo ) que, para todo n ≥ n0 , x < 1 − n1 .
Lo anterior debido a que la sucesión 1 − n1 ; n ≥ 1 converge a 1. Ası́,

lim Fn (x) = lim 0 = 0 = F (x).


n→∞ n→∞

Caso 2: Si x > 1, entonces existe n(1 ∈ N, de modo ) que, para todo n ≥ n1 , x > 1 + n .
1

Lo anterior debido a que la sucesión 1 + n ; n ≥ 1 converge a uno. Ası́,


1

lim Fn (x) = lim 1 = 1 = F (x).


n→∞ n→∞

En consecuencia, para todo x donde F es continua, se cumple

lim Fn (x) = F (x),


n→∞

D
es decir, Xn −→ X.
n
También,
( ) ( )
1 ( ) 1 ( )
E(Xn ) = 1− P Xn = 1 − n + 1 +
1
P Xn = 1 + n1
n n
( ) ( )
1 1 1 1
= 1− + 1+
n 2 n 2

= 1

- 384 -
2.9 Convergencia

y
( ) ( )
1 2 1 1 2 1 1
E(Xn2 ) = 1− + 1+ = 1 + 2.
n 2 n 2 n
Ası́,
V ar(Xn − X) = V ar(Xn − 1)

= V ar(Xn )
( )
1
= 1 + 2 − 12
n

1
= ,
n2
por lo que
lim V ar(Xn − X) = 0
n→∞
y
lim E(Xn ) = lim 1 = 1 = E(X).
n→∞ n→∞

L2
Por lo tanto, Xn −→ X.
n
c.s.
Finalmente, verificar que Xn −−→ X, significa probar que P (A) = 1, con
n
A = {ω ∈ Ω : lim Xn (ω) = 1}.
n→∞

Para ello, definamos la sucesión (Bn ; n ≥ 1), con Bn = {ω ∈ Ω∩: |Xn (ω) − 1| = n1 }.
Notar que, para todo n ≥ 1, P (Bn ) = 1. Si ahora definimos B = ∞ n=1 Bn , concluimos
que (∞ )
∪ ∞
∑ ∞

c
P (B ) = P Bn ≤
c c
P (Bn ) = 0 = 0,
n=1 n=1 n=1

es decir, P (B c ) = 0, por lo que P (B) = 1.


Ahora, si ω ∈ B, entonces ω ∈ Bn , para todo n ≥ 1, es decir, |Xn (ω) − 1| = 1
n, para
todo n ≥ 1, de donde
lim Xn (ω) = 1,
n→∞

o sea, ω ∈ A.
Concluimos entonces que, B ⊂ A, por lo que

1 = P (B) ≤ P (A) ≤ 1,

es decir, P (A) = 1.

Ejemplo 2.9.2: Sea (Yn ; n ≥ 1), sucesión de variables aleatorias iid U (0, 1). Para cada
n ≥ 1, se define Xn = n · min{Y1 , . . . , Yn }. Verifiquemos que
D
Xn −
→ X,
n

- 385 -
2.9 Convergencia

D
donde X ∼ exp(1). Es común escribir lo anterior en la forma Xn −
→ exp(1).
n
Notemos que
F (x) = P (X ≤ x)
{
0 si x < 0
=
1 − e−x si x ≥ 0
y
Fn (x) =P (Xn ≤ x)
=P (n · min{Y1 , . . . , Yn } ≤ x)
( x)
=P min{Y1 , . . . , Yn } ≤
( n
x)
=1 − P min{Y1 , . . . , Yn } >
( n
x x)
=1 − P Y1 > , . . . , Yn >
[ ( n )] n
x n
=1 − P Y1 >
[ (nx )]n
=1 − 1 − FY1
n


0 [ si x < 0
]n
= 1− 1− n x
si 0 ≤ nx < 1


1 si nx ≥ 1
Por lo tanto, si x < 0, entonces
lim Fn (x) = lim 0 = 0 = F (x).
n→∞ n→∞

Si ahora x > 0, entonces existe n0 ∈ N, de modo que, para todo n ≥ n0 , se verifica la


desigualdad, 0 ≤ nx < 1, y por tanto
[ x ]n
Fn (x) = 1 − 1 − , para todo n ≥ n0 .
n
Es decir,
( [ x ]n )
lim Fn (x) = lim 1 − 1 −
n→∞ n→∞
( n
x )n
=1 − lim 1 −
n→∞ n
−x
=1 − e
=F (x).
En consecuencia, para todo x real,
lim Fn (x) = F (x),
n→∞

es decir,
D
Xn −
→ X.
n

- 386 -
2.9 Convergencia

Ejemplo 2.9.3: Sea (Zn ; n ≥ 1) sucesión de variables aleatorias iid U (0, 1). Para cada
P
n ≥ 1, se define Xn = max{Z1 , . . . , Zn }. Verifiquemos que Xn −
→ 1.
n
Como para cada i ≥ 1, Zi ∼ U (0, 1), entonces P (0 < Zi < 1) = 1, por lo que, para
todo n ≥ 1, P (0 < Xn < 1) = 1. Ası́, si ε > 0,

P (|Xn − 1| > ε) =P (Xn − 1 > ε ∨ Xn − 1 < −ε)


=P (Xn > 1 + ε) + P (Xn < 1 − ε)
=0 + P (Xn < 1 − ε)
=P (max{Z1 , . . . , Zn } < 1 − ε)
=P (Z1 < 1 − ε, . . . , Zn < 1 − ε)
= [P (Z1 < 1 − ε)]n
{
0 si 1 − ε ≤ 0
=
(1 − ε)n si 0 < 1 − ε < 1

es decir, para ε > 0,


{
0 si 1 ≤ ε
P (|Xn − 1| > ε) =
(1 − ε)n si 0 < ε < 1.

En consecuencia, para todo ε > 0,

lim P (|Xn − 1| < ε) > 0,


n→∞

P
o sea, Xn −
→ 1.
n

Proposición 2.9.2: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias de modo que

i) lim E(Xn ) = α, ii) lim V ar(Xn ) = 0.


n→∞ n→∞

P
Entonces, Xn −
→ α.
n

Demostración: Primeramente, usando Corolario 2.3.2, se tiene que, para ε > 0,

E(|Xn − α|2 )
P (|Xn − α| > ε) ≤ .
ε2
Pero,
( )
E(|Xn − α|2 ) =E (Xn − α)2
=E(Xn2 ) − 2 α E(Xn ) + α2
=V ar(Xn ) + (E(Xn ))2 − 2 α E(Xn ) + α2 .

Usando ahora las condiciones i) y ii), se obtiene que


( )
lim E |Xn − α|2 = 0 + α2 − 2α α + α2 = 0.
n→∞

- 387 -
2.9 Convergencia

O sea, para todo ε > 0,


1 ( )
2
lim P (|Xn − α| > ε) ≤ lim E |X n − α| = 0.
n→∞ ε2 n→∞
P
En consecuencia, Xn −
→ α.
n

Proposición 2.9.3: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid con media
común µ ∈ R, y varianza común σ 2 , con 0 < σ 2 < ∞. Para cada n ≥ 1, se define

Sn − E(Sn ) ∑
n
Zn = √ , con Sn = Xi .
V ar(Sn ) i=1

Entonces, la sucesión (Zn ; n ≥ 1) converge en distribución a Z, donde Z ∼ N (0, 1). En


otras palabras,
Sn − E(Sn ) D
√ −−→ N (0, 1).
V ar(Sn ) n

Cabe resaltar que, por el hecho de que X1 , . . . , Xn , . . . son iid,


Sn − E(Sn ) Sn − nµ
√ = √
V ar(Sn ) nσ 2

n(X̄n − µ)
= √


n
= (X̄n − µ).
σ
Por lo tanto, la convergencia que se tiene es

n D
(X̄n − µ) −−→ N (0, 1).
σ n

Este resultado es conocido como Teorema del Lı́mite Central (clásico), y fue
enunciado en la Sección 2.7.

2.9.2 Ley de los grandes números


Ahora enunciaremos la ley de los grandes números y entregaremos algunos criterios para
su verificación.

Definición 2.9.2: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias, de modo que, para
todo n ≥ 1, E(Xn ) < ∞.
Se dice que la sucesión (Xn ; n ≥ 1) satisface la ley débil de los grandes números,
anotaremos LDGN , si

- 388 -
2.9 Convergencia

Sn − E(Sn ) P
a) −→ 0.
n n
Se dice que la sucesión (Xn ; n ≥ 1) satisface la ley fuerte de los grandes números,
anotaremos LF GN , si
Sn − E(Sn ) c.s.
b) −−→ 0.
n n
∑n
En ambos casos, la variable aleatoria Sn está definida por Sn = Xi .
i=1
En términos intuitivos, el concepto “ley de los grandes números” puede ser expresado
como: Una sucesión de variables aleatorias satisface la ley de los grande números si, cuando
n es “grande”, la media aritmética de las primeras n observaciones es aproximadamente
igual a la media aritmética de sus esperanzas, es decir, Snn es aproximadamente igual a
E(Sn )
n .

Observación 2.9.1: En el caso en que las variables aleatorias Xn tengan todas igual
media, digamos µ, las condiciones a) y b) se traducen en:
P c.s.
a’) X̄n −→ µ y b’) X̄n −−→ µ.
n n

También, por las relaciones entre los distintos tipos de convergencia vistos en la
Proposición 2.9.1, se concluye que:
Si la sucesión (Xn ; n ≥ 1) satisface la LF GN , entonces satisface la LDGN .

Proposición 2.9.4: (Ley débil de Chebyshev) Sea (Xn ; n ≥ 1) sucesión de varia-


bles aleatorias que verifican:
a) Las variables aleatorias Xi y Xj son independientes cuando i ̸= j.
b) Existe c ∈ R , de modo que, para todo n ≥ 1, V ar(Xn ) ≤ c.
Entonces, la sucesión (Xn ; n ≥ 1) satisface la LDGN , es decir,
Sn − E(Sn ) P
−−→ 0.
n n

Notar que este criterio no necesita de que las variables aleatorias Xn tengan todas
igual distribución.

Ejemplo 2.9.4: Sea (An ; n ≥ 1) sucesión de sucesos independientes. Para cada n ≥ 1,


definamos Xn = IAn . Entonces,
( 2 )
V ar(Xn ) = E(Xn2 ) − (E(Xn ))2 =E IA n
− (E (IAn ))2
=E (IAn ) − (E (IAn ))2
=P (An ) − (P (An ))2
=P (An )(1 − P (An ))
1
≤ .
4

- 389 -
2.9 Convergencia

Además, para i ̸= j, Xi es independiente de Xj pues el suceso Ai es independiente


del Aj . En consecuencia, la sucesión (Xn ; n ≥ 1) satisface la LDGN.

Proposición 2.9.5: (Primera ley fuerte). Sea (Xn ; n ≥ 1) sucesión de variables


aleatorias que verifican:

a) X1 , . . . , Xn , . . . son independientes.


V ar(Xn )
b) La serie numérica n2
converge.
n=1

Entonces, la sucesión (Xn ; n ≥ 1) satisface la LF GN, es decir,

Sn − E(Sn ) c.s.
−−→ 0.
n n

También en este caso, las variables aleatorias Xn no necesitan tener todas igual dis-
tribución.

Ejemplo 2.9.5: Sea (Xn ; n ≥ 1)] sucesión


[ de variables aleatorias independientes, de
modo que, para todo n ≥ 1, y θ ∈ 0, 2 ,
1

( ) 1 ( ) 1
P Xn = nθ = y P Xn = −nθ = .
2 2
Entonces,
( ) ( ) ( )
E(Xn ) =nθ · P Xn = nθ + −nθ · P Xn = −nθ
1 ( ) 1
=nθ · + −nθ ·
2 2
=0

y
( ) ( )2 ( ) ( )2 ( )
E Xn2 = nθ · P Xn = nθ + −nθ · P Xn = −nθ
1 1
=n2θ · + n2θ ·
2 2
=n2θ .

Ası́, para todo n ≥ 1, V ar(Xn ) = n2θ , por lo cual,



∑ ∞
∑ ∞

V ar(Xn ) n2θ 1
= =
n2 n2 np
n=1 n=1 n=1

con p = 2 − 2θ. Además, 0 < θ < 1


2, por lo que p > 1 y por tanto la serie numérica
∑∞
V ar(Xn )
n2
, converge.
n=1

- 390 -
2.9 Convergencia

En consecuencia, la sucesión (Xn ; n ≥ 1) satisface la LF GN, es decir,

Sn − E(Sn ) c.s. c.s.


−−→ 0, o equivalentemente, X̄n −−→ 0.
n n n

Proposición 2.9.6: (Ley fuerte de Kolmogorov). Sea (Xn ; n ≥ 1) sucesión de


variables aleatorias de modo que X1 , . . . , Xn , . . . son iid, con media común µ ∈ R.
Entonces, la sucesión (Xn ; n ≥ 1) satisface la LF GN, es decir,

Sn − E(Sn ) c.s. c.s.


−−→ 0, o equivalentemente, X̄n −−→ µ.
n n n

Notar
∑∞que esta Proposición es consecuencia inmediata de la primera ley fuerte, pues
la serie n=1 nc2 , es convergente, cualquiera sea la constante c.

Ahora entregaremos algunas técnicas que permiten estudiar la convergencia en dis-


tribución de distintos tipos de sucesiones.

2.9.3 Criterios para estudiar convergencia en distribución


Proposición 2.9.7: (Criterio de Paul Lévy). Sea (Xn ; n ≥ 1) sucesión de variables
aleatorias. Para cada n ≥ 1, Φn denotará la función caracterı́stica de Xn . Supongamos
que las Φn satisfacen:

a) lim Φn (t) = Φ(t), para todo t real.


n→∞

b) La función Φ(t) es continua en cero.


D
Entonces, existe X variable aleatoria de modo que ΦX = Φ y Xn −
→ X.
n

t2 D
Por ejemplo, si lim Φn (t) = e− 2 , para todo t real, entonces Xn −
→ N (0, 1), ya que
n→∞ n
2
− t2
Φ(t) = e es continua en 0 y corresponde a la función caracterı́stica de una variable
aleatoria normal (0, 1).
D
El recı́proco de esta Proposición es válido, es decir, si Xn −
→ X, entonces para todo t
n
real,
lim Φn (t) = ΦX (t).
n→∞

Ejemplo 2.9.6: Sean (Yn ; n ≥ 1) y (Zn ; n ≥ 1) dos sucesiones de variables aleatorias,


de modo que:
D D
a) Yn −
→ N (0, 1) y Zn −
→ N (0, 1).
n n

b) Para cada n ≥ 1, Yn y Zn son independientes.

- 391 -
2.9 Convergencia

Entonces, podemos concluir que si a y b son constantes no nulas,


D
aYn + bZn −
→ N (0, a2 + b2 ).
n

En efecto, por la independencia de Yn con Zn ,

ΦaYn +bZn (t) = ΦaYn (t) ΦbZn (t)


= ΦYn (a t) ΦZn (b t).

Criterio de Lévy implica que


( )( )
lim ΦaYn +bZn (t) = lim ΦYn (at) lim ΦZn (bt)
n→∞ n→∞ n→∞
− 21 (at)2 − 12 (bt)2
=e e
− 21 (a2 +b2 )t2
=e .

Además, la función Φ(t) = e− 2 (a +b )t corresponde a la función caracterı́stica de una


1 2 2 2

variable aleatoria N (0, a2 + b2 ). En consecuencia,


D
aYn + bZn −
→ N (0, a2 + b2 ).
n

Proposición 2.9.8: (Criterio para caso discreto). Sea (Xn ; n ≥ 1) sucesión de


variables aleatorias discretas, al igual que X. Asumamos que el recorrido de cada una de
ellas está incluido en el conjunto {x0 , x1 , . . .} y que además,

lim pXn (xk ) = pX (xk ), para todo k.


n→∞

D
Entonces, Xn −
→ X.
n
D
El recı́proco es verdadero cuando xk = k, es decir, si Xn −
→ X, entonces
n

lim pXn (k) = pX (k), para todo k ∈ {0, 1, . . .}.


n→∞

Ejemplo 2.9.7: Sea (XN ; N ≥ 1) sucesión de variables aleatorias hipergeométricas, con


función de cuantı́a
 ( )( )
 D N −D

 k n−k

 (N ) si k ∈ {0, 1, . . . , n}
pN (k) = P (XN = k) = n




 0 e.o.c.
(D )
donde D, N son enteros no negativos, D ≤ N y n ≤ N (por convención k = 0 si
k > D).

- 392 -
2.9 Convergencia

Recordemos que esta distribución sirve de modelo, por ejemplo, para el número de
artı́culos defectuosos en una muestra de tamaño n, extraı́da sin reposición de un lote de
N artı́culos, que contiene D defectuosos.
Cuando D y N −D (número de artı́culos no defectuosos) son “grandes”
( D ) y n “pequeño”,
la variable aleatoria XN tiene, “aproximadamente”, distribución B n, N , ya que en estas
condiciones, las extracciones son “casi” independientes (lote “grande”).
Asumamos n fijo y D dependiendo de N , de modo que N D
→ p cuando N tiende a
infinito (0 < p < 1).
En estas condiciones, verifiquemos que
D
XN −→ B(n, p).
N

En efecto, para k ∈ RecXN = {0, 1, . . . , n},

(D)(N −D)
k
pN (k) = P (XN = k) = (Nn−k
)
n

D! (N −D)! n!(N −n)!


= k!(D−k)! (n−k)!(N −D−n+k)! N!

(n) D(D−1)···(D−(k−1))(N −D)(N −D−1)···(N −D−(n−k−1))


= k N (N −1)···(N −(n−1))

(n) N ( N − N1 )···( N
D D D
− k−1
N )(
D
1− N )(1− D+1 ··· 1− D+n−k−1
N ) ( N )
= k 1 (1− N )···(1− N )
1 n−1 ,

N →
D
y como p, entonces
N
( )
n p p · · · p(1 − p) · · · (1 − p)
lim pN (k) =
N →∞ k 1 (1 − 0) · · · (1 − 0)
( )
n k
= p (1 − p)n−k ,
k
es decir,
D
XN −→ B(n, p).
N

Proposición 2.9.9: (Criterio de Scheffé). Sea (Xn ; n ≥ 1) sucesión de variables


aleatorias continuas al igual que X. Para cada n ≥ 1, denotemos por fn la densidad de
Xn y por f la densidad de X. Si se satisface la condición

lim fn (x) = f (x),


n→∞

para todo x real, salvo un conjunto contable, entonces


D
Xn −
→ X.
n

- 393 -
2.9 Convergencia

D
El recı́proco de esta Proposición es falso, es decir, si Xn −
→ X, no implica que
n
lim fn (x) = f (x).
n→∞

Ejemplo 2.9.8: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias de modo que, para
D
cada n ≥ 1, Xn ∼ U (0, an ) y an → a, (0 < a < ∞). Verifiquemos que Xn −
→ U (0, a).
n n
Primeramente observamos que
{
1
si 0 < x < an
fn (x) = an
0 e.o.c.
y {
1
a si 0 < x < a
f (x) =
0 e.o.c.
Ahora estudiemos lim fn (x), para x ∈] − ∞, 0]; x ∈]a, ∞[ y x ∈]0, a[.
n→∞

Caso 1: x ≤ 0
lim fn (x) = lim 0 = 0 = f (x).
n→∞ n→∞

Caso 2: x > a. Como an → a, entonces, para ε = x − a, existe n0 ∈ N, tal que, para


n
todo n ≥ n0 , an − a < ε y an − a > −ε.
En particular, an < x, para todo n ≥ n0 , por lo tanto,
lim fn (x) = lim 0 = f (x).
n→∞ n→∞

Caso 3: 0 < x < a. Por el mismo argumento anterior, existe n1 ∈ N tal que, para todo
n ≥ n1 , x < an . Por lo tanto,
1 1
lim fn (x) = lim = = f (x).
n→∞ n→∞ an a
En consecuencia, para todo x real, salvo el conjunto finito {a},
lim fn (x) = f (x),
n→∞

por lo que
D
Xn −
→ U (0, a).
n

Finalmente, mostraremos algunas propiedades que permiten estudiar la forma en que


se preserva la convergencia.

Proposición 2.9.10: Sea g : R → R función continua, (Xn ; n ≥ 1) sucesión de variables


aleatorias y X otra variable aleatoria. Esta proposición asegura que:

- 394 -
2.9 Convergencia

c.s. c.s.
(i) Si Xn −−→ X, entonces g(Xn ) −−→ g(X).
n n

P P
(ii) Si Xn −
→ X, entonces g(Xn ) −
→ g(X).
n n

D D
(iii) Si Xn −
→ X, entonces g(Xn ) −
→ g(X).
n n

La Proposición 2.9.10 aún es válida si g : A → R es función continua, A es conjunto


abierto de R y P (X ∈ A) = 1.

Ejemplo 2.9.9: Sea (Yn ; n ≥ 1) sucesión de variables aleatorias iid U (0, 1). Para cada
∏ 1
n ≥ 1, definimos la media geométrica Wn = ( ni=1 Yi ) n . Estudiemos la convergencia casi
segura de la sucesión (Wn ; n ≥ 1).
Para cada k ≥ 1, definimos Zk = ln(Yk ). Ası́,
E(Zk ) =E(ln(Yk ))
∫ 1
= ln(u)fYk (u)du
0
∫ 1
= ln(u)du
0
∫ 1
= lim ln(u)du
ε→0+ ε

= lim [u ln(u) − u] 1ε
ε→0+
=1 ln(1) − 1 − lim (ε ln(ε) − ε)
ε→0+
= − 1 − lim ε ln ε
ε→0+
=−1−0 (usando L’Hopital)
= − 1.
Además, Z1 , . . . , Zn , . . . son independientes (pues las Yi lo son). La ley fuerte de Kol-
mogorov aplicada a la sucesión (Zn ; n ≥ 1) implica que
Z1 + · · · + Zn c.s.
−−→ −1.
n n

Pero,
Z1 + · · · + Zn ln(Y1 ) + · · · + ln(Yn )
=
n n
1
= ln(Y1 · · · Yn )
n
[ ]1 
∏n n

= ln  Yi 
i=1

= ln(Wn ),

- 395 -
2.9 Convergencia

es decir,
c.s.
ln(Wn ) −−→ −1.
n

Si ahora consideramos la función g(x) = ex , para x real, obtenemos que

c.s.
g(ln(Wn )) −−→ g(−1),
n

en otras palabras,
Wn −−→ e−1 .
c.s.
n

Ejemplo 2.9.10: Sea (Yn ; n ≥ 1) sucesión de variables aleatorias iid con media común
0 y varianza común 2. Verifiquemos que

1 (Y1 + · · · + Yn )2 D
· → Y,

2 n n

con Y ∼ χ2 (1).
Para cada n ≥ 1, definamos

n Y1 + · · · + Yn
Xn = √ · .
2 n

Desde que Y1 , . . . , Yn , . . . son iid con media común 0 y varianza común 2,

(Y1 + · · · + Yn ) − E(Y1 + · · · + Yn ) (Y1 + · · · + Yn ) − 0


√ = √
V ar(Y1 + · · · + Yn ) n·2

n Y + · · · + Yn
= √ · 1 .
2 n
Por lo tanto, Teorema del Lı́mite Central (Proposición 2.9.3) implica que

n Y + · · · + Yn D
√ · 1 −
→ X,
2 n n

D
es decir, Xn −
→ X, con X ∼ N (0, 1).
n
D
Si ahora definimos g(x) = x2 , para x real, entonces g(Xn ) −
→ g(X).
n
En consecuencia,
D
Xn2 −
→ X 2,
n
o sea,
1 (Y1 + · · · + Yn )2 D
· −
→ Y
2 n n

con Y = X 2 .
Finalmente, Ejemplo 2.2.9 implica que Y ∼ χ2 (1).

- 396 -
2.9 Convergencia

Proposición 2.9.11: (Teorema de Slutsky). Sean (Xn ; n ≥ 1), (Yn ; n ≥ 1) dos


sucesiones de variables aleatorias, c constante real y X otra variable aleatoria. Asumamos
que las sucesiones satisfacen

D P
Xn −
→X y Yn −
→ c.
n n

Entonces, se verifica que:


D
a) Xn + Yn −
→ X + c.
n

D
b) Xn − Yn −
→ X − c.
n

D
c) Yn Xn −
→ c X.
n

Xn D 1
d) Si c ̸= 0 y P (Yn ̸= 0) = 1, −
→ X.
Yn n c
Notar que, en particular, si

D P
Xn −
→ N (µ, σ 2 ) y Yn −
→ c,
n n

entonces
D D
Xn + Yn −
→ N (µ + c, σ 2 ) y Yn Xn −
→ N (µc, σ 2 c2 ).
n n

Ejemplo 2.9.11: Sean (Xn ; n ≥ 1) sucesión de variables aleatorias iid con media común
0 y varianza común σ 2 e (Yn ; n ≥ 1) sucesión de variables aleatorias iid con media común
µ. Entonces,
√ D
n X̄n + Ȳn −→ N (µ, σ 2 ).
n

En efecto, por la ley fuerte de Kolmogorov aplicada a la sucesión (Yn ; n ≥ 1), se deduce
c.s. P
que Ȳn −−→ µ, y por Proposición 2.9.1 se concluye que Ȳn −
→ µ.
n n
También

el Teorema del Lı́mite Central aplicado a la sucesión (Xn ; n ≥ 1) indica
n D
que σ (X̄ − 0) −
→ Z, con Z ∼ N (0, 1). Considerando ahora la función g(x) = σ x en
n
Proposición 2.9.10 (iii), obtenemos
√ D
n (X̄ − 0) −
→ σZ.
n


Finalmente, Teorema de Slutsky aplicado a las sucesiones ( n X̄n ; n ≥ 1) y (Ȳn ; n ≥ 1)
implica que
√ D
nX̄ + Ȳn −
→ σZ + µ.
n

Ahora, desde Ejemplo 2.2.8, se concluye que σ Z + µ ∼ N (µ, σ 2 ).

- 397 -
2.9 Convergencia

Ejemplo 2.9.12: Sea (Wn ; n ≥ 1) sucesión de variables aleatorias iid con media común
0 y varianza común 2. Para cada n ≥ 1, se define

n (W1 + · · · + Wn )
Zn = .
W12 + · · · + Wn2

Estudiemos la convergencia en distribución de la sucesión (Zn ; n ≥ 1).


Primeramente, observemos que

√n W1 +···+Wn
2
Zn = · n
√1 W12 +···+Wn2
2 n

√n (W̄n − 0)
2
= W12 +···+Wn2
.
√1
2
· n

Como W1 , . . . , Wn , . . . son iid con media común 0 y varianza común 2, el Teorema del
Lı́mite Central implica que √
n D
√ (W̄n − 0) −→ W,
2 n

con W ∼ N (0, 1).


También, si definimos Yn = Wn2 , n ≥ 1, entonces, desde que (Wn ; n ≥ 1) es sucesión
iid con media común 0 y varianza común 2, se obtiene que (Yn ; n ≥ 1) es sucesión iid con
media común 2. La ley fuerte de Kolmogorov aplicada a esta última sucesión implica que
Y1 + · · · + Yn c.s.
−−→ 2,
n n

o sea
W12 + · · · + Wn2 c.s.
−−→ 2.
n n

Usando Proposición 2.9.10, con g(x) = √1 x, obtenemos que


2

1 W 2 + · · · + Wn2 P √
√ · 1 −
→ 2.
2 n n

(√ )
Finalmente, aplicando Teorema de Slutsky a las sucesiones √n · W̄n ; n ≥ 1 y
( ) 2
W 2 +···+Wn2
√1 · 1 ; n ≥ 1 , se concluye que
2 n


√n (W̄n − 0)
2 D 1
Zn = W 2 +···+Wn2
→ √ W

√ · 1
1 n 2
2 n
( )
con √1
2
W ∼ N 0, 12 (puesto que W ∼ N (0, 1)).

- 398 -
2.9 Convergencia

PROBLEMAS

Problema 2.9.A: Sea (Xn ; n ≥ 1), sucesión de variables aleatorias discretas, tal que
{ } ( )
Rec Xn = 0, n1 , n2 , . . . , n−1
n ,1 y P Xn = nk = 1
n+1 , k = 0, 1, . . . , n.

D
Pruebe que Xn −
→ X, con X ∼ U (0, 1).
n

Problema 2.9.B: Sean X1 , X2 variables aleatorias independientes con distribución


Poisson de parámetro λi (i = 1, 2), y Z = X1 + X2 . Pruebe que el lı́mite en distribución
Z
de λ1 +λ2
, cuando λ1 + λ2 tiende a infinito, es una constante.

Problema 2.9.C: Sea (Xn ; n ≥ 1), sucesión de variables aleatorias independientes, tales
que X1 = 0 y, para cada j ≥ 2, la variable aleatoria Xj es discreta con función de cuantı́a
dada por:



1
j3
si k ∈ {−j, −j + 1, . . . , −1, 1, . . . , j − 1, j}
P (Xj = k) = 1− 2
si k = 0

 0
j2
e.o.c.
∑n
j=1 Xj P
Pruebe que, para α > 12 , nα → 0, cuando n → ∞.

n

Problema 2.9.D: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias, tal que, para n ≥ 1,
Rec Xn = {0, n}. Suponga que, para todo n ≥ 1, P (Xn = 0) = 1− n1 y P (Xn = n) = n1 .
P
Verifique que Xn −
→ 0, pero (Xn ; n ≥ 1) no converge en L1 .
n

Problema 2.9.E: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid U (0, a), a > 0 y,
para n ≥ 1, Yn = X̄n . Estudie la convergencia de la sucesión (Yn ; n ≥ 1).

Problema 2.9.F: Sea X variable aleatoria. Se dice que X es infinitamente divisible si,
para todo n ∈ N,


n
X= Xn,i , con Xn,1 , . . . , Xn,n variables aleatorias iid.
i=1

Asuma que toda variable aleatoria Poisson es infinitamente divisible.

a) Si X ∼ P(λ), ¿cuál es la distribución de cada Xn,i ?

b) Sea (Nn ; n ≥ 1) sucesión de variables aleatorias, con Nn ∼ P(nθ), θ > 0.


Pruebe que
√ ( )
Nn D θ Nn D

→θ y √ −n −→ N (0, 1).
n n n θ n

- 399 -
2.9 Convergencia

c) Para x > 0 y θ > 0, se considera la sucesión de números reales


 

[nx]
(nθ) k
e−nθ ; n ≥ 0.
k!
k=0

Probar que esta sucesión converge hacia 0 ó 1 según la posición de x respecto de θ.

Problema 2.9.G: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias tal que


D
Xn −→ N (0, 1) y (an ; n ≥ 1) sucesión de números reales tal que an −→ a, a ∈ R.
n n
Pruebe que
D
Xn + a n −→ N (a, 1).
n

Problema 2.9.H: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid, tales que, para
todo n ≥ 1,
1
P (Xn = 1) = = P (Xn = −1).
2
Suponga que, para n ≥ 1,
∑n
1
Yn = Xk .
2k
k=1

Pruebe que
D
Yn −
→ U (−1, 1).
n

Problema 2.9.I: Sean X1 , X2 , . . . variables aleatorias independientes tales que


2i
P (Xn = i) = , i = 1, . . . , n .
n(n + 1)
Xn
a) Encuentre el lı́mite en distribución de .
n
{
2w
Xn D si w > 0
b) Pruebe que −
→ W, donde fW (w) = (1+w)3
n − Xn n 0 e.o.c.

Problema 2.9.J: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid N (0, 1). ¿Cuál es
el lı́mite casi seguro de la sucesión (Yn ; n ≥ 1), donde

X12 + · · · + Xn2
Yn = ?
(X1 − 1)2 + · · · + (Xn − 1)2

Problema 2.9.K: Sean (Un ; n ≥ 1) y (Vn ; n ≥ 1) sucesiones de variables aleatorias tales


que:
D D
i) Un −
→ N (0, 1), Vn −
→ N (0, 1).
n n

- 400 -
2.9 Convergencia

ii) Para cada n ≥ 1, Un y Vn son independientes.


Pruebe que,
D
aUn + bVn −
→ N (0, a2 + b2 ), a, b constantes no nulas.
n

Problema 2.9.L : Sean (Xn ; n ≥ 1), (Yn ; n ≥ 1) sucesiones de variables aleatorias tales
que
i) X1 , . . . , Xn , variables aleatorias iid con E(X1 ) = µ ̸= 0 y V (X1 ) = σ 2 < ∞.

ii) Y1 , . . . , Yn , variables aleatorias iid con E(Y1 ) = τ y V (Y1 ) = β 2 < ∞.

iii) Para todo j, k ≥ 1, Xj y Yk son independientes.


Halle el lı́mite en distribución de la sucesión (Zn ; n ≥ 1), donde
( )
√ Ȳn τ
Zn = n − .
X̄n µ

Problema 2.9.M: Sean (εn ; n ≥ 1) sucesión de variables aleatorias iid N (0, σ 2 ) y θ


parámetro real. Considere la sucesión (Xn ; n ≥ 1) definida por:

X1 = ε1 , Xn = θ Xn−1 + εn , n ≥ 2.

a) Calcule V (Xn ).

b) Calcule Cov(Xn , Xn−k ), 0 ≤ k ≤ n.

c) ¿Cuál es la distribución de Xn ?

d) ¿Para qué valores de θ, la sucesión (Xn ; n ≥ 1) converge en distribución?

e) ¿Cuál es la distribución del vector aleatorio (X1 , . . . , Xn )? Calcule su densidad


conjunta.

Problema 2.9.N: ∑Sea (X1 , . . . , Xn ) vector aleatorio ∑ normal n-variado, tal que
(X1 , . . . , Xn ) ∼ N (µ, ) con µ = (m, m, . . . , m) y = [cij ]n×n ,

 ρ si |i − j| = 1
cij = σ ρ si |i − j| = 0
2

0 si |i − j| > 1

Sean X̄n y Sn2 la media y varianza muestral, respectivamente, es decir,

1∑
n
X̄n = Xi ,
n
i=1

1 ∑
n
Sn2 = (Xi − X̄)2 .
n−1
i=1

- 401 -
2.9 Convergencia

Estudie
( √
el comportamiento
) asintótico de las sucesiones ( n(X̄n −m); n ≥ 1), (Sn2 ; n ≥ 1) y
n (X̄n −m)
Sn ;n ≥ 1 .

Problema 2.9.O: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid con E(X) = µ,
V (X) = σ 2 y Sn2 como en el problema anterior. Pruebe que
P
Sn2 −
→ σ2.
n

Problema 2.9.P: Sea X1 , . . . , Xn , variables aleatorias iid, cuya distribución está dada
por la función de densidad
{
−(x−θ) e−(x−θ) x > θ
f (x, θ) = e I(x>θ) = θ ∈]0, ∞[ constante.
0 e.o.c.

a) Sea T = min{X1 , . . . , Xn } Calcule la densidad fT .

b) Defina la variable aleatoria S = αT +β. Encuentre α, β ∈ R, de modo que IE(S) = θ.

c) Calcule V (S).

d) Determine γ ∈ R, tal que P (S ≤ γ) = p, con p ∈]0, 1[.

e) Encuentre limn→∞ P (|T − θ| > ε), ε > 0. Interprete este resultado.

Problema 2.9.Q: Sean X1 , . . . , Xn , variables aleatorias i.i.d, con función de densidad



 1

 −θ ≤ x ≤ θ
1 2θ
f (x) = I = θ ∈ R constante
2θ (−θ≤x≤θ)  

0 e.o.c.

a) Encuentre una densidad para la variable aleatoria M = max{|Xi | ; 1 ≤ i ≤ n}.

b) Calcule E(M ), V (M ) y E((M − θ)2 ).

c) Encuentre limn→∞ P (|M − θ| > ε), ε ∈]0, θ[. Interprete.

d) Encuentre b ∈ R de modo que P (M < θ < b) = 0.95.

- 402 -
2.9 Convergencia

Problema 2.9.R: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid B(p). Pruebe que

p̂ − p D
√n → N (0, 1),

p̂n (1−p̂n ) n
n

1∑
n
con p̂n = Xi .
n
i=1

Problema 2.9.S: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias idd, con media común
µ y varianza común σ 2 .
∑n
Pruebe que Sn2 = 1
n−1 i=1 (Xi − X̄)2 converge casi seguramente a σ 2 .

Problema 2.9.T: Sean X1 , X2 , ... variables aleatorias iid W eibull(α, δ) , es decir, la


función de densidad de probabilidad está dada por

f (x, α, δ) = α−1 δxδ−1 exp(−α−1 xδ )I(x>0) , con α, δ > 0.

a) Muestre que X ∼ W eibull(α, δ) si y sólo si X δ ∼ exp(α−1 ).

X1δ +X2δ +...+Xnδ


b) Sea Yn = n . Muestre que E(Y ) = α y determine V (Y ).

P
c) Muestre que Yn −
→ α.
n

Problema 2.9.U: Sea


( X1), . . . , Xn , variables aleatorias iid, proveniente de una población
X, con X ∼ Gamma α, λ1 , es decir, una densidad para X está dada por

1
xα−1 · e− λ I(x>0) .
x
f (x; α, λ) =
Γ(α) · λα

X1 + . . . + Xn X
i) Defina la variable aleatoria Yn = = .
nα α
Calcule E(Yn ) y V ar(Yn ).

P
ii) Muestre que Yn −
→ λ.
n

∑n
iii) Determine la distribucin de T = i=1 Xi .

iv) Si α = 2, verifique que 2


λ · T ∼ χ24n .

- 403 -
2.9 Convergencia

Problema 2.9.V: Sea X1 , . . . , Xn , variables aleatorias iid, proveniente de una población


X, con X ∼ Pareto(α, β), es decir, una densidad para X está dada por

f (x; α, β) = αβ α x−(α+1) I(x≥β) , α, β > 0.


Pruebe que Yn = min{X1 , X2 , ..., Xn } converge a β en probabilidad.

Problema 2.9.W: Sean X1 , X2 , ... variables aleatorias iid con distribución U (0, 1).
Pruebe que n−Xn converge a cero en probabilidad.

- 404 -
SOLUCIONES A PROBLEMAS PROPUESTOS

SECCIÓN 1.2

Problema 1.2.A :

persona persona persona persona


1 2 3 4

Figura 1.2.A. Una repartición posible.

Las 52 cartas pueden distribuirse entre las 4 personas de 13! 13!52!13! 13! maneras distintas,
pues equivale a ordenar 52 objetos, de los cuales hay 13 del tipo 1, 13 del tipo 2, 13 del
tipo 3 y 13 del tipo 4 (dentro de cada grupo los objetos no se distinguen). O sea, los casos
totales de este experimento son
52!
.
13! 13! 13! 13!
Los 4 ases pueden repartirse entre las 4 personas de 4! maneras. Las 48 cartas restantes
pueden distribuirse entre las 4 personas de 12! 12!48!12! 12! (mismo argumento que en párrafo
anterior). Luego, los casos favorables de este experimento son

4! 48!
.
12! 12! 12! 12!
Por lo tanto, según esquema equiprobable, la probabilidad de que cada persona reciba un
as es
4! 48!
12! 12! 12! 12! 4! 134
= = 0.10549.
52!
13! 13! 13! 13!
49 · 50 · 51 · 52

405
Soluciones a Problemas Propuestos

Problema 1.2.B: Supongamos que compramos n cartones. Denotemos por A al suceso


“de los n cartones comprados, al menos uno está premiado”. Entonces, Ac =“los n cartones
comprados no tienen premio”. Calculemos ahora la probabilidad de Ac .
El número total de resultados de este experimento corresponde al número de maneras
diferentes
( ) en que se pueden combinar los n cartones comprados en un total de 100, esto
es, 100
n .
El número de resultados favorables corresponde al número de maneras diferentes en que
se puede
(98)combinar los n cartones comprados en un total de 98 que no tiene premio, es
decir, n .
De esta forma,
(98)
P (Ac ) = (100
n
)
n
98!
(98−n)! n!
= 100!
(100−n)! n!

98! (100 − n)!


=
100! (98 − n)!
1
= (99 − n) (100 − n),
9900
o sea,

P (A) = 1 − P (Ac )
199 n − n2
= .
9900

La condición del problema impone que P (A) ≥ 45 , es decir, n debe satisfacer la desigualdad

199 n − n2 4
≥ ,
9900 5
de donde
0 ≥ n2 − 199 n + 7920 = (n − 55)(n − 144).
Luego, n ≥ 55 y n ≤ 144 ó n ≤ 55 y n ≥ 144, por lo que el menor número de cartones
que es necesario comprar es 55.

Problema 1.2.C: Veamos primero un caso particular, asumiendo que n = 6, a = 4 y


b = 3. Anotemos por Pi a la i-ésima persona. Ası́, un posible resultado es

Persona P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12


Sabor A A B B B A B B A A A B

La indistinguibilidad de helados del mismo sabor, se refleja en que si se cambiara, por


ejemplo, el helado que le tocó a la persona 1 con el que le tocó a la persona 2, para
nosotros serı́a el mismo resultado. ¿Cuántos resultados posibles hay?

- 406 -
Soluciones a Problemas Propuestos

Hay tantos resultados posibles como permutaciones se puedan realizar con las seis A y las
seis B. Entonces, la cantidad de resultados posibles es
( )
12! 12
= .
6! 6! 6
Supongamos que las 4 personas que prefieren el sabor A son P2 , P6 , P7 y P11 y las 3
personas que prefieren el sabor B son P4 , P9 y P12 . Entonces, un resultado favorable serı́a

Persona P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12


Sabor B A B B A A A B B A A B

¿Cuántos resultados favorables hay?


Fijemos las preferencias de las personas.

Persona P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12


Sabor A B A A B A B

Ahora, los 5 = 12 − (4 + 3) casilleros en blanco se pueden llenar con A ó B. Se dispone


de 6 − 4 = 2 letras A (se ocuparon 4 en las preferencias por el sabor A), y de 6 − 3 = 3
letras B (se ocuparon 3 en la preferencias por el sabor B).
Entonces, el número de resultados favorables será igual al número de permutaciones que
se pueden obtener con 5 objetos, 2 de los cuales son A y 3 B. Ası́, el número de resultados
favorables es ( )
5! (12 − (4 + 3))! 12 − (4 + 3)
= = .
2! 3! (6 − 4)! (6 − 3)! 6−4
La probabilidad buscada será entonces
(12−(4+3))
(6−4
12
) .
6
En el caso general la probabilidad buscada es
(2n−(a+b))
(n−a
2n
) .
n

Problema 1.2.D: En este problema no interesa el orden de las cartas, y por lo tanto los
elementos
( )de Ω son los subconjuntos de 3 cartas desde un conjunto de 40, lo que implica
#Ω = 40 3 . Cada elemento de A está caracterizado por : (a) los números de las 3 cartas,
y (b) de qué pinta son. ( )
Usando el principio multiplicativo resulta que #A = 10
3 · 4, y por lo tanto P (A) ≃ 0.049.

Problema
(N ) 1.2.E: Control de calidad. Primeramente, el número de casos posibles
es n . Además, cada caso favorable se caracteriza por: un subconjunto de m artı́culos
de entre los M defectuosos, y uno de n − m de entre los N − M no defectuosos. En
consecuencia, ( )( )
M N −M
m
p= (Nn−m
) .
n

- 407 -
Soluciones a Problemas Propuestos

Problema 1.2.F: Asumamos que hay n animales de la población en estudio, de los


cuales t están marcados.( Si
) los m animales capturados más tarde son tomados de manera
n
que todos los posibles m grupos sean igualmente probables (este supuesto es bastante
fuerte), entonces, la probabilidad de que r de ellos estén marcados es
( t ) ( n−t )
r
( nm−r
) .
m

Claramente, n no puede ser precisado de la información disponible hasta el momento,


pero, puede ser estimado.
Un método de estimación, llamado máxima verosimilitud, permite elegir el valor de n que
hace del resultado observado el más probable. Es decir, el valor estimado para n, será
aquel que maximiza la expresión
( t ) ( n−t )
Ln = r
( nm−r
) .
m

Para encontrar el valor de n que maximiza Ln , considérese los radios sucesivos


(rt ) (m−r
n−t
)
n
Ln (m)
=
Ln−1 (rt ) (n−1−t
m−r )
(n−1
m )

(n − t) (n − m)
= .
n (n − t − m + r)

Nótese que Ln
Ln−1 ≥ 1 , es decir, Ln es función creciente de n, si y sólo si

(n − t) (n − m) ≥ n (n − t − m + r).

Por lo tanto, Ln es creciente si n ≤ mr t y decreciente si n > mr t . Luego, el valor de n que


maximiza a Ln es el entero “más grande” que no excede a mr t .

Problema 1.2.G: Repartos. Es más conveniente estudiar la probabilidad que al


festejado no le toque ningún caramelo. Ası́, los casos posibles serı́an nc , pues cada niño
puede recibir cualquiera de los c dulces. Además, los casos favorables son todas las maneras
de distribuir los caramelos entre los n − 1 niños restantes (sacando al festejado), o sea
(n − 1)c .
Por lo tanto, la probabilidad que el festejado no toque ningún caramelo es (1 − 1/n)c , de
donde la probabilidad de que al festejado le toque al menos un caramelo es 1 − (1 − 1/n)c .
Si c = n, dicha probabilidad es prácticamente independiente de n, siendo aproximada-
mente igual a 1 − e−1 = 0.63.

Problema 1.2.H: La probabilidad de ganar del jugador que juega n boletos en un sorteo
n
es N (hay n resultados favorables, cualquiera de los n boletos comprados, en un total de
N resultados posibles, el total de boletos que tiene la loterı́a).
Para calcular la probabilidad de ganar del otro jugador, procedemos de la siguiente manera.
Calculamos primeramente la probabilidad de no ganar.

- 408 -
Soluciones a Problemas Propuestos

El número de resultados posibles es N n (pues en cada semana hay N resultados posibles).


Los casos favorables son (N −1)n (cada semana hay N −1 boletos que no tienen el premio
gordo).
Luego, la probabilidad de no ganar es
( ) ( )
(N − 1)n N −1 n 1 n
= = 1− ,
Nn N N
y la de ganar es ( )
1 n
1− 1− .
N
Nótese que
( ) ( ) ( )
1 n 1 n−1 1
1− = 1− 1−
N N N
( ) ( )
1 n−1 1 1 n−1
= 1− − 1−
N N N
( )
1 n−1 1
≥ 1− − .
N N
Análogamente,
( ) ( ) ( )
1 n−1 1 n−2 1
1− = 1− 1−
N N N
( )n−2 ( )
1 1 1 n−2
= 1− − 1−
N N N
( )n−2
1 1
≥ 1− − ,
N N
de donde
( ) ( )
1 n 1 n−1 1
1− ≥ 1− −
N N N
(( ) )
1 n−2 1 1
≥ 1− − −
N N N
( )
1 n−2 2
= 1− − .
N N
Inductivamente, ( ) ( )
1 n 1 n−n n
1− ≥ 1− − ,
N N N
por lo que ( )
n 1 n
≥1− 1− .
N N

- 409 -
Soluciones a Problemas Propuestos

En consecuencia, el jugador que compra los n boletos en una sola semana, tiene mayor
posibilidad de ganar que aquel que compra un boleto durante n semanas. Aunque los dos
jugadores gastarı́an la misma cantidad de dinero (suponiendo que el valor del boleto no
cambia en las n semanas y que el interés del dinero es despreciable). Cabe señalar que,
en general, pareciera que el comprar los n boletos en una sola semana, provoca menos
“satisfacción” que comprar uno semanalmente.

Problema 1.2.I: Cumpleaños. Asumiremos que no hay años bisiestos, es decir, todos
los años tienen N = 365 dı́as. También, supondremos que la probabilidad de nacer
en cualquiera de los dı́as del año es la misma y que no hay relación entre las personas
(eliminando, por ejemplo, el caso de mellizos).
Sea A el suceso “al menos dos personas están de cumpleaños el mismo dı́a”, entonces el
suceso que representa el hecho que las n personas estén de cumpleaños en dı́as diferentes
es Ac .
El número total de resultados posibles de este experimento es 365n (cada una de las n
personas tiene 365 dı́as posibles para nacer).
Contemos ahora el número de resultados favorables del suceso Ac . Los (N )casos favorables
quedan caracterizados por: el conjunto de fechas, de los cuales hay n y la forma de
asignarlas a las n personas, que son n!. Por lo tanto, el número de resultados favorables
del suceso Ac es ( )
365
n! = 365 · 364 · · · (365 − n + 1).
n

La probabilidad buscada, usando el esquema equiprobable, resulta ser

365 · 364 · · · (365 − n + 1)


P (A) = 1 − P (Ac ) = 1 − .
365n

La tabla siguiente muestra, para algunos valores de n, esta probabilidad.

n P (A)
4 0.016
16 0.284
23 0.507
32 0.753
40 0.891
56 0.988

SECCIÓN 1.3

Problema 1.3.A: Primeramente calculemos la probabilidad correspondiente al Caso I.


Para hacer este cálculo usaremos el modelo binomial con:

- 410 -
Soluciones a Problemas Propuestos

• ensayo : lanzar un dado


• éxito : sale 6
• n◦ de intentos : n=4
• probabilidad de éxito : p = 16
Al lanzar un dado normal, los 6 resultados posibles son equiprobables. Luego el Modelo
de Laplace asigna probabilidad 61 al suceso que salga 6, pues hay sólo un caso favorable y
6 posibles.
El suceso que representa el hecho que nunca se obtiene el 6 al tirar el dado 4 veces es
B = {(0, 0, 0, 0)} (recordar que cero simboliza fracaso). Luego, según el modelo binomial,
( )
1 4
P (B) = 1 −
6
( )4
5
=
6
=0.4823.

Además, el suceso B c representa el hecho de que cuando menos 1 vez se obtiene el 6


al tirar el dado 4 veces. En consecuencia, la probabilidad de ocurrencia del Caso I es
P (B c ) = 1 − P (B) = 0.5177.
Para calcular la probabilidad correspondiente al Caso II también usamos el modelo bino-
mial, pero en este caso,
• ensayo : lanzar dos dados simultáneamente
• éxito : en cada dado sale un 6
• n◦ de intentos : n = 24
1
• probabilidad de éxito : p = 36
Al lanzar dos dados simultáneamente, los 36 resultados posibles son igualmente probables.
1
Luego, el modelo de Laplace asigna probabilidad 36 al suceso que ocurra 6 en cada dado,
pues hay sólo un caso favorable y 36 posibles.
El suceso que representa el hecho que nunca la suma de las caras es 12, cuando se lanzan
dos dados en 24 ocasiones, es

B = {(0, 0, . . . , 0)} (vector de 24 componentes).

Recordar que 0 simboliza fracaso, es decir, en este caso simboliza que la suma de las caras
de los dos dados( no es )12. ( )
1 24 24
Como P (B) = 1 − 36 = 3536 y B c representa el suceso que al menos una vez la
suma de las caras de( los
)24 dos dados es 12, entonces la probabilidad de ocurrencia del Caso
II es P (B c ) = 1 − 35
36 = 0.4914.
En consecuencia, Chevalier de Meré no tenı́a razón.

- 411 -
Soluciones a Problemas Propuestos

Problema 1.3.B: Para calcular esta probabilidad usamos el modelo binomial con:

• ensayo : responder una pregunta de la prueba


• éxito : responder correctamente la pregunta
• n◦ de intentos : n = 50
• probabilidad de éxito : p = 31
Según la forma de responder a cada pregunta, cada alternativa tiene igual probabilidad.
Primeramente, recordemos que el conjunto Ak denota el suceso que exactamente k-
éxitos ocurran.
Ası́ por ejemplo, A10 denota el suceso que ocurran exactamente 10 éxitos (en este caso
representa el hecho que se respondan exactamente 10 respuestas correctas).
Por lo tanto, si A es el suceso obtener entre 10 y 16 respuestas correctas, entonces A es la
union disjunta de A10 , A11 , A12 , A13 , A14 , A15 , A16 , es decir,

A = A10 ∪ A11 ∪ A12 ∪ A13 ∪ A14 ∪ A15 ∪ A16 .

En consecuencia, de Observación 1.3.5,

P (A) = P (A10 ) + P (A11 ) + P (A12 ) + P (A13 ) + P (A14 ) + P (A15 ) + P (A16 )


( ) ( )10 ( )40 ( ) ( )11 ( )39 ( ) ( )12 ( )38
50 1 2 50 1 2 50 1 2
= + +
10 3 3 11 3 3 12 3 3
( ) ( )13 ( )37 ( ) ( )14 ( )36 ( ) ( )15 ( )35
50 1 2 50 1 2 50 1 2
+ + +
13 3 3 14 3 3 15 3 3
( ) ( )16 ( )34
50 1 2
+
16 3 3

= 0.4741.

Lo anterior se puede expresar, en forma más “sintética”, como


16
A= Ak ,
k=10


16 16 ( ) ( )k ( )50−k
∑ 50 1 2
P (A) = P (Ak ) =
k 3 3
k=10 k=10

= 0.4741.

Problema 1.3.C: Veamos el caso a).


Para responder este caso usamos el modelo binomial con:

- 412 -
Soluciones a Problemas Propuestos

• ensayo : revisar funcionamiento de la componente


cuando se enciende el calefactor
• éxito : la componente falla
• n◦ de intentos : n=2
• probabilidad de éxito : p=θ
El suceso que representa que el calefactor no funcione es A = {(1, 1)} (en este caso, que
fallen más de la mitad de las componentes, que son dos, significa que deben fallar ambas.
Además, uno simboliza éxito, esto es, que la componente falle). Luego, según el modelo
binomial,
P (A) = θ2 .
Pero, el conjunto Ac representa el suceso que el calefactor funcione, por lo tanto su pro-
babilidad es
P (Ac ) = 1 − P (A) = 1 − θ2 .

Veamos el ahora el caso b). Nuevamente usamos el modelo binomial, pero ahora con:

• ensayo : revisar funcionamiento de la componente


cuando se enciende el calefactor
• éxito : la componente falla
• n◦ de intentos : n=4
• probabilidad de éxito : p=θ
Ahora, el suceso que representa que el calefactor no funcione es

A = {(1, 1, 1, 0), (0, 1, 1, 1), (1, 0, 1, 1), (1, 1, 0, 1), (1, 1, 1, 1)}.

En este caso, que fallen más de la mitad de las componentes, que son 4, significa que fallan
3 de las 4 componentes o que fallan las 4.
Según el modelo binomial,

P (A) =P ({(1, 1, 1, 0)}) + P ({(0, 1, 1, 1)}) + P ({(1, 0, 1, 1)})


+ P ({(1, 1, 0, 1)}) + P ({(1, 1, 1, 1)})
=θ (1 − θ)1 + θ3 (1 − θ)1 + θ3 (1 − θ)1 + θ3 (1 − θ)1 + θ4 (1 − θ)0
3

=4θ3 (1 − θ) + θ4 .

Por lo tanto, la probabilidad de que un calefactor de 4 componentes funcione es

P (Ac ) =1 − P (A)
=1 − ( 4θ3 (1 − θ) + θ4 )
=3θ4 − 4θ3 + 1.

En consecuencia, el valor de θ que hace igualmente fiable los dos tipos de calefactores,
debe satisfacer la ecuación
1 − θ2 = 3θ4 − 4θ3 + 1,

- 413 -
Soluciones a Problemas Propuestos

que equivale a la ecuación ( )


1
0 = θ (θ − 1) θ −
2
.
3
Por lo tanto, como 0 < θ < 1, entonces el valor de θ que resuelve la ecuación anterior es
θ = 31 .

SECCIÓN 1.4

Problema 1.4.A:

a)
P (A ∪ B ∪ C) =P ((A ∪ B) ∪ C)
=P (A ∪ B) + P (C) − P ((A ∪ B) ∩ C)
= [P (A) + P (B) − P (A ∩ B)] + P (C)
− [P (A ∩ C) + P (B ∩ C) − P (A ∩ B ∩ C)]
[ ] [ ]
1 1 1 1 1
= + − + − + 0 − P (A ∩ B ∩ C) .
2 3 5 4 6

Pero (A ∩ B ∩ C) ⊂ B ∩ C, entonces P (A ∩ B ∩ C) ≤ P (B ∩ C) = 0, por lo que


P (A ∩ B ∩ C) = 0. Ası́,
43
P (A ∪ B ∪ C) = .
60
b) Como A − (B ∪ C) = A ∩ (B ∪ C)c , entonces por regla d) de Proposición 1.4.1,
P (A − (B ∪ C)) = P (A) − P (A ∩ (B ∪ C)).
Ası́,
P (A − (B ∪ C)) =P (A) − [P (A ∩ B) + P (A ∩ C) − P (A ∩ B ∩ C)]
( )
1 1 1
= − + −0
2 5 6
2
= .
15


Problema 1.4.B: Para cada m ≥ 1, se define Bm = m n=1 An . Entonces (Bm ; m ≥ 1) es
sucesión creciente de sucesos, por lo que axioma iv) de Definición 1.4.1 implica que
( ∞ )

P Bm = lim P (Bm ).
m→∞
m=1
∪ ∪∞
Pero, ∞ m=1 Bm = n=1 An y de Definición 1.4.1 iii) (generalizado inductivamente a m
sucesos), (m )
∪ ∑ m
P (Bm ) = P An = P (An ).
n=1 n=1

- 414 -
Soluciones a Problemas Propuestos

Por lo tanto,
( ∞
) ( ∞
)
∪ ∪
P An =P Bm
n=1 m=1
= lim P (Bm )
m→∞

m
= lim P (An )
m→∞
n=1


= P (An ).
n=1

Problema 1.4.C:
a) Para r = 2 se desprende de Proposición 1.4.1 e). Para r > 2 basta usar inducción.
∪m
b) Sea
∪∞Cm = ∪A
n=1 n , m ≥ 1. Entonces (Cm ; m ≥ 1) es sucesión creciente de sucesos

y m=1 Cm = n=1 An . Ası́, Definición 1.4.1 iv) y parte a) implican
(∞ ) ( ∞ )
∪ ∪
P An = P Cm = lim P (Cm )
m→∞
n=1 m=1
( )

m
= lim P An
m→∞
n=1

m
≤ lim P (An )
m→∞
n=1


= P (An ).
n=1

c) Usando Proposición 1.4.1 a) y parte a) de este problema, se obtiene que


( r ) (( r )c ) ( r )
∩ ∪ ∪ ∑r
P An = P c
An =1−P An ≥ 1 −
c
P (Acn ).
n=1 n=1 n=1 n=1

d) Usando b), se deduce que


(∞ ) (( ∞ )c ) (∞ ) ∞
∩ ∪ ∪ ∑
P An = P c
An =1−P An ≥ 1 −
c
P (Acn ).
n=1 n=1 n=1 n=1

e) Si P (An ) ≥ 1 − ε, entonces P (Acn ) < ε, de donde



r ∑
r
P (Acn ) ≤ ε = r ε.
n=1 n=1

Ahora basta usar parte c).

- 415 -
Soluciones a Problemas Propuestos

Problema 1.4.D: Para todo n ≥ 1, Bn puede expresarse como unión disjunta de la


forma
Bn = (An ∩ Bn ) ∪ (Acn ∩ Bn ).
Ası́, por Definición 1.4.1 iii),

P (Bn ) = P (An ∩ Bn ) + P (Acn ∩ Bn ) , para todo n ≥ 1.

Por lo tanto,
lim P (Bn ) = lim P (An ∩ Bn ) + lim P (Acn ∩ Bn ).
n→∞ n→∞ n→∞

Pero, para todo n ≥ 1, Acn ∩ Bn ⊂ Acn , de donde P (Acn ∩ Bn ) ≤ P (Acn ). O sea,

lim P (Acn ∩ Bn ) ≤ lim P (Acn )


n→∞ n→∞
=1 − lim P (An )
n→∞
=0.

En consecuencia,
p = lim P (An ∩ Bn ).
n→∞

Problema 1.4.E: Basta con descomponer B como la siguiente unión disjunta B =


(B ∩ A) ∪ (B ∩ Ac ) y usar que B ∩ Ac ⊂ Ac .

SECCIÓN 1.5

Problema 1.5.A: El árbol de probabilidades para este problema es


m−1
n−1 B2

B1
m
n
n−m
n−1 B2c
m
n−1 B2
n−m
n
B1c

n−m−1
n−1 B2c

Figura 1.5.A
de donde,
m (m − 1) m
P (B1 ∩ B2 ) = y P (B1 ) = P (B2 ) = .
n (n − 1) n
Notar que, si n > m ≥ 2, entonces m−1 m
n−1 < n . Esto es comprensible intuitivamente, pues
si la primera ficha extraı́da es blanca, quedan menos blancas para la segunda extracción.
Además,
P (B1 ∩ B2 ) n (m − 1)
= ,
P (B1 ) P (B2 ) m (n − 1)

- 416 -
Soluciones a Problemas Propuestos

que tiende a 1 cuando m y n → ∞. O sea, para m y n “grandes”, B1 y B2 son “aproxi-


madamente independientes”, es decir, para m y n “grandes” el muestreo sin reemplazo se
comporta aproximadamente como el muestreo con reemplazo.

Problema 1.5.B: Consideremos los sucesos:

Ri = sale el color rojo en la i-ésima jugada,

Ni = sale el color negro en la i-ésima jugada,

Vi = sale el color verde en la i-ésima jugada.

De las condiciones del problema, los sucesos Ri , Nj y Vk son independientes y, para todo
i,
16 16 1
P (Ri ) = , P (Ni ) = , P (Vi ) = . (∗)
33 33 33
Además, el suceso A definido por:

A = en una secuencia de 15 jugadas, sale 10 veces rojo, 4 negro y 1 vez verde,

puede expresarse como:

A = ∪((L1 ,L2 ,L3 )∈C) [ (∩k∈L1 Rk ) ∩ (∩j∈L2 Nj ) ∩ (∩r∈L3 Vr ) ],

donde C es la familia de todos los trı́os (L1 , L2 , L3 ), con cada conjunto L1 , L2 , L3 contenido
en {1, . . . , 15}, disjuntos y #L1 = 10 , #L2 = 4 , #L3 = 1.
Cada uno de los sucesos dentro del paréntesis cuadrado tiene, por la independencia y (∗),
probabilidad igual a
)#L1 ( )#L2 ( )#L3
(
16 16 1
[ Πk∈L1 P (Rk ) ] [ Πj∈L2 P (Nj ) ] [ Πr∈L3 P (Vr ) ] = · ·
33 33 33
( )10 ( )4
16 16 1
= · · .
33 33 33

Además, estos sucesos son disjuntos y el número de ellos es igual al número de permuta-
ciones que pueden realizarse con 15 objetos, de los cuales hay 10 de un primer tipo, 4 de
un segundo tipo y 1 de un tercer tipo. O sea, la cantidad de estos sucesos es
15!
,
10! 4! 1!
de donde ( )10 ( )4
15! 16 16 1
P (A) = · · · = 0.018.
10! 4! 1! 33 33 33

Problema 1.5.C: Consideremos los siguientes sucesos:

Ai = A gana el i-ésimo set, i = 1, 2, 3, 4, 5.

- 417 -
Soluciones a Problemas Propuestos

Gj = A gana el partido en j-sets, j = 3, 4, 5

G3 = A1 ∩ A2 ∩ A3

G4 = (A1 ∩ A2 ∩ Ac3 ∩ A4 ) ∪ (A1 ∩ Ac2 ∩ A3 ∩ A4 ) ∪ (Ac1 ∩ A2 ∩ A3 ∩ A4 )

G5 = (A1 ∩ A2 ∩ Ac3 ∩ Ac4 ∩ A5 ) ∪ (A1 ∩ Ac2 ∩ A3 ∩ Ac4 ∩ A5 )


∪ (Ac1 ∩ Ac2 ∩ A3 ∩ A4 ∩ A5 ) ∪ (Ac1 ∩ A2 ∩ A3 ∩ Ac4 ∩ A5 )
∪ (A1 ∩ Ac2 ∩ Ac3 ∩ A4 ∩ A5 ) ∪ (Ac1 ∩ A2 ∩ Ac3 ∩ A4 ∩ A5 )

Las hipótesis del problema implican que los sucesos A1 , ..., A5 , son independientes y
además, P (Ai ) = 0.55, P (Aci ) = 0.45, i = 1, ..., 5. En consecuencia,

i) P (G3 ) = (0.55)3 = 0.166,

ii) P (G4 ) = 3 (0.55)3 0.45 = 0.225,

iii) P (G5 ) = 6 (0.55)3 (0.45)2 = 0.202,

iv) P (G3 ∪ G4 ∪ G5 ) = 0.166 + 0.225 + 0.202 = 0.593.

Problema 1.5.D: Consideremos los sucesos Ei = componente i falla , i = 1, 2, 3 . Ası́,


lo que se desea calcular es

α = P (E1 ∩ E2 ∩ E3c ) + P (E1 ∩ E2c ∩ E3 ) + P (E1c ∩ E2 ∩ E3 ).

Las condiciones del problema implican que E3 es independiente de E1 y E2 , y además,

P (E1 ) = 0.10, P (E2 ) = 0.15, P (E3 ) = 0.20, P (E2 /E1 ) = 0.5.

Entonces,

P (E1 ∩ E2 ∩ E3c ) = P (E1 ∩ E2 ) P (E3c ),


P (E1 ∩ E2c ∩ E3 ) = P (E1 ∩ E2c ) P (E3 ),
P (E1 ∩ E2 ) = P (E2 /E1 ) P (E1 ),
P (E1 ∩ E2c ) = (1 − P (E2 /E1 )) P (E1 ),
P (E1c ∩ E2 ) = P (E2 ) − P (E1 ∩ E2 ) ,

por lo que,

α = (0.5 · 0.10) 0.80 + ([1 − 0.5] · 0.10) 0.20 + (0.15 − [0.5 · 0.10]) 0.20 = 0.07.

Problema 1.5.E: Consideremos los sucesos:


Di = i-ésimo puente queda destruido, i = 1, 2, 3,
H = no hay paso entre A y B,
J = dos puentes están destruidos.

- 418 -
Soluciones a Problemas Propuestos

Con estas notaciones, el suceso que representa el hecho no haya paso de A a B es

H = D1 ∩ (D2 ∪ D3 ) = (D1 ∩ D2 ) ∪ (D1 ∩ D3 ),

y el que dos puentes estén destruidos es

J = (D1 ∩ D2 ∩ D3c ) ∪ (D1 ∩ D2c ∩ D3 ) ∪ (D1c ∩ D2 ∩ D3 ).

Por tanto, el suceso que representa que no haya paso de A a B y que dos puentes estén
destruidos es
H ∩ J = (D1 ∩ D2 ∩ D3c ) ∪ (D1 ∩ D2c ∩ D3 ),
Además, como P (Di ) = p , i = 1, 2, 3, entonces

P (H) = P (D1 ∩ D2 ) + P (D1 ∩ D3 ) − P (D1 ∩ D2 ∩ D3 )


= P (D1 ) P (D2 ) + P (D1 ) P (D3 ) − P (D1 ) P (D2 ) P (D3 )
= pp + pp − ppp
= p2 (2 − p),

ya que la destrucción de un puente no depende de la destrucción de otro (supuesto).


Por otra parte,

P (J) = P (D1 ∩ D2 ∩ D3c ) + P (D1 ∩ D2c ∩ D3 ) + P (D1c ∩ D2 ∩ D3 )


= P (D1 ) P (D2 ) P (D3c ) + P (D1 ) P (D2c ) P (D3 ) + P (D1c ) P (D2 ) P (D3 )
= p p (1 − p) + p (1 − p) p + (1 − p) p p
= 3p2 (1 − p),

de donde

P (H ∩ J) = P (D1 ∩ D2 ∩ D3c ) + P (D1 ∩ D2c ∩ D3 ) = 2p2 (1 − p),

por lo cual
P (H ∩ J) 2p2 (1 − p) 2
P (H/J) = = 2 = .
P (J) 3p (1 − p) 3

Problema 1.5.F: Consideremos los siguientes sucesos:

Ai = i-ésimo nodo está cerrado, 1 ≤ i ≤ 5.

Por las condiciones del problema, los sucesos A1 , . . . , A5 , son sucesos independientes.
Además, P (Ai ) = p, 1 ≤ i ≤ 5.
Si α denota la probabilidad de que fluya corriente entre los nodos B y C, entonces

α = P ( A1 ∩ [(A4 ∩ A5 ) ∪ (A2 ∪ A3 )] ).

El suceso A4 ∩ A5 significa que fluye corriente por el subcircuito {4, 5} y el suceso A2 ∪ A3


significa que fluye corriente por el subcircuito {2, 3}. Ası́, el suceso (A4 ∩ A5 ) ∪ (A2 ∪ A3 )

- 419 -
Soluciones a Problemas Propuestos

significa que fluye corriente por el subcircuito {2, 3, 4, 5}. En consecuencia,

α = P (A1 ) [ P (A4 ∩ A5 ) + P (A2 ∪ A3 ) − P ((A4 ∩ A5 ) ∩ (A2 ∪ A3 )) ]


= P (A1 ) [ P (A4 ∩ A5 ) + P (A2 ) + P (A3 ) − P (A2 ∩ A3 ) − P (A4 ∩ A5 ∩ A2 )
− P (A4 ∩ A5 ∩ A3 ) + P (A4 ∩ A5 ∩ A2 ∩ A3 ) ]
= P (A1 ) [ P (A4 ) P (A5 ) + P (A2 ) + P (A3 ) − P (A2 ) P (A3 ) − P (A4 ) P (A5 ) P (A2 )
− P (A4 ) P (A5 ) P (A3 ) + P (A4 ) P (A5 ) P (A2 ) P (A3 ) ]
= p [p p + p + p − p p − p p p − p p p + p p p p]
= p [2p − 2p3 + p4 ].

Si ahora β es la probabilidad a calcular en el caso b), entonces,

β = P ( Ac2 / A1 ∩ [ (A4 ∩ A5 ) ∪ (A2 ∪ A3 ) ] ).

Nótese que

Ac2 ∩ (A1 ∩ [ (A4 ∩ A5 ) ∪ (A2 ∪ A3 )] ) = ( Ac2 ∩ A1 ∩ A4 ∩ A5 ) ∪ ( Ac2 ∩ A1 ∩ A3 ),


por lo que
P ( (Ac2 ∩ A1 ∩ A4 ∩ A5 ) ∪ (Ac2 ∩ A1 ∩ A3 ) )
β =
P (A1 ∩ [ (A4 ∩ A5 ) ∪ (A2 ∪ A3 )) ] )
P (Ac2 ∩ A1 ∩ A4 ∩ A5 ) + P (Ac2 ∩ A1 ∩ A3 ) − P (Ac2 ∩ A1 ∩ A4 ∩ A5 ∩ A3 )
=
p (2p − 2p3 + p4 )
P (Ac2 ) P (A1 ) P (A4 ) P (A5 ) + P (Ac2 )P (A1 )P (A3 ) − P (Ac2 )P (A1 )P (A4 )P (A5 )P (A3 )
=
p (2p − 2p3 + p4 )
(1 − p) p p p + (1 − p) p p − (1 − p) p p p p
=
p (2p − 2p3 + p4 )

(1 − p) (1 + p − p2 )
= .
2 − 2p2 + p3

Problema 1.5.G: Consideremos los siguientes sucesos:


BV = la ficha extraı́da de la urna V es blanca,
BW = la ficha extraı́da de la urna W es blanca,
NZ = la ficha extraı́da de la urna Z es negra.
Entonces, NZ puede escribirse como la siguiente unión disjunta:

NZ = (NZ ∩ BV ∩ BW
c
) ∪ (NZ ∩ BVc ∩ BW ) ∪ (NZ ∩ BVc ∩ BW
c
) ∪ (NZ ∩ BV ∩ BW ),

Observe que NZ ∩ BV ∩ BW = ϕ. Luego,

P (NZ ) = P (NZ ∩ BV ∩ BW
c
) + P (NZ ∩ BVc ∩ BW ) + P (NZ ∩ BVc ∩ BW
c
)
= P (NZ /(BV ∩ BW
c
)) P (BV ∩ BW
c
) + P (NZ /(BVc ∩ BW )) P (BVc ∩ BW )
+ P (NZ /(BVc ∩ BW
c
)) P (BVc ∩ BW
c
).

- 420 -
Soluciones a Problemas Propuestos

c ; Bc y B ; Bc y
Pero, los sucesos BV y BW son independientes (de donde BV y BW V W V
c
BW también lo son), luego

P (NZ ) = P (NZ /(BV ∩ BW


c c
)) P (BV ) P (BW ) + P (NZ /(BVc ∩ BW )) P (BVc ) P (BW )
+ P (NZ /(BVc ∩ BW
c
)) P (BVc ) P (BW
c
),

de donde
1 5 3 1 3 2 3 3 39
P (NZ ) = · · + · · +1· · = .
2 8 5 2 8 5 8 5 80

Problema 1.5.H: El problema consiste en calcular la probabilidad P (M/A) , la cual,


por el Teorema de Bayes y de Probabilidades Totales está dado por:

P (A/M ) P (M )
P (M/A) =
P (A)
P (A/M ) P (M )
=
P (A/B) P (B) + P (A/S) P (S) + P (A/M ) P (M )
0.2 · 0.25
=
0.8 · 0.25 + 0.5 · 0.5 + 0.2 · 0.25

= 0.1.

Entonces, el 10% de los individuos aprobados en el test, serı́an clasificados, al final del
curso, como malos.

Problema 1.5.I: Consideremos los siguientes sucesos.


A1 = postulante concerta la entrevista para el lunes 4 de diciembre,
A2 = postulante concerta la entrevista para el resto de la semana,
A3 = postulante concerta la entrevista para la próxima semana,
A = postulante asiste.
Según las notaciones recién introducidas, el problema consiste en calcular P (A2 /A) .
Usando Teorema de Bayes y de Probabilidades Totales, expresamos P (A2 /A) como
P (A/A2 ) P (A2 )
P (A2 /A) =
P (A)
P (A/A2 ) P (A2 )
= .
P (A/A1 ) P (A1 ) + P (A/A2 ) P (A2 ) + P (A/A3 ) P (A3 )
Además, de los datos del problema se deduce que:

P (A1 ) = 0.6, P (A/A1 ) = 0.8,


P (A2 ) = 0.3, P (A/A2 ) = 0.6,
P (A3 ) = 0.1, P (A/A3 ) = 0.4.
9
En consecuencia, P (A2 /A) = 35 .

- 421 -
Soluciones a Problemas Propuestos

Problema 1.5.J: Usaremos las notaciones siguientes:


D = artı́culo es defectuoso + = el test avisa que el artı́culo es defectuoso
B = artı́culo es bueno − = el test avisa que el artı́culo es bueno
Con estas notaciones, las hipótesis del problema se traducen en:

P (D) = 0.007, P (+/D) = 0.98, P (+/B) = 0.09.

De esta forma, en i) se pide calcular la probabilidad P (D ∩ +) , en ii) P (D ∩ −) , en iii)


P (B ∩ +) y en iv) P (D/+) . Ası́,

P (D ∩ +) = P (+/D) P (D)
= 0.00686,

P (D ∩ −) = P (−/D) P (D)
= [1 − P (+/D)] P (D)
= 0.00014,

P (B ∩ +) = P (+/B) P (B)
= 0.09 (1 − P (D))
= 0.08937,

P (+/D) P (D)
P (D/+) =
P (+)
P (+/D) P (D)
=
P (+/D) P (D) + P (+/B) P (B)
= 0.07129.

Como en b) se pide calcular P (+) , y de i) y iii)

P (+) = P (D ∩ +) + P (B ∩ +)
= 0.00686 + 0.08937
= 0.09623,

entonces, la proporción de artı́culos que da resultado positivo en el test es 96 en 1000.


Finalmente, la probabilidad pedida en c) es P (D/ segundo test +).

- 422 -
Soluciones a Problemas Propuestos

A partir de la definición de probabilidad condicional y del siguiente diagrama de árbol

0.99 ...... +
....
. + ............
.... ......
... ......
0.98........
..

.......
...D .......
.. ..
0.007.... 0.02 ........
... ....
..
. −
...
.
...
.
.....
...
...
...
... 0.01 ....... +
... ....
... . + ............
... .... ......
... .. .....
0.993 .... 0.09........
... ..
.

...
B ..........
..
0.91.........
....

Figura 1.5.B. Diagrama de árbol para el test.


se obtiene que
P (D ∩ (segundo test +) )
P (D/ segundo test +) =
P ( segundo test +)

0.007 · 0.98 · 0.99


=
0.007 · 0.98 · 0.99 + 0.993 · 0.09 · 0.01

= 0.88371.

Problema 1.5.K: Consideremos los sucesos siguientes:


Ai = el dado muestra el número i , i = 1, 2, . . . , 6 ,
A = exactamente 2 fichas extraı́das son blancas,
B = todas las fichas extraı́das son blancas.
Con las notaciones anteriores, lo que se pide calcular en a) es P (A) y en b) P (A3 /B) .
Primeramente, usando Probabilidades Totales se tiene que

6
P (A) = P (A/Ai ) P (Ai )
i=1

1∑
6
= P (A/Ai )
6
i=1
[ (5 ) (5)(10) (5)(10) (5)(10) (5)(10) ]
1
= 0 + (15) + 2(15)1 + 2(15)2 + 2(15)3 + 2(15)4
2
6 2 3 4 5 6

= 0.06477.

- 423 -
Soluciones a Problemas Propuestos

Por otra parte,



6
P (B) = P (B/Ai ) P (Ai )
i=1

1∑
6
= P (B/Ai )
6
i=1
[() (5) (5 ) (5 ) (5) ]
5
1
= ( ) + (15) + (15) + (15) + (15) + 0
1 2 3 4 5
6 15 1 2 3 4 5

= 0.13015,

de donde obtenemos finalmente


(53) 1
P (B/A3 ) P (A3 ) (15
3)
6
P (A3 /B) = = = 0.00366 .
P (B) 0.13015

Problema 1.5.L: Consideremos los siguientes sucesos:


Ai = caja contiene exactamente i% de piezas defectuosas, 0 ≤ i ≤ 6,
A = al inspeccionar 50 piezas de la caja, resultan 6 defectuosas.
( )
Con estas notaciones, el problema se reduce a calcular P ∪6i=3 Ai /A . Pero,
( 6 )
∪ ∑6
P Ai /A = P (Ai /A),
i=3 i=3

por lo que basta calcular P (Ai /A) , 3 ≤ i ≤ 6.


Ahora, Teorema de Bayes implica que
P (A/Ai ) P (Ai )
P (Ai /A) = ,
P (A)
y por Teorema de probabilidades totales

6
P (A) = P (A/Aj ) P (Aj ).
j=0

Por lo tanto, ( )

6 ∑
6
P (A/Ai ) P (Ai )
P Ai /A = ∑6 .
i=3 i=3 j=0 P (A/Aj ) P (Aj )

Además, de los datos del problema


P (A0 ) = 0.78, P (A1 ) = 0.17, P (A2 ) = 0.034, P (A6 ) = 0.000,

P (A3 ) = 0.009, P (A4 ) = 0.005, P (A5 ) = 0.002.

- 424 -
Soluciones a Problemas Propuestos

y (12j )(1200−12j )
P (A/A0 ) = 0, P (A/Aj ) = 6
(120044
) , 1 ≤ j ≤ 6.
50
En consecuencia,
( )( ) ( )( ) ( )( )
36 1164 48 1152 60 1140
6 44 6 44 6 44
( ) 0.009 + ( ) 0.005 + ( ) 0.002
1200 1200 1200
6 50 50 50
P ( ∪ Ai /A) = (
12
)( )
1188
( )(
24 1176
) ( )(
36 1164
) (
48
)(
1152
) ( )(
60
)
1140
.
i=3
6 44 6 44 6 44 6 44 6 44
( ) 0.17 + ( ) 0.034 + ( ) 0.009 + ( ) 0.005 + ( ) 0.002
1200 1200 1200 1200 1200
50 50 50 50 50

Problema 1.5.M: Para i = 1, 2, 3, consideremos los siguientes sucesos:


Ii = el dado muestra un número impar en el i-ésimo lanzamiento,
Pi = el dado muestra un número par en el i-ésimo lanzamiento.
Con estas notaciones, la probabilidad que se desea calcular en el item a) es P (P1 ), en el
b) es P (A/I1 ∩ I2 ) y en el item c) P (I3 /I1 ∩ I2 ).
El siguiente es el diagrama de árbol asociado a este problema.
1

2
I3
1
I2
2
1
P3
I 1
2

1 1 1 2 I3
2 2
P2
1 P3
A 1
2

1 2 I3
1
2 I2
2 1
P3
P1 2
1

1
2
I3
2 P2
1
P3
α 2

P I 3
P I2
1-P P3
I1 P
P 1-P
I 3
P2
1-P P3
B
1−α P I3
2 1-P P
I2
1-P P3
P1
1-P
P I 3
P2
1-P P3
1−α q
2 I
I 3
q 2
1-q P3
I1 q
q 1-q
I 3
P2
1-q P3
C
q
I 3
1-q q I2
1-q P3
P1 q
1-q
I 3
P2
1-q P3

Figura 1.5.D Diagrama de árbol para este experimento.

- 425 -
Soluciones a Problemas Propuestos

Ası́,
1 1−α 1−α
P (P1 ) = α + (1 − p) + (1 − q).
2 2 2
Además,

2 · 2α
1 1
P (I1 ∩ I2 /A) P (A)
P (A/I1 ∩ I2 ) = = 1 .
P (I1 ∩ I2 ) α2· 1
2 + 1−α
2 pp + 1−α
2 qq
Finalmente,
P (I3 ∩ I1 ∩ I2 ) α1·1· 1
+ 1−α
p p p + 1−α
2 qqq
P (I3 /I1 ∩ I2 ) = = 2 12 2 2
.
P (I1 ∩ I2 ) α2· 1
2 + 1−α
2
1−α
pp + 2 qq

Problema 1.5.N: Para cada n ≥ 1 , definimos los siguientes sucesos:


An = sale cara en el n-ésimo lanzamiento de la moneda,
Bn = sale un 5 o 6 en el n-ésimo lanzamiento del dado.
Por las condiciones del problema y las definiciones recién introducidas, resulta que los
sucesos Ai con los sucesos Bj son independientes y, para todo k ≥ 1,
1 1
P (Ak ) = , P (Bk ) = .
2 3
Por lo tanto,
([n−1 ] ) [n−1 ]
∩ ∏
P (Aci ∩ Bic ) ∩ An = P (Aci ) P (Bic ) P (An )
i=1 i=1
( )n−1 ( )n−1
1 2 1
= · ·
2 3 2
( )n ( )n−1
1 2
= · .
2 3
Nótese además que el suceso C, definido por
[ ∞ ( i−1 ) ]
∪ ∩
C = A1 ∪ (Ack ∩ Bkc ) ∩ Ai
i=2 k=1

representa el hecho que la moneda registra una cara antes que el dado muestre un 5 ó un
6. De esta forma

( i−1 )
∑ ∏
P (C) = P (A1 ) + P (Ack ∩ Bkc ) P (Ai )
i=2 k=1

( i−1 )
1 ∑ ∏ 1
= + P (Ack ) P (Bkc )
2 2
i=2 k=1
∞ (
∑ )i−1 ( )i−1
1 1 2 1
= + · ·
2 2 3 2
i=2

- 426 -
Soluciones a Problemas Propuestos

∞ ( )i
3∑ 1 2
= ·
2 2 3
i=1
1
3
= · 3
2 1− 1
3
3
= .
4

SECCIÓN 2.1

Problema 2.1.A:


FX (x) = pX (y)
y≤x
y∈Rec X


 0 si x < 0


 0.25 si 0 ≤ x < 1
= 0.375 si 1 ≤ x < 2



 0.5 si 2 ≤ x < 3

1 si x ≥ 3

FX (x)

0.5
0.375
0.25

1 2 3 x

Figura 2.1.A Gráfico de la función de distribución acumulada de X.

Problema 2.1.B: Si Ω = {(a, b) : a, b ∈ {1, 2, ..., 6}}, entonces:

(X = 3) = {(1, 2), (2, 1)}


(X = 6) = {(5, 1), (1, 5), (4, 2), (2, 4), (3, 3)}
(X = 9) = {(6, 3), (3, 6), (5, 4), (4, 5)}
(X = 12) = {(6, 6)}
y
(X es divisible por 3) = (X = 3) ∪ (X = 6) ∪ (X = 9) ∪ (X = 12).
En consecuencia,

- 427 -
Soluciones a Problemas Propuestos

a)
#(X = 3) 2
P (X = 3) = = .
#Ω 36
b)

P (X es divisible por 3) = P (X = 3) + P (X = 6) + P (X = 9) + P (X = 12)

2 5 4 1
= + + +
36 36 36 36
12
=
36
1
= .
3
Por lo tanto,
1
P (X es divisible por 3) = .
3
c) La suma de ambos lanzamientos es 2 cuando en el primer lanzamiento sale (1, 1)
y en el segundo sale (1, 1). Como los sucesos son independientes y cada uno tiene
1
probabilidad 36 , entonces la probabilidad en este caso es 3612 .

la suma, en ambos lanzamientos, es 3 cuando


1er lanzamiento 2o lanzamiento
(1, 2), (2, 1) (1, 2), (2, 1)
Las combinaciones entre el primer y segundo lanzamiento son:
primer lanzamiento (1, 2) segundo lanzamiento (1, 2)
primer lanzamiento (1, 2) segundo lanzamiento (2, 1)
primer lanzamiento (2, 1) segundo lanzamiento (1, 2)
primer lanzamiento (2, 1) segundo lanzamiento (2, 1)

En total, existen 4 combinaciones, cada una con probabilidad 1


36 · 1
36 = 1
362
. Luego,
la probabilidad para este caso es 3642 .
Análogamente, se verifica que:
La suma en ambos lanzamientos es 2 (1 combinación)
La suma en ambos lanzamientos es 4 (9 combinaciones)
La suma en ambos lanzamientos es 5 (16 combinaciones)
La suma en ambos lanzamientos es 6 (25 combinaciones)
La suma en ambos lanzamientos es 7 (36 combinaciones)
La suma en ambos lanzamientos es 8 (25 combinaciones)

La suma en ambos lanzamientos es 9 (16 combinaciones)


La suma en ambos lanzamientos es 10 (9 combinaciones)
La suma en ambos lanzamientos es 11 (4 combinaciones)
La suma en ambos lanzamientos es 12 (1 combinación)

- 428 -
Soluciones a Problemas Propuestos

Luego,

1 + 4 + 9 + 16 + 25 + 36 + 25 + 16 + 9 + 4 + 1 146
P (X1 = X2 ) = 2
= .
36 1296

d) Por simetrı́a, P (X1 > X2 ) = P (X2 > X1 ) y como

1 = P (X1 = X2 ) + P (X1 > X2 ) + P (X1 < X2 ),

entonces,
146
1− = 2 P (X1 > X2 ),
362
de donde,
P (X1 > X2 ) = 0.4437.

e)
P (X1 = 3, X1 > X2 )
P (X1 = 3/X1 > X2 ) =
P (X1 > X2 )

P (X1 = 3, X1 > X2 )
=
0.4437

2 · 3612
=
0.4437

= 0.003478.

Problema 2.1.C:

a) Rec Y = {1, 4, 25} y

pY (1) = P (Y = 1) =P (X 2 = 1)
=P ((X = 1) ∪ (X = −1))
=P (X = 1) + P (X = −1)
=pX (1) + pX (−1)
4 |1| | − 1|
= +
22 22
5
= ,
22

pY (4) = P (Y = 4) =P (X 2 = 4)
=P ((X = 2) ∪ (X = −2))
=P (X = 2) + P (X = −2)
=pX (2) + pX (−2)

- 429 -
Soluciones a Problemas Propuestos

4 |2| | − 2|
= +
22 22
10
= ,
22

pY (25) = P (Y = 25) = P (X 2 = 25)


= P ((X = 5) ∪ (X = −5))
= P (X = 5) + P (X = −5)
= pX (5) + pX (−5)
7
= +0
22
7
= .
22

b)

P ((Y ≤ 3) ∩ (Y ≤ 4))
P (Y ≤ 3 / Y ≤ 4) =
P (Y ≤ 4)
P (Y ≤ 3)
=
P (Y ≤ 4)
P (Y = 1)
=
P (Y = 1) + P (Y = 4)
5
22
= 5 10
22 + 22
1
= .
3

Problema 2.1.D:

P (X = k)
R(k) =
P (X = k − 1)
(n ) k
p (1 − p)n−k
= ( n )k
k−1 (1 − p)n−(k−1)
k−1 p
n!
k! (n−k)! p
= ·
n!
(k−1)! (n−(k−1))!
1−p

n−k+1 p
= · .
k 1−p

Notar que R(k) ≥ 1 , si y sólo si (n − k + 1) p ≥ (1 − p) k , es decir, P (X = k) es creciente,


si k ≤ p (n + 1) y decreciente si k > p (n + 1) . Luego, el valor de k que maximiza
P (X = k) es la parte entera de p (n + 1).

- 430 -
Soluciones a Problemas Propuestos

Cabe destacar que los radios R(k) permiten calcular P (X = k), en forma recursiva,
evitando calcular coeficientes binomiales
( ) que en algunos casos no son simples de obtener.
p
A modo de ejemplo, si X ∼ B 6, 34 , entonces 1−p = 3, y
( )6
3
P (X = 0) = 1 − = 0.00024414,
4

6−1+1
P (X = 1) = 3 · P (X = 0) = 18 P (X = 0) = 0.00439452,
1
6−2+1 15
P (X = 2) = 3 · P (X = 1) = P (X = 1) = 0.0329589,
2 2
6−3+1
P (X = 3) = 3 · P (X = 2) = 4 P (X = 2) = 0.1318356,
3
6−4+1 9
P (X = 4) = 3 · P (X = 3) = P (X = 3) = 0.2966301,
4 4
6−5+1 6
P (X = 5) = 3 · P (X = 4) = P (X = 4) = 0.35595612,
5 5
6−6+1 3
P (X = 6) = 3 · P (X = 5) = P (X = 5) = 0.17797806.
6 6

También, como 34 · 7 = 5.25, entonces su parte entera es 5, por lo que P (X = k) alcanza


su valor máximo en k = 5.

Problema 2.1.E: Supongamos que X denota el número de bombillas defectuosas en un


paquete. Por las condiciones del problema podemos asumir que X ∼ B(3, 0.02). Ası́,

a) ( )
3
P (X = 2) = (0.02)2 (1 − 0.02) = 0.001176.
2

b) ( )
3
P (X ≥ 1) = 1 − P (X = 0) = 1 − (0.02)0 (1 − 0.02)3 = 0.058808.
0

c) Sea A el suceso “ir a quejarse al supermercado”. Entonces,

i2
P (A/X = i) = , i = 0, 1, 2, 3,
10

- 431 -
Soluciones a Problemas Propuestos

por lo tanto,


3
P (A) = P (A/X = i) P (X = i)
i=0

1 4 9
= P (X = 1) + P (X = 2) + P (X = 3)
10 10 10

= 0.0062408.

Como 0.0062408 es mayor que 0.005 ( que corresponde al 0.5% ), entonces, el supermercado
no deberı́a seguir vendiendo este producto.

Problema 2.1.F: Sea Zn la variable aleatoria discreta que cuenta el número de “4”
que se obtienen cuando se engendra una sucesión de n dı́gitos. Por las condiciones del
problema asumiremos que
( 1)
Zn ∼ B n, 10 .
Ası́,
( ) ( )0 ( )8
8 1 9
P (Z8 = 0) = = (0.9)8 = 0.4305
0 10 10
y
( ) ( )3 ( )5
8 1 9 95
P (Z8 = 3) = = 56· 8 = 0.0331.
3 10 10 10
Finalmente,
1
E(Z100 ) = 100 · = 10
10
y
1 9
V ar(Z100 ) = 100 · · = 9,
10 10
o sea, la desviación estándar es 3.

SECCIÓN 2.2

Problema 2.2.A:
∫∞
a) Para que f sea densidad, se debe satisfacer la ecuación −∞ f (t)dt = 1.
Pero,
∫ ∞ ∫ 1 ( )
1 1
c t (1 − t)dt = c
2
(t − t )dt = c
2 3
− ,
−∞ 0 3 4
por lo tanto, c · 1
12 = 1 , es decir c = 12.

- 432 -
Soluciones a Problemas Propuestos

b) Nótese que {
0 si x < 0
FX (x) =
1 si x > 1
Ası́, para x ∈ [0, 1],
∫ x ( )
x3 x4
FX (x) = 12 (t − t )dt = 12
2 3
− ,
0 3 4
o sea 
 0 si x < 0
FX (x) = 4x − 3x si 0 ≤ x ≤ 1
3 4

1 si x > 1

c)

P (0.2 ≤ X ≤ 0.8) = FX (0.8) − FX (0.2)


= 4 (0.8)3 − 3 (0.8)4 − (4 (0.2)3 − 3 (0.2)4 )
= 0.792.

d) Si y < 1,


{ }
P (Y ≤ y) = fX (t)dt , donde Ay = x ∈ R : 1
x <y
Ay

= 12 t2 (1 − t)dt
Ay ∩[0,1]

= 12 t2 (1 − t)dt

= 0.

En cambio, si y ≥ 1,
(1 )
P (Y ≤ y) = P ≤y
(X )
= P 1
y ≤X
( )
= 1 − FX y1
( ( ) ( )4 )
1 3 1 1
= 1− 4 −3 , pues ∈ ]0, 1].
y y y

Por lo tanto, 
 0 si y < 1
FY (y) = 4 3
 1− 3 + 4 si y ≥ 1
y y

- 433 -
Soluciones a Problemas Propuestos

e) Como FY es continua y derivable, salvo posiblemente en y = 1, entonces una densi-


dad para la variable aleatoria Y es
{ ′
F (y) si F es derivable en y
fY (y) =
0 e.o.c.


 12 12
 4 − 5 si y > 1
y y
=


 0 si y ≤ 1

P ((2 ≤ Y ≤ 4) ∩ (Y < 3))


f) P (2 ≤ Y ≤ 4 / Y < 3) =
P (Y < 3)
P (2 ≤ Y < 3)
=
P (Y < 3)
∫3
fY (y)dy
= ∫ 32
−∞ fY (y)dy

∫3 12
2 ( y4 − 12
y5
)dy
= ∫ 3 12
1 ( y4 − 12
y5
)dy

29
= .
128

Problema 2.2.B: Para z ∈ R,

FE (z) = P (E ≤ z)
( )
= P 12 m V 2 ≤ z
{
0 √ ) si z < 0
= (
P |V | ≤ 2z m si z ≥ 0,

Además, ( √ ) ( √ √ )
P |V | ≤ 2z
m = P − 2z
m ≤ V ≤ 2z
m



{ }
2z
m 1
= √ √ exp − 12 ( σt )2 dt,
− 2z
m
2π σ
es decir,



0 si z < 0



FE (z) = ∫
{ −1 2 }
2z

 m 1

 √ √ exp 2σ 2t dt si z ≥ 0
− 2z
m
2πσ

- 434 -
Soluciones a Problemas Propuestos

Entonces, FE es continua y derivable, salvo posiblemente en z = 0, por lo que, una


densidad para la energı́a cinética E, está dada por:


 0 si z ≤ 0


fZ (z) = [ ]

 −1 2z −1 2z (−1) 2
 √2πσ (exp{ 2σ2 m }) √ 2z m − (exp{ 2σ2 m }) √ 2z m
 1 1 2
si z > 0
2 m
2 m


 0 si z ≤ 0

= { z }

 1 1
 √ √ exp − mσ 2 si z > 0
mπσ z

Problema 2.2.C:

(a) Nótese, primeramente, que Rec U = { 2132 , 2232 , 2332 , . . . , 1}.


Ası́, para k ∈ {1, 2, . . . , 232 − 1},

FU (u) = pU (z)
z≤u
z∈Rec U

= P (Z = 232 z)
z≤u
z∈Rec U
 1

 0 si u < 232



= k
si k
≤u< k+1


232 232 232



1 si u ≥ 1

b)
∫ u
FV (u) = fV (t)dt
−∞



0 si u < 0



 ∫ ∫

 0 u

0dt +
1dt si 0 ≤ u < 1
= −∞


0



 ∫ 0 ∫ 1 ∫


u
 0dt + 1dt + 0dt si u ≥ 1
−∞ 0 1


 0 si u < 0
= u si 0 ≤ u < 1

1 si u ≥ 1

- 435 -
Soluciones a Problemas Propuestos

Por lo tanto, si u ∈] − ∞, 0] ó u ∈ [1, ∞[, entonces

|FU (u) − FV (u)| = 0.

Ahora, si 0 < u < 1, entonces existe k0 ∈ {1, 2, 3, . . . , 232 } tal que k0


232
≤u< k0 +1
232
, o
sea,
k0
FU (u) = 32 y FV (u) = u,
2
de donde
k0 1
|FU (u) − FV (u)| = 32 − u ≤ 32 ,

2 2
[ [
pues u ∈ k0 k0 +1
,
232 232
.

Problema 2.2.D:

a) Como lim F (x) = 1, entonces b = 1. Además, por ser la función F creciente, se


x→∞
tiene que, para todo x > 0,

1
a = F (0) ≤ F (x) = − e−x + b,
2
de donde, tomando lı́mite cuando x tiende a cero por la derecha, se obtiene que
a ≤ 12 .
También a > 0, ya que 0 ≤ F (x) ≤ 1, para todo x ∈ R. Por lo tanto, 0 ≤ a ≤ 12 .

b) Para que la variable aleatoria X tenga densidad, es necesario (pero no suficiente)


que F sea continua en R.
La función F es continua en R si y sólo si F es continua en cero, es decir, si se
satisface
lim F (x) = lim F (x) = F (0),
x→0+ x→0−

o sea, si a = 21 .
En este caso, como F es continua y derivable salvo posiblemente en x = 0, una
densidad para la variable aleatoria X es



1 x

 e si x < 0

 2


fX (x) = 1 −x


e si x > 0

 2



 0 si x = 0

(el valor de fX en x = 0 es arbitrario, sólo debe ser no negativo).

- 436 -
Soluciones a Problemas Propuestos

Problema 2.2.E: Para y ∈ R,


( {√ √ } )
FY (y) = P min X, 2 − X ≤ y
( {√ √ } )
= 1 − P min X, 2 − X ≥ y
(√ √ )
= 1−P X > y, 2 − X ≥ y
(√ √ )
= 1−P X > y, X < 2 − y .
Ası́, si y ≤ 0,
(√ ) (√ )
FY (y) = 1 − P X <2−y (pues P X > y = 1)
( )
= 1 − P X < (2 − y)2
[∫ ∫ (2−y)2 ]
4
= 1− f (t)dt + f (t)dt (ya que 2 − y > 2)
0 4
= 1 − [1 + 0]
= 0.
En cambio, si y > 1,
(√ √ )
FY (y) = 1 − P X > y, X < 2 − y
= 1 − P (∅), pues en este caso 2−y <y
= 1.
Por último, si 0 < y ≤ 1,
(√ √ )
FY (y) = 1 − P X > y, X <2−y
( )
= 1 − P y 2 < X < (2 − y)2
∫ (2−y)2 3
t
= 1− dt
y2 64
1 [ ]
= 1− (2 − y)8 − y 8 .
256
En consecuencia,

 0 si y ≤ 0





1
FY (y) = 1− [(2 − y)8 − y 8 ] si 0 < y ≤ 1

 256




1 si y > 1

Problema 2.2.F:
( )
µ−c−µ X−µ
P (µ − c ≤ X ≤ µ + c) = P σ ≤ σ ≤ µ+c−µ
σ
( )
= P − σc ≤ X−µ
σ ≤
c
σ
(c) ( c)
= Φ σ − Φ −σ ,

- 437 -
Soluciones a Problemas Propuestos

donde Φ es la distribución acumulada de una normal (0, 1).


Pero, Φ es simétrica en torno de cero, por lo que
( ) ( )
Φ − σc = 1 − Φ σc .

Ası́, la condición del problema se traduce en que


( )
2Φ σc − 1 = 0.95,

o sea, (c)
Φ σ = 0.975.
c
En consecuencia, σ = 1.96, es decir, c = 1.96 σ.

Problema 2.2.G: Consideremos la función h, definida por h(a) = P (a ≤ X ≤ a + b).


Se pide determinar el valor de a donde h alcanza su máximo.
Nótese que

h(a) = P (a ≤ X ≤ a + b)
( )
= P a−µσ ≤ X−µ
σ ≤ a+b−µ
σ
( ) ( a−µ )
a+b−µ
= Φ σ −Φ σ ,

luego,
d 1 ( ) 1 (
a−µ ) 1 x2
h(a) = f a+b−µ
σ − f σ , con f (x) = √ e− 2 .
da σ σ 2π
d
Por lo tanto, h(a) = 0, si y sólo si
da
{ ( )2 } 1 1 {
1 1 ( ) }
1 a−µ 2
√ exp − 2 1 a+b−µ
σ − √ exp − 2 σ = 0.
σ 2π σ 2π

De esta última se obtiene la ecuación

(a + b − µ)2 = (a − µ)2 ,

por lo que a = µ − 2b .
d2
Finalmente, como da2
h(a)|a=µ− b < 0, entonces h alcanza el máximo en a = µ − 2b .
2

Problema 2.2.H: Si M ∼ N (1.025, 0.052 ), entonces,


( )
P (M < 1) = P M −1.025 0.05 ) <
1−1.025
( 0.025 0.05
= Φ − 0.05
= Φ(−0.5)
= 1 − Φ(0.5)
= 1 − 0.6915
= 0.3085.

- 438 -
Soluciones a Problemas Propuestos

O sea, el 30.85% de los paquetes está bajo peso.


Por otra parte, si M ∼ N (µ, 0.052 ), y se verifica que P (M < 1) = 0.1, entonces,
( )
Φ 1−µ
0.05 = 0.1,

es decir,
1−µ
= −1.29,
0.05
concluyéndose que µ = 1.0645.
Finalmente, si M ∼ N (1.0645, σ 2 ) y se verifica que P (M < 1) = 0.025, entonces,
( )
Φ 1−1.0645
σ = 0.025,

de donde,
1 − 1.0645
= −1.96,
σ
es decir, σ = 0.033.

Problema 2.2.I: Si X es la variable que representa la edad, entonces X ∼ N (µ, σ 2 ) y


por las condiciones del problema P (X < 25) = 0.4 y µ = 2 σ.
Ası́,

0.4 =P (X < 25)


( )
=P X−2σ < 25−2σ
( σ ) σ
=Φ 25−2σ
σ( )
=1 − Φ − 25−2σ
σ ,

o sea, ( )
Φ − 25−2σ
σ = 0.6,
de donde,
2σ − 25
= 0.26.
σ
Resolviendo esta última ecuación resulta σ = 14.4, y por lo tanto, µ = 28.8.
También,

P (X > 45) = 1 − P (X ≤ 45)


( )
14.4 )≤
= 1 − P X−28.8 45−28.8
( 45−28.8 14.4
= 1 − Φ 14.4
= 0.1314,

es decir, el 13.14% de la población tiene más de 45 años.


Por otra parte, si x satisface la relación P (X ≤ x) = 0.0228, entonces,
( )
Φ x−28.8
14.4 = 0.0228
= 1 − 0.9772,

- 439 -
Soluciones a Problemas Propuestos

de donde
x − 28.8
= −2, es decir, x = 0.
14.4

Si ahora se eligen al azar tres personas de entre esta población y representamos por Y a
la variable aleatoria que cuenta el número de personas con menos de 25 años, entonces
Y ∼ B(3, 0.4).
En ese caso, se puede pensar que la elección es con reposición, ya que el paı́s es “muy
poblado”. Luego,
( )
3
P (Y = 3) = (0.4)3 (0.6)0 = 0.064,
3
( )
3
P (Y = 2) = (0.4)2 (0.6)1 = 0.288,
2

P (Y ≥ 1) = P (Y = 1) + P (Y = 2) + P (Y = 3)
( )
3
= (0.4)1 (0.6)2 + 0.352
1

= 0.784.

Finalmente, si las personas se escogen del bus, el hecho de efectuar la elección sin reposición
afecta la probabilidad y no puede asumirse distribución binomial para Y .
En el caso en que el bus tuviese 40 personas, la probabilidad serı́a
(16)(24)
(40)0
3
= 0.057.
3

Para un bus con 50 personas la probabilidad serı́a


(20)(30)
(50)0
3
= 0.058,
3

y para un bus de 100 personas serı́a


(40)(60)
(3 100)0 = 0.061.
3

Problema 2.2.J: Sean G0 = {x ∈ R : 0 < x < 1}, G = {x ∈ R : x > 0} y g : G0 → G


función definida por g(x) = log(x−1 ). Entonces, g es una biyección, g −1 (t) = e−t y
d −1 −t
dt g (t) = −e .

- 440 -
Soluciones a Problemas Propuestos

Como Y = g(X), entonces Teorema de transformación de variables aleatorias implica que


{
fX (g −1 (t))| − e−t | si t ∈ G
fY (t) =
0 e.o.c.
{
fX (e−t ) e−t si t > 0
=
0 e.o.c.
{
(θ + 1) (e−t )θ e−t si t > 0
=
0 e.o.c.
{
(θ + 1) e−(θ+1)t si t > 0
=
0 e.o.c.

Por lo tanto,
Y ∼ exp(θ + 1).

Problema 2.2.K: Sea G0 = {x ∈ R : x > 0} y G = {x ∈ R : x > 0}. Entonces la


1
función g : G0 → G definida por g(x) = xδ , es una biyección, su inversa es g −1 (x) = x δ y
d −1 1 δ −1
1
dx g (x) = δ x .
δ
Como X = g(X), entonces Teorema de transformación de variables implica que

 1 1 −1
fX (g (x)) x δ si x ∈ G
−1
fX δ (x) = δ

0 e.o.c.
{ ( 1) 1 1
fX x δ x δ −1 si x > 0
= δ
0 e.o.c.
 ( 1 )δ−1 ( )
 δ
1
δ δ 1 1 −1
xδ exp − (xα ) xδ si x > 0
= α δ

0 e.o.c.
{ 1 ( )
exp − αx si x > 0
= α
0 e.o.c.
1
El recı́proco se obtiene de forma análoga, considerando g(x) = x δ .
Cabe señalar que si X tiene densidad como la planteada
( )en este problema , entonces
( se
)
dice que X tiene distribución Weibull de parámetro α, 1δ , se anota X ∼ Weibull α, 1δ .

Problema 2.2.L:
Método 1: Usando teorema de transformación de variables.
Sean G0 =] − 1, 1[, G =]0, 1] y h : G0 → G definida por h(t) = cos( π2 t), es decir,
Z = h(X).
La función h es epiyectiva, pero no inyectiva (como se observa en la figura siguiente).

- 441 -
Soluciones a Problemas Propuestos

h(t)

−1 0 1 t

Figura 2.2.A Gráfico de la función h(t), para −1 ≤ t ≤ 1.

Sean G0,1 =] − 1, 0], G0,2 =]0, 1[ y h1 : G0,1 → G, h2 : G0,2 → G definidas por


h1 (t) = h2 (t) = h(t). Entonces h1 , h2 son biyectivas y, para todo y ∈ G,
2 2
h−1
1 (y) = Arccos(y), h−1
2 (y) = Arccos(y),
π π
y
−2/π −2/π
J(h−1
1 )(y) = √ , J(h−1
2 )(y) = √ .
1 − y2 1 − y2
Teorema de transformación de variables aleatorias (versión generalizada) implica que una
densidad para la variable aleatoria Z = h(X) está dada por
 −1 −1 −1 −1
 fX (h1 (z))|J(h1 (z))| + fX (h2 (z))|J(h2 )(z)| si z ∈ G
fZ (z) =

0 e.o.c.

Pero,
 1

 si − 1 < x < 1
fX (x) = 2


0 e.o.c.

por lo tanto


 1 2/π 1 2/π
 √ + √ si 0 < z < 1
2 1 − z2 2 1 − z2
fZ (z) =



0 e.o.c.



2
 √ si 0 < z < 1
= π 1 − z 2


 0 e.o.c.

- 442 -
Soluciones a Problemas Propuestos

Método 2: Usando la función de distribución acumulada.


Como Rec Z =]0, 1[, entonces FZ (z) = 0 si z ≤ 0 y FZ (z) = 1 si z > 1.
Para z ∈]0, 1[,

FZ (z) = P (Z ≤ z)

( ( ) )
= P cos π2 X ≤ z

( ( ) )
= 1 − P cos π2 X > z

( )
= 1 − P − Arccos(z) < π2 X < Arccos(z)

( )
= 1 − P − π2 Arccos(z) < X < 2
π Arccos(z)

∫ 2
b
π 1
= 1− dt , con b = arccos(z)
− π2 b 2
2
= 1− b
π
2
= 1− Arccos(z).
π

La figura siguiente muestra el gráfico de la función cos(t), con −1 ≤ t ≤ 1.

−1 −b 0 Arccos(z)= b 1 t

Figura 2.2.B

Luego,

 0 si z ≤ 0
FZ (z) = 1− 2
Arccos(z) si 0 < z ≤ 1
 π
1 si z > 1

En consecuencia, FZ es continua y derivable, salvo probablemente en z = 0 y z = 1,


entonces una densidad para Z está dada por

- 443 -
Soluciones a Problemas Propuestos


 d
 FZ (z) si Fz es derivable en z
fZ (z) = dz


0 e.o.c.



2
 √ si 0 < z < 1
= π 1 − z 2


 0 e.o.c.

Problema 2.2.M:

a) Por las condiciones del problema, se tiene que

E(Y ) = 5.3 y Var(Y ) = (0.3)2 .

Pero,
E(Y ) = a E(X) + b = a 4.2 + b
y
Var(Y ) = a2 Var(X) = a2 (0.6)2 ,
por lo tanto,
4.2 a + b = 5.3 y a2 (0.6)2 = (0.3)2 ,
de donde
a = 0.5 y b = 3.2.

b) Se pide encontrar c ∈ [0, 7], de modo que P (Y > c) = 0.9.


Pero,

P (Y > c) = P (0.5 X + 3.2 > c)

( c−3.2
)
= P X> 0.5

( )
X−4.2 2(c−3.2)−4.2
= P 0.6 > 0.6

( )
2(c−3.2)−4.2
= 1−Φ 0.6 ,

o sea ( )
2(c−3.2)−4.2
Φ 0.6 = 0.1,

de donde, usando una tabla normal (0,1), se obtiene que


2(c − 3.2) − 4.2
= −1.28,
0.6
con lo cual se concluye que c = 4.916.

- 444 -
Soluciones a Problemas Propuestos

Problema 2.2.N:

∫ ∞
(1) 1
E T = fT (t)dt
0 t
∫ ∞
1 λα α−1 −λt
= t e dt
0 t Γ(α)
∫ ∞
λ λα−1
= t(α−1)−1 e−λt dt.
α − 1 0 Γ(α − 1)

Esta última integral vale uno, pues el integrando es la densidad de una distribución
Gamma(α − 1, λ). Ası́,
( ) λ
E T1 = .
α−1
También,
(( ) ) ∫ ∞
1 2 1
E T = fT (t)dt
0 t2
∫ ∞ α
λ
= t(α−2)−1 e−λt dt
0 Γ(α)
∫ ∞
λ2 λα−2
= t(α−2)−1 e−λt dt
(α − 1)(α − 2) 0 Γ(α − 2)

λ2
= ,
(α − 1)(α − 2)
o sea,
( )2
(1) λ2 λ
V ar = −
T (α − 1)(α − 2) α−1

λ2
= .
(α − 1)2 (α − 2)

Cabe recordar que


∫ ∞
Γ(α) = xα−1 e−x dx = (α − 1) Γ(α − 1).
0

En efecto, si usa integración por partes con u = xα−1 , v = e−x , α > 1, resulta
∫ ∞
−x α−1 ∞

Γ(α) = −e x 0
+ (α − 1) xα−2 e−x dx = 0 + (α − 1) Γ(α − 1).
0

Análogamente, si α > 2,

Γ(α) = (α − 1)(α − 2) Γ(α − 2).

- 445 -
Soluciones a Problemas Propuestos

Problema 2.2.O: Por las condiciones del problema, la utilidad U puede ser expresada
como {
c2 H − c1 H − c3 H si T > H
U=
c2 T − c1 T − c3 H si T ≤ H
o sea,
U = (c2 H − c1 H − c3 H) I(T >H) + (c2 T − c1 T − c3 H) I(T ≤H)
(nótese que U es variable aleatoria puesto que es una función en T ).
Por lo tanto,

E(U ) = E((c2 H − c1 H − c3 H) I(T >H) ) + E((c2 T − c1 T − c3 H) I(T ≤H) )


= H (c2 − c1 − c3 ) E(I(T >H) ) + (c2 − c1 ) E(T I(T ≤H) ) − c3 H E(I(T ≤H) )
= H (c2 − c1 − c3 ) P (T > H) + (c2 − c1 ) E(T I(T ≤H) ) − c3 H P (T ≤ H)
= H (c2 − c1 − c3 ) e−λH + (c2 − c1 ) E(g(T )) − c3 H (1 − e−λH ),

donde g es la función definida por


{
t si t ≤ H
g(t) = t I(t≤H) =
0 e.o.c.

Pero,
∫ ∞
E(g(T )) = g(t)fT (t)dt
−∞
∫ 0 ∫ H ∫ ∞
−λt
= t 0dt + t λe dt + 0 λe−λt dt
−∞ 0 H
( )
1 1
= − e−λH +H ,
λ λ
entonces
( ( )) ( )
−λH 1 1
E(U ) = H(c2 − c1 − c3 ) e + (c2 − c1 ) − e−λH +H − c3 H 1 − e−λH .
λ λ

Para obtener el valor máximo de E(U ), resolvemos la ecuación

dE(U )
= 0,
dH
de donde resulta ( )
1
H = − log c2c−c 3
.
λ 1

c3
Nótese que 0 < c2 −c1 < 1, pues de lo contrario no es rentable hacer funcionar la máquina.
También,
d2 E(U )
= −λ(c2 − c1 )e−λH < 0, para todo H > 0,
dH 2
pues λ > 0 y c2 − c1 > 0.

- 446 -
Soluciones a Problemas Propuestos
( )
Por lo tanto, en H = − λ1 log c3
c2 −c1 , efectivamente E(U ) alcanza el máximo.

d
Problema 2.2.P: Como dt FX (t) existe, salvo posiblemente en t = 0 y t = 100, entonces
una densidad para la variable aleatoria X es

 d
 FX (t) si la derivada existe
fX (t) = dt


0 e.o.c.
 1

 si 0 < t < 100
= 100


0 e.o.c.

O sea, X tiene distribución uniforme sobre ]0, 100[ (claramente el supuesto sobre esta
variable aleatoria es poco razonable si se desea modelar el tiempo de sobrevivencia de una
persona).
Si T40 es el tiempo que sobrevivirá la persona a partir de los 40 años, entonces, para s > 0,

P (T40 > s) = P (X > 40 + s/X ≥ 40)

P (X > 40 + s, X ≥ 40)
=
P (X ≥ 40)
P (X > 40 + s)
=
P (X ≥ 40)

 1 − 40+s

 100
si 0 < s < 60
= 1 − 40
100



0 e.o.c.

 1 − 60 s
si 0 < s < 60
=

0 e.o.c.

Por lo tanto, T40 ∼ U (0, 60).


Sea K = [T40 ] (parte entera de T40 ). La variable aleatoria K, representa el número de
años (enteros) que sobrevivirá la persona de edad 40 años. La función de cuantı́a de K
está dada por

P (K = j) = P (j ≤ T40 < j + 1) (j ∈ {0, 1, . . .})

∫ j+1
= fT (s)ds
j

- 447 -
Soluciones a Problemas Propuestos
 ∫ j+1

 1
 ds si j ∈ {0, 1, . . . , 59}
j 60
=



0 si j ≥ 60
 1

 si j ∈ {0, 1, . . . , 59}
= 60


0 si j ≥ 60
El valor presente (al instante en que se contrata el seguro) de las 2000 (UF) que pagará
la compañı́a al final del año de muerte del asegurado, es decir, al instante K + 1, son
1
2000v K+1 , donde v = 1+0.01 .
La persona realizará los siguientes pagos a la compañı́a

Px Px Px Px

x x+1 x+2 x+K x+T x+K+1

Donde x es la edad de la persona al instante de contratar el seguro.


El valor presente de estos pagos es
1 − v K+1
Px + Px v + Px v 2 + · · · + Px v K−1 + Px v K = Px (1 + v + · · · + v K ) = Px ·
1−v
(se usó que 1 + v + · · · + v K es una suma geométrica, de primer término 1, razón v y
número de términos K).
Si denotamos por L la posible pérdida en que incurrirı́a la compañı́a (L en moneda del
instante en que se contrata el seguro), resulta
1 − v K+1
L = 2000 v K+1 − P40 · .
1−v
De las condiciones del problema, E(L) = 0, de donde
2000 E(v K+1 )
P40 = (1 − v).
1 − E(v K+1 )
Pero,


E(v K+1
) = v j+1 P (K = j)
j=0


59
1
= v j+1
60
j=0

1 v (1 − v 60 )
= ·
60 1−v
1 1
= · (1 − 0.5504496),
60 0.01

= 0.749.

- 448 -
Soluciones a Problemas Propuestos

en consecuencia
P40 = 59.09037.

Problema 2.2.Q: Considere X = min{r, Y } donde r > 0. Luego desde el Ejemplo 2.2.6
tenemos


 0 si u < 0





FX (u) = 1 − e−λu si 0 ≤ u < r







1 si u ≥ r

Note además que Z = max{s, min{Y, r}} = max{s, X}.


Luego,
FZ (z) = P (Z ≤ z) = P (max{s, X} ≤ z) = P (s ≤ z, X ≤ z)

Debemos considerar 2 casos. Si z < s entonces FZ (z) = 0 pues (s ≤ z, X ≤ z) = ϕ. Por


otro lado, si z ≥ s, FZ (z) = P (X ≤ z) = FX (z).
Por lo tanto,


 0 si z < s





FZ (z) = 1 − e−λz si s ≤ z < r







1 si z ≥ r

Observe que al igual que en el Ejemplo 2.2.6 la variable aleatoria Z no es continua ni


discreta.

SECCIÓN 2.3

Problema 2.3.A:

P (−2 ≤ X ≤ 8) = P (−5 ≤ X − 3 ≤ 5)
= P (|X − 3| ≤ 5)
= 1 − P (|X − 3| > 5)
V (X)
≥ 1− (desigualdad de Chebyshev)
25
4
= 1−
25
21
= .
25

- 449 -
Soluciones a Problemas Propuestos

Problema 2.3.B: Por las condiciones del problema, se debe determinar n0 de modo
que:
P (|X̄n0 − p| < 0.005) ≥ 0.95.
Como, para todo n ≥ 1 , E(X̄n ) = p y V (X̄n ) = 1
n p (1 − p) , entonces desigualdad de
Chebyshev implica que

P (|X̄n − p| < 0.005) = 1 − P (|X̄n − E(X̄n )| ≥ 0.005)

V (X̄n )
≥ 1−
(0.005)2
p(1 − p)
= 1− .
n(0.005)2

Además, la función
h : [0, 1] → R
t t(1 − t)
es creciente en el intervalo [0, 1/2] (como lo muestra la Figura 2.3.4 ), luego

p(1 − p) ≤ 0.45(1 − 0.45).

Ası́ entonces, por la condición del problema, n0 debe satisfacer la relación

0.45(1 − 0.45)
< 0.05,
n0 (0.005)2

por lo cual basta considerar n0 > 10.421, 05.

Problema 2.3.C:

i)

1
E(X̄n ) = n E(X1 )
n
= P (Z1 ∈ D)
∫∫
= fZ1 (u, v) du dv
D
áreaD
=
áreaG
= áreaD
= p,

1
V (X̄n ) = n V (X1 )
n2
1
= p (1 − p).
n

- 450 -
Soluciones a Problemas Propuestos

ii) Se debe determinar n0 de modo que

P (|X̄n0 − p| > 0.01) < 0.005.

Nótese que, de la desigualdad Chebyshev,

V (X̄n ) p(1 − p)
P (|X̄n − E(X̄n )| > 0.01) ≤ = ,
(0.01)2 n(0.01)2

luego, n0 debe satisfacer la relación

p(1 − p)
≤ 0.005,
n0 (0.01)2

de donde
p(1 − p) p(1 − p)
n0 ≥ = .
2
(0.01) 0.005 5 · 10−7

Si se asumiera que f (x) = 3


4 x2 , entonces p = 1
4 , y bastarı́a considerar n0 ≥ 375.000.

Problema 2.3.D: Consideremos una variable aleatoria X, cuyo recorrido sea


RecX = {a1 , . . . , an } y con función de distribución,

P (X = ai ) = αi , i = 1, . . . , n.

De esta forma,

n
E(X) = αi a i .
i=1

Si ahora tomamos h(x) = − ln x, x > 0, entonces Ejemplo 2.3.6 implica que


( n )
∑ ∑ n
ln αi ai ≥ E(ln X) = (ln(ai )) αi .
i=1 i=1

Tomando función exponencial en base e, a ambos lados de la desigualdad, resulta


n ∏
n ∏
n
αi a i ≥ e (ln(ai ))αi
= aαi i .
i=1 i=1 i=1

Notar que, si se considera αi = n1 , i = 1, . . . , n, en la desigualdad anterior, se obtiene la


desigualdad que relaciona la media geométrica y aritmética, esta es,
( )1 ∑n

n n
i=1 ai
ai ≤ .
n
i=1

- 451 -
Soluciones a Problemas Propuestos

Problema 2.3.E: Considere:

• Ω = {a, b, c}
#A #A
• P (A) = = ,A⊂Ω
#Ω 3
• X variable aleatoria discreta de modo que X ∼ U {a, b, c}
1
• f :]0, ∞[→ R, f (x) =
x
Con estas consideraciones se tiene que:

a+b+c
E(X) = ,
3
1 1 1 1 1 1
E(f (X)) = · + · + · ,
a 3 b 3 c 3
3
f (E(X)) = .
a+b+c

Desigualdad de Jensen (f es función convexa) implica que

3 1 1 1 1 1 1
≤ · + · + · ,
a+b+c a 3 b 3 c 3
de donde
9 1 1 1
≤ + + .
a+b+c a b c

Problema 2.3.F: Note que si 0 < s < t entonces la función ϕ(y) = |y|t/s es convexa,
pues es la composición de 2 funciones convexas.
Ahora usando la desigualdad de Jensen con una variable aleatoria Y , tenemos
( ) t
E |Y |t/s ≥ |E(Y )| s

Considerando la variable aleatoria Y = |X|s , se obtiene que


( ) t
E |X|t ≥ |E(|X|s )| s .
Finalmente tomando la raiz t-ésima en esta última ecuación se concluye la demostración.

Problema 2.3.G: Sea Xi = ingreso de la i-ésima familia en un mes cualquiera, i =


1, . . . , n.

Se pide encontrar una cota superior para la probabilidad


(X )
1 +···+Xn
P n > 5A .

- 452 -
Soluciones a Problemas Propuestos

a) Por la desigualdad de Markov,


( X1 +···+Xn )
( X1 +···+Xn ) E
P n > 5A ≤ n
.
5A
Pero, para todo i, E(Xi ) = A, de donde
( ) 1
P X1 +···+X
n
n
> 5A ≤ .
5
b) Notar que
(X ) ( )
P 1 +···+Xn
> 5A = P X1 +···+X n
− A > 4A
n
( n
)
≤ P X1 +···+Xn − A > 4A .
n

Además, la desigualdad de Chebyshev implica que


( X1 +···+Xn )
( ) V
P X1 +···+X
n
n
− A > 4A ≤ n
.
(4A)2

Pero, para todo i, V (Xi ) = 45 A, por lo que
(X 1 )
V 1 +···+Xn
n (V (X1 + · · · + V (Xn )))
=
n2
1 16 2
= · A ,
n 25
se asume que los ingresos de familias diferentes son independientes.

En consecuencia,
( X1 +···+Xn ) 1
P n > 5A ≤ .
25 n

SECCIÓN 2.4

Problema 2.4.A:
a) Rec(X1 , X2 ) = {(0, 0), (0, 1), (0, 2), (1, 0), (1, 1), (1, 2), (2, 0), (2, 1), (2, 2)}. Además,
X1 , X2 son independientes, luego
{
αi βj si (i, j) ∈ Rec(X1 , X2 )
p(X1 ,X2 ) (i, j) =
0 e.o.c.

b)
P (X2 > X1 ) = P ((X1 , X2 ) ∈ B), donde B = {(a, b) : b > a}

= p(X1 ,X2 ) (i, j)
(i,j)∈Rec(X1 ,X2 )∩B
= p(X1 ,X2 ) (0, 1) + p(X1 ,X2 ) (0, 2) + p(X1 ,X2 ) (1, 2)
= α0 β1 + α0 β2 + α1 β2
= α0 β1 + (α0 + α1 ) β2 .

- 453 -
Soluciones a Problemas Propuestos

c) Sea i ∈ Rec Z = {−2, −1, 0, 1, 2, },

pZ (i) = P (X2 − X1 = i)
∑2
= P (X2 − X1 = i, X1 = j)
j=0


2
= P (X2 = i + j, X1 = j)
j=0


2
= pX1 (j) pX2 (i + j)
j=0
= pX1 (0) pX2 (i) + pX1 (1) pX2 (i + 1) + pX1 (2) pX2 (i + 2),

o sea,

pZ (−2) = pX1 (2) pX2 (0) = α2 β0


pZ (−1) = pX1 (1) pX2 (0) + pX1 (2) pX2 (1) = α1 β0 + α2 β1
pZ (0) = pX1 (0) pX2 (0) + pX1 (1) pX2 (1) + pX1 (2) pX2 (2) = α0 β0 + α1 β1 + α2 β2
pZ (1) = pX1 (0) pX2 (1) + pX1 (1) pX2 (2) = α0 β1 + α1 β2
pZ (2) = pX1 (0) pX2 (2) = α0 β2 .

Problema 2.4.B: Sean X, Y las variables aleatorias:

X = hora de llegada de Juan, Y = hora de llegada de Pedro.

Según las hipótesis del problema X e Y son variables aleatorias iid U (17, 18).

a) El suceso A = “Juan y Pedro se encuentran” se escribe como:


( )
1 ( )
A = |X − Y | ≤ nótese que 10 min = 1
6 hr. ,
6
luego,
∫∫
P (A) = I(|X−Y |≤ 1 ) (u, v) f(X,Y ) (u, v)dudv
6
R2
∫∫
{ }
= f(X,Y ) (u, v)dudv, donde H = (u, v) ∈ R2 : |u − v| < 16
H∩[17,18]2
∫∫
= 1 dudv
H∩[17,18]2

= área(H ∩ [17, 18]2 ).

- 454 -
Soluciones a Problemas Propuestos

En la figura siguiente, la región sombreada corresponde al conjunto H ∩ [17, 18]2 .

v
1
v =u+ 6
1
18 v =u− 6

5
17 + 6

1
17 + 6

17

1 5
17 17 + 6 17 + 6 18 u

Figura 2.4.A: Región sombreada representa H ∩ [17, 18]2 .

Ası́, ( ( ) ( ))
1 1 5 1 5 1 11
P (A) = 1 − 1− + · 1− = .
2 6 6 2 6 6 36

b) En este caso, el suceso( “Juan y Pedro


) se encuentran” lo denotamos por Ax , y se
expresa
{ como A x = |x}− Y | ≤ 1
6 , o dicho de otra forma, Ax = (Y ∈ G) , con
G = v ∈ R : |x − v| < 16 .
O sea,

P (Ax ) = IG (v) fY (v)dv
[17,18]

= fY (v)dv
[17,18]∩G

= 1 dv
[17,18]∩G

= longitud([17, 18] ∩ G)


 x − 17 + 1
si x ∈ [17, 17 + 16 ]


6

= 1
si x ∈]17 + 16 , 17 + 56 ]


3



18 + 1
6 − x si x ∈]17 + 56 , 18]

Por lo tanto, si Juan fija su hora de llegada al instante x, con x entre las 17:00 hrs. y
las 17 hrs. con 10 minutos, entonces la probabilidad que Juan y Pedro se encuentren es
x − 17 + 16 . En cambio, si Juan fija su hora de llegada al instante x, con x entre las 17 hrs.
con 50 minutos y las 18:00 hrs., entonces la probabilidad que Juan y Pedro se encuentren

- 455 -
Soluciones a Problemas Propuestos

es 18 + 16 − x . Finalmente, si Juan fija su hora de llegada entre las 17:10 y las 17:50,
entonces la probabilidad que Juan y Pedro se encuentren es 13 .

Problema 2.4.C:

FZ (z) = P (Z ≤ z)
( )
= P X Y <z
{ }
= P ((X, Y ) ∈ Az ) con Az = (x, y) ∈ R2 : x
y ≤z
∫∫
= f(X,Y ) (x, y)dxdy
Az
∫∫
= 1 dxdy
Az ∩[0,1]2
{
0 si z ≤ 0
=
área(Az ∩ [0, 1]2 ) si z > 0

Si 0 < z < 1, entonces la región sombreada siguiente representa al conjunto Az ∩ [0, 1]2 .

y
1
z y=(1/z)x
1

z 1 x

Figura 2.4.B

En cambio, si z ≥ 1 la región que representa al conjunto Az ∩ [0, 1]2 es

y=(1/z)x

1
z

1 z x

Figura 2.4.C

- 456 -
Soluciones a Problemas Propuestos

En consecuencia,
 z
 2 si 0 < z < 1
área (Az ∩ [0, 1]2 ) =

1− 1
2z si z ≥ 1
por lo que, 

 0 si z ≤ 0



z
FZ (z) = si 0 < z < 1


2



1− 1
2z si z ≥ 1
O sea, FZ es continua y derivable, salvo posiblemente en z = 0, z = 1, entonces
 1

 2z 2
si z > 1



fZ (z) = 1
si 0 < z ≤ 1


2



0 e.o.c.

Problema 2.4.D:

a)

P (Y ≥ αX) =P ((X, Y ) ∈ A) donde A = {(x, y) ∈ R2 : y ≥ αx}


∫∫
= f(X,Y ) (x, y)dxdy
∫A∫
= λ2 e−λ (x+y) dxdy.
A∩R2+

La región sombreada de la figura siguiente representa al conjunto A ∩ R2+ .

y
y= αx

11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000 x

Figura 2.4.D

- 457 -
Soluciones a Problemas Propuestos

Ası́,
∫ ∞ (∫ ∞ )
2 −λ (x+y)
P (Y ≥ αX) = λ e dy dx

0

αx

= λ e−λx (e−λ α x − 0)dx


0
∫ ∞
=λ e−(λ+λ α) x dx
0
λ
=
λ + λα
1
= .
1+α
{ }
b) Para cada t real, consideremos el conjunto B = (x, y) ∈ R2 : x
x+y ≤ t . Ası́, si
t ≤ 0 , entonces B ∩ R2+ = ∅ o B ∩ R2+ = {1} × R+ . Por lo tanto, en este caso
( ) ∫∫
P X+YX
≤t = λ2 e−λ(x+y) dxdy = 0.
B∩R2+

En cambio, si t ∈]0, 1[ , se tiene que


( )
P X+Y X
≤t = P (X ≤ tX + tY )
( ( ) )
= P Y ≥ 1−tt X
= P (Y ≥ αX) , con α= 1−t
t
1
=
1 + 1−t
t
= t.

Ahora, si t ≥ 1, resulta que B ∩ R2+ = R2+ , de donde


( )
P X+YX
≤ t = 1.

c) Nótese que la parte b) implica que



 0 si z ≤ 0
FZ (z) = z si 0 < z < 1

1 si z ≥ 1

Luego, FZ es función continua y derivable, salvo posiblemente en z = 0 , z = 1, por


lo tanto una densidad para la variable aleatoria Z está dada por
{
1 si 0 < z < 1
fZ (z) =
0 e.o.c.

es decir, Z ∼ U (0, 1).

- 458 -
Soluciones a Problemas Propuestos

Problema 2.4.E: Sean Z = X + Y , W = X


Y y (z, w) ∈ R2 . Entonces,

F(Z,W ) (z.w) = P (Z ≤ z , W ≤ w)

( )
= P X +Y ≤z , X
Y ≤w
{ }
= P ((X, Y ) ∈ A(z,w) ) con A(z,w) = (x, y) ∈ R2 : x + y ≤ z, x
y ≤w
∫∫
= f(X,Y ) (x, y) dxdy
A(z,w)
∫∫
= e−x e−y dxdy pues f(X,Y ) (x, y) = fX (x) fY (y).
A(z,w) ∩R2+

Si (z, w) ∈ R2+ entonces la región sombreada siguiente representa al conjunto A(z,w) ∩ R2+ ,

11111111111
00000000000
z
11111111111
00000000000
11111111111
00000000000 y = (1/w) x
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
___ zw z x
1+w

x+y = z

Figura 2.4.E

en cambio, si (z, w) ̸∈ R2+ , resulta que A(z,w) ∩ R2+ = ∅ . En consecuencia,

 ∫ (∫ )

zw
z−x
 1+w
−(x+y)
e dy dx si z > 0, w > 0
F(Z,W ) (z, w) = 1


0 w
x
0 e.o.c.
 ( )
 w
(1 − e−z − ze−z ) si z > 0, w>0
= 1+w

0 e.o.c.

Ahora, si definimos
{ 
1 − e−z − ze−z si z > 0  w si w > 0
F1 (z) = y F2 (w) = 1 + w
0 e.o.c. 0 e.o.c.

- 459 -
Soluciones a Problemas Propuestos

entonces,
lim F1 (z) = 1, lim F2 (w) = 1
z→∞ w→∞

y además,
F(Z,W ) (z, w) = F1 (z) F2 (w), para todo (z, w) ∈ R2 .

En consecuencia, Z y W son variables aleatorias independientes y

FZ (z) = F1 (z), FW (w) = F2 (w).

Problema 2.4.F:

a) Como RecY = R+ , entonces para y ≤ 0, FY (y) = P (Y ≤ y) = 0. En cambio, si


y > 0,
( ) ( )
FY (y) = P min Xi ≤ y =1 − P min Xi > y
i≤i≤n i≤i≤n

=1 − P (X1 > y, . . . , Xn > y)


( n )

=1 − P (Xi > y)
i=1

n
=1 − e−αi y
i=1
{ ( ) }

n
=1 − exp − αi y ,
i=1

o sea 
 1 − exp{−(α1 + · · · + αn )y} si y > 0
FY (y) =

0 e.o.c.
Por lo tanto, FY es continua y derivable, salvo posiblemente en y = 0, por lo que
una densidad para la variable aleatoria Y es
 (n ) { (n ) }
 ∑ ∑

 αi exp − αi y si y > 0
i=1 i=1
fY (y) =



0 e.o.c,
( )

n
es decir, Y ∼ exp αi .
i=1

b) Nótese que el suceso (Xk = Y ) es igual al suceso (Xk ≤ Yk ). Además,


∫∫
P (Xk ≤ Yk ) = f(Xk ,Yk ) (u, v)dudv, donde A = {(u, v) ∈ R2 : u < v}.
A

- 460 -
Soluciones a Problemas Propuestos

Por otra parte, como Xk es independiente de Yk (Yk es función de las variables


aleatorias X1 , . . . , Xk−1 , Xk+1 , . . . , Xn , entonces

 αk e−αk u λk e−λk v si u > 0, v > 0
f(Xk ,Yk ) (u, v) = fXk (u)fYk (v) =

0 e.o.c.

En consecuencia,
∫ ∞ (∫ ∞ )
−αk u −λk v
P (Xk < Yk ) = αk e λk e dv du
0 u
∫ ∞
= αk e−αk u e−λk u du
0
∫ ∞
= αk e−(αk +λk )u du
0
αk
=
αk + λ k
αk
= .

n
αi
i=1

Problema 2.4.G: Llamaremos Xi a la variable aleatoria que mide el tiempo que demora
en fallar la i-ésima componente, i = 1, 2, 3. Además, de los datos del problema, se tiene
que Xi ∼ exp(αi ), i = 1, 2, 3 y X1 , X2 , X3 son independientes. Ası́, la variable aleatoria
T puede ser expresada en función de X1 , X2 y X3 como

T = max{min{X1 , X3 }, min{X2 , X3 }}.

También, como Rec Xi = R+ , i = 1, 2, 3, entonces Rec T = R+ , de donde FT (t) = 0, si


t ≤ 0. Ahora, para t > 0,

FT (t) = P (T ≤ t)
= P (max{min{X1 , X3 }, min{X2 , X3 }} ≤ t)
= 1 − P (max{min{X1 , X3 }, min{X2 , X3 }} > t)
= 1 − P (min{X1 , X3 } > t ∨ min{X2 , X3 } > t)
= 1 − [P (min{X1 , X3 } > t) + P (min{X2 , X3 } > t)
−P (min{X1 , X3 } > t, min{X2 , X3 } > t)]
= 1 − [P (X1 > t, X3 > t) + P (X2 > t, X3 > t)
−P (X1 > t, X3 > t, X2 > t, X3 > t)]
= 1 − P (X1 > t)P (X3 > t) − P (X2 > t)P (X3 > t)
+P (X1 > t)P (X2 > t)P (X3 > t)
= 1 − e−α1 t e−α3 t − e−α2 t e−α3 t + e−α1 t e−α2 t e−α3 t ,

- 461 -
Soluciones a Problemas Propuestos

o sea, 
 1 − e−(α1 +α3 )t − e−(α2 +α3 )t + e−(α1 +α2 +α3 )t si t > 0
FT (t) =

0 e.o.c.

Por lo tanto, FT es continua y derivable, salvo posiblemente en t = 0, ası́ una densidad


para T está dada por

fT (t) = (α1 + α3 )e−(α1 +α3 )t + (α2 + α3 )e−(α2 +α3 )t − (α1 + α2 + α3 )e−(α1 +α2 +α3 )t · I(t>0) .

Finalmente,
∫ ∞
P (T ≥ 20) = fT (t)dt
20
= 1 − FT (20)
= e−(α1 +α3 )20 + e−(α2 +α3 )20 − e−(α1 +α2 +α3 )20 .

Problema 2.4.H: Sea (u, v) ∈ R2 , entonces

FV (v) = P (V ≤ v) = P (U ≤ u, V ≤ v) + P (U > u, V ≤ v),

o sea
F(U,V ) (u, v) = FV (v) − P (U > u, V ≤ v).
Pero, {
0 si u ≥ v
P (U > u, V ≤ v) =
(F (v) − F (u))n si u < v
ya que

P (min{X1 , . . . , Xn } > u, max{X1 , . . . , Xn } ≤ v) = P (u < X1 ≤ v, . . . , u < Xn ≤ v)


∏n
= P (u < Xi ≤ v)
i=1
∏n
= (F (v) − F (u))
i=1
= (F (v) − F (u))n .

Por lo tanto, {
FV (v) si u ≥ v
F(U,V ) (u, v) =
FV (v) − (F (v) − F (u))n si u < v
de donde
{
∂2 ∂ 2

f(U,V ) (u, v) = ∂u∂v F(U,V ) (u, v) si ∂u∂v F(U,V ) (u, v) existe


0 e.o.c.
{
n(n − 1)(F (v) − F (u))n−2 f (u)f (v) si u < v
=
0 si u ≥ v

- 462 -
Soluciones a Problemas Propuestos

En el caso en que n = 2 y X1 , X2 son variables aleatorias iid exp(λ),


{
2λ2 e−λ(u+v) si 0 < u < v
f(U,V ) (u, v) =
0 e.o.c.

Problema 2.4.I: Sean

T =X +Y +Z (duración del vuelo).

d = 14.5−((21+6)−24) = 11.5 horas = 690 minutos (duración del vuelo anunciado).

p = probabilidad buscada.

Entonces,

p = P (|T − d| ≤ 15)
= P (−15 + 690 ≤ T ≤ 15 + 690)
( )
= P −15+690−705

2.325
≤ T −705

2.325
≤ 15+690−705

2.325
( )
T −705
= P −0.62 ≤ √ 2.325
≤0
= Φ(0) − Φ(−0.62)
= 0.5 − 0.2676
= 0.2324,

con Φ función de distribución acumulada de una normal (0, 1)).

Problema 2.4.J:

a)
M = max{X1 , X2 } − min{X1 , X2 } = |X1 − X2 |,

luego, para todo y ∈ R,

FM (y) = P (M ≤ y)
= P (|X1 − X2 | ≤ y)
= P ((X1 , X2 ) ∈ Ay ) con Ay = {(u, v) ∈ R2 : |u − v| ≤ y}
∫∫
= f(X1 ,X2 ) (u, v)dudv
Ay
∫∫
1
= dudv donde G = Rec(X1 , X2 ) = [0, a]2
área G
Ay ∩G
área(Ay ∩ G)
= .
área G

- 463 -
Soluciones a Problemas Propuestos

En el caso en que y < 0, Ay = ∅, por lo que Ay ∩G = ∅. Ahora, si y > a, Ay ∩G = G,


como se aprecia en la figura siguiente
v
v = u+y

a
1111111111
0000000000
1111111111
0000000000
1111111111
0000000000
1111111111
0000000000
v = u-y

1111111111
0000000000
1111111111
0000000000
1111111111
0000000000
1111111111
0000000000a y u

Figura 2.4.F. Región sombreada representa a Ay ∩ G.

Por lo tanto, {
0 si y < 0
FM (y) =
1 si y > a
Finalmente, si 0 ≤ y ≤ a, entonces el área sombreada que muestra la figura siguiente
representa a Ay ∩ G.

v
v = u+y

111111111111111111
000000000000000000
a v = u-y
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
y

111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
y a u

Figura 2.4.G.

Ası́, en este caso,


a2 − 12 [(a − y)2 + (a − y)2 ] a2 − (a − y)2 2ay − y 2
FM (y) = = = .
a2 a2 a2
En consecuencia, 


2
ay − 1 2
a2
y si 0 < y ≤ a



FM (y) = 1 si y>a





0 si y≤0

- 464 -
Soluciones a Problemas Propuestos

b) Como la función FM es continua en R y derivable, salvo posiblemente en y = 0,


y = a, entonces una densidad para M es

 2
a − 2
a2
y si 0 < y < a
fM (y) =

0 e.o.c.

c) Formar un triángulo como el de la figura siguiente

M1 a - M
2

M = M - M
2 1

Figura 2.4.H.

es equivalente a pedir que se satisfagan las desigualdades triangulares:

M1 ≤ M + a − M2 , M ≤ M1 + a − M2 , a − M2 ≤ M1 + M.

Entonces, lo que debemos calcular es P (M1 ≤ a


2 , M2 − M 1 ≤ a
2 , M2 ≥ a2 ).
Pero, M1 = min{X1 , X2 }, M2 = max{X1 , X2 } y M2 − M1 = |X1 − X2 |, por lo que
el suceso (M1 ≤ a2 , M2 − M1 ≤ a2 , M2 ≥ a2 ), es igual al suceso ((X1 , X2 ) ∈ B), con
{ a a a}
B = (u, v) ∈ R2 : min{u, v} ≤ , |u − v| ≤ , max{u, v} ≥ .
2 2 2

Por lo tanto,
( )
P M1 ≤ a
2 , M2 − M 1 ≤ a
2 , M2 ≥ a
2 = P ((X1 , X2 ) ∈ B)
área(B ∩ G)
=
área(G)
2 · 21 · a2 · a2
=
a2
1
= .
4

Observando la figura siguiente, concluimos que el área sombreada, que representa a B ∩ G,


es igual a 2 · 12 · a2 · a2 .

- 465 -
Soluciones a Problemas Propuestos

a
2

a
2 a u

Figura 2.4.I.

En conclusión,

( ) 2· 1
· a2 · a
1
P M1 ≤ a
2 , M2 − M 1 ≤ a
2 , M2 > a
2 = 2 2
= .
a2 4

SECCIÓN 2.5

Problema 2.5.A:

a) Como f(X,Y ) es un densidad conjunta, entonces se debe cumplir que


∫∫
f(X,Y ) (x, y)dxdy = 1,
R2

o sea ∫∫
cxy dxdy = 1,
A

de donde se obtiene que c = 12.



b) Sean G0 = A, G = {(x, y) ∈ R2+ : 0 < y ≤ x , 0 < x ≤ 1} y

g : G0 → G
y
(x, y) (x2 , x)

√ √
La función g es biyección, g −1 (x, y) = ( x, y x) y el jacobiano de g −1 en cualquier
punto de G es
1 1
= .
2x 0 2
−y 1
2
x x

- 466 -
Soluciones a Problemas Propuestos

Como (U, V ) = g(X, Y ), entonces Teorema de transformación de variables aleatorias


implica que
{ √ √ √
f(X,Y ) ( u, uv) 12 si 0≤v≤ u, 0<u≤1
f(U,V ) (u, v) =
0 e.o.c.
{ √
12u v 1
2 si 0 < v ≤ u, 0<u≤1
=
0 e.o.c.
{ √
6u v si 0 < v ≤ u, 0<u≤1
=
0 e.o.c.

Problema 2.5.B: Sea Y la variable aleatoria “tiempo observado”, o sea, Y = T + X.


Se pide encontrar fY . Para ello encontraremos la distribución conjunta del vector
aleatorio (U, V ) = (T + X, X) y luego la marginal de la primera componente.

Las condiciones del problema implican que T y X son independientes y


{
0.4 e−0.4t si t > 0
fT (t) =
0 e.o.c.
{ 1
0.02 si − 0.01 < u < 0.01
fX (u) =
0 e.o.c.

Sean G0 = R+ ×] − 0.01, 0.01[, G = {(x, y) ∈ R2 : y < x}×] − 0.01, 0.01[ y

g : G0 → G
(x, y) → (x + y, y)

La función g es biyectiva, g −1 (x, y) = (x − y, y), y para todo (x, y) ∈ G,


|J(g −1 )(x, y)| = 1. Teorema de transformación de variables aleatorias implica que

f(U,V ) (u, v) = fg(T,X) (u, v)


{
f(T,X) (g −1 (u, v))|J(g −1 )(u, v)| si (u, v) ∈ G
=
0 e.o.c.
{
f(T,X) (u − v, v) si v < u, −0.01 < v < 0.01
=
0 e.o.c.

Ahora, de la independencia entre X y T se concluye que


{
0.4 e−0.4(u−v) 1
0.02 si v < u , −0.01 < v < 0.01
f(T +X,X) (u, v) =
0 e.o.c.

- 467 -
Soluciones a Problemas Propuestos

Por lo tanto,
∫ ∞
fT +X (u) = f(T +X,X) (u, v)dv
−∞
 ∫ u

 0.4 e−0.4(u−v) 50dv si − 0.01 < u < 0.01



 −0.01


 ∫
0.01
=

 0.4 e−0.4(u−v) 50dv si u ≥ 0.01

 −0.01





0 e.o.c.


 50 e−0.4u (e0.4u − e−0.004 ) si − 0.01 < u < 0.01



= 50 e−0.4u (e0.004 − e−0.004 ) si u ≥ 0.01





0 e.o.c.

Problema 2.5.C: Sean Z1 = Y1 , Zi = Yi −Yi−1 , 2 ≤ i ≤ n. Ası́, las variables aleatorias


Zi representan los tiempos que transcurren entre cada falla.

a) Se pide encontrar la densidad conjunta de (Z1 , . . . , Zn ).


Sean G0 = {(x1 , . . . , xn ) : 0 < x1 < x2 < · · · < xn }, G = Rn+ y
g: G0 → G
(x1 , . . . , xn ) → (x1 , x2 − x1 , . . . , xn − xn−1 )
La función g es biyección, g −1 (z1 , . . . , zn ) = (z1 , z1 + z2 , . . . , z1 + z2 + · · · + zn ) y el
jacobiano de g −1 en cualquier punto de G es

1 0 ··· ··· ··· ··· 0

1 1 0 ··· ··· ··· 0

1 1 1 0 · · · · · · 0

1 1 1 1 0 0 0 = 1.

. . .. .. .. .. ..
.. .. . . . . .

1 1 1 ··· ··· 1 1

Como (Z1 , . . . , Zn ) = g(Y1 , . . . , Yn ), entonces Teorema de transformación de varia-


bles aleatorias implica que

{
f(Y1 ,...,Yn ) (z1 , z1 + z2 , . . . , z1 + · · · + zn ) · 1 si zi > 0
f(Z1 ,...,Zn ) (z1 , . . . , zn ) =
0 e.o.c.
{
n! λn e−λnz1 e−λ(n−1)z2 · · · e−λzn si zi > 0
=
0 e.o.c.

= f1 (z1 ) · · · fn (zn ),

- 468 -
Soluciones a Problemas Propuestos

donde {
(n − i + 1)λ e−λ(n−i+1)t si t > 0
fi (t) =
0 e.o.c.
En consecuencia, Z1 , . . . , Zn son independientes y Zi ∼ exp((n − i + 1)λ), 1 ≤ i ≤ n.

d) Si definimos R = Yn − Y1 , entonces debemos encontrar una densidad para R.


Primeramente, notemos que del Problema 2.4.H, se deduce que una densidad con-
junta para el vector (Y1 , Yn ) está dada por
{
n(n − 1)(e−λu − e−λv )n−2 λ2 e−λu e−λv |1| si 0 < u < v
f(Y1 ,Yn ) (u, v) =
0 e.o.c.

Sean G0 = {(u, v) ∈ R2 : 0 < u < v}, G = {(a, b) ∈ R2 : a < b, a > 0} y

h: G0 → G
(u, v) (v − u, v)

La función h es biyección, h−1 (u, v) = (−u + v, v) y el jacobiano de h−1 en cualquier


punto de G es −1.
Además, (R, Yn ) = h(Y1 , Yn ), entonces Teorema de transformación de variables
aleatorias implica que
{ }
n(n − 1)(e−λ(b−a) − e−λb )n−2 λ2 e−λ(b−a) e−λb si 0 < a < b
f(Yn −Y1 ,Yn ) (a, b) =
0 e.o.c.

de donde
 ∫ ∞

λ2 n (n − 1) eλa (e−λ(b−a) − e−λb )n−2 e−2λb db si a > 0
fYn −Yn (a) =
 0 a
e.o.c.
 ∫ ∞
 2
λ n(n − 1)eλa (eλa − 1)n−2 e−λnb db si a > 0
=
 0 a
e.o.c.
{
λ(n − 1) eλa (eλa − 1)n−2 e−λna si a > 0
=
0 e.o.c.

Problema 2.5.D: Denotemos U = min{Z, W } y V = max{Z, W }. Luego, Problema


2.4.H implica que
{
2λ2 e−λ(u+v) si 0 < u < v
f(U,V ) (u, v) =
0 e.o.c.

Sean G0 = {(u, v) ∈ R2 : 0 < u < v}, G = R2+ y

g: G0 → G
(u, v) (u, v − u)

- 469 -
Soluciones a Problemas Propuestos

La función g es biyección, g −1 (a, b) = (a, a + b) y el jacobiano de g −1 en cualquier punto


de G es 1.
Como (U, V − U ) = g(U, V ), entonces Teorema de transformación de variables aleatorias
implica que
{
f(U,V ) (a, a + b) |1| si (a, b) ∈ R2+
f(U,V −U ) (a, b) =
0 e.o.c.
{
2λ2 e−λ(2a+b) si (a, b) ∈ R2+
=
0 e.o.c.

Por lo tanto,
∫ ∞
fV −U (b) = f(U,V −U ) (a, b)da
−∞
{
λe−λb si b > 0
=
0 e.o.c.

Nótese que además, U y V − U son independientes.

Problema 2.5.E:

a) Sea W = max{X1 , X2 } − min{X1 , X2 }.


Por problema anterior, W ∼ exp(α) y por hipótesis del problema, X3 ∼ exp(α) y
además W , X3 son independientes.
Luego,
∫∫
P (W < X3 ) = fW (x)fX3 (y)dxdy con B = {(x, y) ∈ R2 : x < y}
∫B∫
= α2 e−αx e−αy dxdy
B∩R2+
∫ ∞ ∫ ∞
= (αe−αx αe−αy dy)dx
∫0 ∞ x
−αx −αx
= αe e dx
0
∫ ∞
1
= 2αe−2αx dx
2 0
1
= .
2

b) De Problema 2.4.F, min{X1 , X2 } ∼ exp(2α) y por hipótesis min{X1 , X2 } y X3


son variables aleatorias independientes. Ası́, Ejemplo 2.5.2 implica que la variable

- 470 -
Soluciones a Problemas Propuestos

aleatoria T = min{X1 , X2 } + X3 tiene densidad


{ 2α2 −αt
α (e − e−2αt ) si t > 0
fT (t) =
0 e.o.c.
{
2α(e−αt − e−2αt ) si t > 0
=
0 e.o.c.

c) La probabilidad calculada en a) representa la probabilidad que la persona C quede


sola en la caseta. Además, la variable aleatoria T representa el tiempo total que la
persona C permanece en la caseta.

Problema 2.5.F:

a) Por las condiciones del problema,


{ 1
x2 y 2
si x ≥ 1, y ≥ 1
f(X,Y ) (x, y) =
0 e.o.c.

Si G0 = {(x, y) ∈ R2 : x ≥ 1, y ≥ 1}, G = {(u, v) ∈ R2 : u > v > 0, uv > 1}


y T : G0 → G, es definida por T (x, y) = (xy, xy ), entonces T es una biyección,
√ √u −1 en (u, v) ∈ G es −1 .
T −1 (u, v) = ( uv, v ) y el jacobiano de T 2v
Como (U, V ) = T (X, Y ) entonces, Teorema de transformación de variables aleatorias
implica que:
{ (√ √u) 1
f(X,Y ) u v, v 2v si u > v > 0, uv > 1
f(U,V ) (u, v) =
0 e.o.c.
{ 1
2u2 v
si u > v > 0, uv > 1
=
0 e.o.c.

b) La región sombreada del gráfico siguiente representa al conjunto G.

u=v

11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11
00 11111111111111
00000000000000
11111111111111
00000000000000
1
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000 uv = 1

11
0 u

Figura 2.5.A

- 471 -
Soluciones a Problemas Propuestos

Luego,  ∫ u
 1

 1 2u2 v dv si u > 1
fU (u) = u



0 e.o.c.
 1

 2 ln(u) si u > 1
= u


0 e.o.c.
y  ∫ ∞
 1

 du si 0 < v ≤ 1

 2u2 v

1


v
 ∫

fV (v) = 1

 du si v > 1

 2u 2v


v



0 e.o.c.



1
si 0 < v ≤ 1



 2


= 1

 si u > 1

 2v 2



 0 e.o.c.

En consecuencia, f(U,V ) (u, v) ̸= fU (u)fV (v), por lo que U y V no son independientes.

Problema 2.5.G:

a)
 ∫ y
∫ 

∞  120 x(y − x)(1 − y)dx si 0 < y < 1
fY (y) = f(X,Y ) (x, y)dx = 0
−∞ 


0 e.o.c.

 20 y 3 (1 − y) si 0<y<1
=

0 e.o.c.

o sea, Y ∼ Beta(4, 2).

b) Si Az = {(x, y) ∈ R2 : x ≤ zy}, entonces


∫∫ ∫∫
P (X ≤ zY ) = f(X,Y ) (x, y) dx dy = 120 x(y − x)(1 − y) dx dy.
Az Az ∩Rec(X,Y )

- 472 -
Soluciones a Problemas Propuestos

Pero, Rec(X, Y ) = {(x, y) ∈ R2 : 0 < x < y < 1} y 0 < z < 1, por lo que la región
sombreada de la figura siguiente representa al conjunto Az ∩ Rec(X, Y ).

y = (1/z)x y=x

11111111111
00000000000
11111111111
00000000000
1
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
1111111111111111111111111
0000000000000000000000000
11111111111
00000000000 z 1 x

Figura 2.5.B.

En consecuencia,
∫ 1( ∫ zy )
P (X ≤ zY ) = 120 (1 − y) x(y − x)dx dy
0 0
∫ 1 [( 2 ) ( )]
z z3 z2 4 z3 4
= 120 y − y3
3
− y − y dy
0 2 3 2 3

= 3z 2 − 2z 3 .

c) Sea z real, entonces observando el gráfico de la figura anterior vemos que


( )
F X (z) = P X
Y Y ≤z

∫∫
= f(X,Y ) (x, y)dx dy
Az ∩Rec(X,Y )
 ∫∫

 f(X,Y ) (x, y)dx dy si z > 1





Rec(X,Y )


 ∫∫
=

 f(X,Y ) (x, y)dx dy si z < 0



 ∅





3z 2 − 2z 3 si 0 ≤ z ≤ 1
luego, 
 1 si z > 1
F X (y) = 0 si z < 0
Y  2
3z − 2z 3 si 0 ≤ z ≤ 1

- 473 -
Soluciones a Problemas Propuestos

Además, F X es continua y derivable salvo posiblemente en los puntos z = 0 y z = 1,


Y
X
entonces una densidad para la variable aleatoria Y es
{
6z(1 − z) si 0 < z < 1
f X (z) =
Y 0 e.o.c.

o sea, X
Y ∼ Beta(2, 2).

d) Si G0 = {(x, y) ∈ R2 : 0 < x < y < 1}, G = {(a, b) ∈ R2 : 0 < ab < b < 1} =


]0, 1[×]0, 1[ , entonces la función g : G0 → G definida por g(x, y) = ( xy , y) es una
biyección, g −1 (a, b) = (ab, b) y el jacobiano de g −1 en (a, b) ∈ G es b.
Como ( X Y , Y ) = g(X, Y ), entonces Teorema de transformación de variables aleato-
rias implica que
{
bf(X,Y ) (a b, b) si 0 < a b < b < 1
f( X ,Y ) (a, b) =
Y 0 e.o.c.
{
120 b a b (b − a b)(1 − b) si 0 < a b < b < 1
=
0 e.o.c.
{
6 a (1 − a) 20 b3 (1 − b) si 0 < a < 1, 0 < b < 1
=
0 e.o.c

= f X (a) fY (b).
Y

X
Por lo tanto, Y e Y son independientes.

Problema 2.5.H: Como (X, Y ) es normal bivariado, entonces existen Z1 , Z2 variables


aleatorias iid N (0, 1) tales que

(X, Y ) = (Z1 , Z2 )A + (µ1 , µ2 ), con A ∈ M2 (R).

Pero, µ1 = µ2 = 0 y
 
( ) 1 ρ
1 ρ
At A = , de donde A= √

ρ 1
0 1 − ρ2
( ( ))
para encontrar la matriz A puede diagonalizar la matriz ρ1 ρ1 .
Luego, √
X = Z1 y Y = ρZ1 + 1 − ρ2 Z2 ,
o sea

P (X ≥ 0, Y ≥ 0) =P (Z1 ≥ 0, ρZ1 + 1 − ρ2 Z2 ≥ 0)

- 474 -
Soluciones a Problemas Propuestos
( )
=P Z1 ≥ 0, Z2 ≥ − √ ρ
Z1
1−ρ2
∫∫
1 − 1 (x2 +y2 )
= e 2 dxdy,

B

con { }
B= (x, y) ∈ R : x ≥ 0,
2
y≥ −√ ρ 2 x .
1−ρ

El conjunto B se expresa en coordenadas polares en la siguiente forma:


{ }
B = (r cos(θ), r sen(θ)); r > 0, −Arcsen(ρ) < θ < π2 .

La región sombreada de la figura siguiente representa al conjunto B en coordenadas carte-


sianas.
y

1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
- ρ
y = ________ x
0000000000000
1111111111111
0000000000000
1- ρ 2
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
11111111111111111111111111
00000000000000000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000 x
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
Figura 2.5.C. Región sombreada representa B, cuando 0 < ρ < 1.

También, las regiones indicadas en las Figuras 2.5.D y 2.5.E representan al conjunto B
pero, en coordenadas polares.

θ = π /2

θ = -Arcsen ( ρ )

Figura 2.5.D. Región que representa a B en coordenadas polares, cuando −1 < ρ < 0.

- 475 -
Soluciones a Problemas Propuestos

θ = π /2

θ = -Arcsen( ρ )

Figura 2.5.E. Región que representa a B en coordenadas polares, cuando 0 < ρ < 1.

Nótese que la relación r sen(θ) = − √ ρ r cos(θ), implica que


1−ρ2

ρ2
sen2 θ = cos2 (θ) (sen(θ) y cos(θ) deben tener signos opuestos)
1 − ρ2
ρ2
= (1 − sen2 (θ)),
1 − ρ2
o sea sen2 θ = ρ2 , de donde θ = −Arcsen(ρ).
Por lo tanto,
∫∫ ∫ ∞ (∫ π )
1 − 1 (x2 +y2 ) 1 2
e− 2 r rdθ dr
1 2
e 2 dxdy =
2π 2π 0 −Arcsen(ρ)
B

1 (π )∫ ∞ 1 2
= + Arcsen(ρ) e− 2 r rdr
2π 2 0

1 1
= + Arcsen(ρ),
4 2π
o sea
1 1
P (X ≥ 0, Y ≥ 0) =
+ Arcsen (ρ).
4 2π
( )
Observación: Si X, Y fuesen independientes, entonces ρ1 ρ1 serı́a matriz diagonal, es
decir, ρ = 0, de donde
1 1 1
P (X ≥ 0 , Y ≥ 0) = + Arcsen (0) = ,
4 2π 4
lo cual coincide con
1 1
P (X ≥ 0 , Y ≥ 0) = P (X ≥ 0)P (Y ≥ 0) = · = 0.25.
2 2

- 476 -
Soluciones a Problemas Propuestos

Problema 2.5.I:
( )( )
a11 a12 x − µ1
Q(x, y) = (x − µ1 y − µ2 ) .
a21 a22 y − µ2
Como Q(x, y) = ϕ((x, y), (x, y)) donde ϕ es forma bilineal simétrica, entonces (µ1 , µ2 )
minimiza a Q. Pero,
∂Q ∂Q
= 2x − y − 3 y = 4y − x − 2,
∂x ∂y
luego el sistema
∂Q
∂x = 0

∂Q
∂y = 0

tiene única solución en el punto (2, 1), que resulta ser un mı́nimo. Es decir, µ1 = 2 y
µ2 = 1.
( )−1
∑ a11 a12
Ahora encontremos la matriz = .
a21 a22
Sean u = x − 2, v = y − 1 o sea, x = u + 2, y = v + 1. Entonces,

Q(x, y) = u2 + 2v 2 − uv
( )( )
1 −1/2 u
= (u v)
−1/2 2 v
( )( )
1 −1/2 x−2
= (x − 2 y − 1) ,
−1/2 2 y−1
por tanto
∑ ( )−1 ( ) ( )
1 − 21 1 2 1
2
8
7
2
7
= = = .
− 12 2 7
4
1
2 1 2
7
4
7
En consecuencia,
[ ( )( )]
1 1 1 − 21 x−2
f(X,Y ) (x, y) = √ exp − 12 (x − 2 y − 1) .
2π 4 − 12 2 y−1
7

b)

∫ ∞
fX (x) = f(X,Y ) (x, y)dy
−∞
∫ ∞
1 1
· √ e− 2 x + 2 x−2 e−y
1 2 3 2 + x y+y
= 2 dy
2π 4 −∞
7

- 477 -
Soluciones a Problemas Propuestos
∫ ∞
1 1
· √ e− 2 x + 2 x−2 e 4 ( 2 +1) e−(y− 2 ( 2 +1)) dy
1 2 3 1 x 2 1 x 2
=
2π 7 −∞
4
∫ ∞
1 1 ( (x ))
· √ e− 16 x + 4 x− 4 e−a da
7 2 7 7 2
= a=y− 1
2 2 +1
2π 7 −∞
4
{ ( )2 }
1
√ √ 8 exp − 2 √8/7
1 x−2
= .
2π 7
( )
Por lo tanto, X ∼ N 2, 78 .

Problema 2.5.J:

a) Como (X, Y, Z) ∼ N (µ, Σ), entonces, para todo (x, y, z) ∈ R3 ,

1 1 { }
f(X,Y,Z) (x, y, z) = √ √ exp − 12 (x y z)Σ−1 (x y z)t .
( 2π)3 det Σ

Sea g : R3 → R3 definida por


 
0 1 1
g(a, b, c) = ( a b c ) 1 0 1
1 1 0
= (b + c, a + c, a + b).
(0 1 1)
Entonces, g es transformación lineal biyectiva, pues la matriz A = 101 tiene
110
determinante no nulo. Además, para todo (a, b, c) ∈ R3 ,

g −1 (a, b, c) = ( a b c )A−1
 
−0.5 0.5 0.5
= ( a b c )  0.5 −0.5 0.5 
0.5 0.5 −0.5

y el jacobiano de g −1 en (a, b, c) es 0.5 (corresponde al determinante de la matriz


A−1 ).
También, (U, V, W ) = g(X, Y, Z), por lo que Teorema de transformación de variables
aleatorias implica que, para todo (a, b, c) ∈ R3 ,

1 1 1 { }
f(U,V,W ) (a, b, c) = √ √ exp − 21 g −1 (a, b, c) Σ−1 g −1 (a, b, c)t
( 2π)3 1 2
4

1 { }
= √ exp − 21 (a, b, c) A−1 Σ−1 ((a b c) A−1 )t
( 2π)3

- 478 -
Soluciones a Problemas Propuestos

1
= √ exp{− 12 (a b c) A−1 Σ−1 (A−1 )t (a b c)t }
( 2π)3

1 { (1 0 0 ) }
= √ exp − 12 (a b c) 0 5 −3 (a b c)t
( 2π)3 0 −3 2
{ ( 1 0 0 )−1 }
1 1
= √ √ exp − 2 (a b c) 0 2 3
1 t
(a b c) .
( 2π)3 1 035

Por lo tanto, ( ( 1 0 0 ))
(U, V, W ) ∼ N (0, 0, 0), 0 2 3 .
035

b) Nótese que
1 { }
f(U,V,W ) (a, b, c) = √ exp − 12 (a2 + 5b2 − 6bc + 2c2 )
( 2π) 3

( )( )
1 { 1 2} 1 { 1 }
= √ exp − 2 a √ 2 exp − 2 (5b − 6bc + 2c )
2 2
2π 2π
( )( { }
)
1 { 1 2} 1 −1
= √ exp − 2 a √ 2 exp − 2 (b c) ( 3 5 ) (b c)
1 2 3 t
.
2π 2π

Es decir,
U ∼ N (0, 1) y (V, W ) ∼ N ((0, 0), ( 23 35 ))
y también U con (V, W ) son independientes.

Problema 2.5.K:

a) Sean G0 = Rn y G = Rn . Entonces, la función T : G0 −→ G definida por


T (x1 , x2 , . . . , xn ) = (x1 x2 . . . xn )A + (µ1 µ2 . . . µn ) es una transformación biyec-
tiva (pues A es invertible), T −1 (y1 , . . . , yn ) = ((y1 y2 . . . yn ) − (µ1 µ2 . . . µn ))A−1 y
el jacobiano de T −1 en todo punto (y1 , . . . , yn ) es det A−1 .
Además, como (Y1 , . . . , Yn ) = T (X1 , . . . , Xn ), entonces Teorema de transformación
de variables aleatorias implica que

f(Y1 ,...,Yn ) (y1 , . . . , yn ) = f(X1 ,...,Xn ) (T −1 (y1 , . . . , yn ))|detA−1 |, (y1 , . . . , yn ) ∈ Rn .

Por otra parte,

f(X1 ,...,Xn ) (x1 , . . . , xn ) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn )

1 { } 1 { } 1 { }
= √ exp − 21 x21 √ exp − 21 x22 · · · √ exp − 21 x2n
2π 2π 2π
( )n { }
1 ∑n
= √ exp − 12 x2i ,
2π i=1

- 479 -
Soluciones a Problemas Propuestos


n
x2i = (x1 . . . xn )(x1 . . . xn )t
i=1
= ((y1 . . . yn ) − (µ1 . . . µn ))A−1 (A−1 )t ((y1 . . . yn ) − (µ1 . . . µn ))t

= (y1 . . . yn ) − (µ1 . . . µn )(At A)−1 ((y1 . . . yn ) − (µ1 . . . µn ))t

= (y − µ)Σ−1 (y − µ)t

y
1
|det A−1 | =
|det A|

1
= √
(det A)2

1
= √
det (At A)

1
= √ .
det Σ

Por lo tanto,
( )n
1 1 { }
f(Y1 ,...,Yn ) (y1 , . . . , yn ) = √ √ exp − 12 (y − µ)Σ−1 (y − µ)t , y ∈ Rn .
2π det Σ

b) En este caso, como


 
σ12 0 0 ... 0
 0 σ22 0 ... 0 
 
 0 0 σ32 ... 0 
Σ = At A =  
 .. .. .. .. .. 
 . . . . . 
0 0 0 . . . σn2

entonces, det Σ = σ12 σ22 · · · σn2 y también


 
1
0 0 ... 0
 σ12 
 
 1 
 0 0 ... 0 
 σ22 
 
Σ−1 = (At A)−1 =
 0 0
1
... 0 

 σ32 
 . .. .. .. 
 .. .. 
 . . . . 
 1 
0 0 0 ...
σn2

- 480 -
Soluciones a Problemas Propuestos

Además,

n
1
(y − µ)Σ−1 (y − µ)t = (yi − µi )2
i=1
σi2

n (
∑ )
yi − µ i 2
= ,
σi
i=1

luego
{ n (
}
1 ∑ )2
yi −µi
f(Y1 ,...,Yn ) (y1 , . . . , yn ) = √ exp − 2
1
σi
2π σ1 σ2 · · · σn i=1
{ ( )2 }
1
= √ exp − 12 y1σ−µ
1
1

2πσ1
{ ( )2 }
1
··· √ exp − 21 ynσ−µn
n
.
2πσn

Por tanto, Y1 , . . . , Yn son independientes y además, Yj ∼ N (µj , σj2 ).

Problema 2.5.L: Como Y ∼ χ2 (n), entonces



 1
y 2 −1 e− 2 y
n 1
n si y > 0
fY (y) = Γ( n2 )2 2

0 e.o.c.

y como X, Y son independientes,



 √1 e− 12 x2 1 n
n y2
−1 − 21 y
e si y > 0, x ∈ R
n
f(X,Y ) (x, y) = fX (x)fY (y) = 2π Γ( 2 ) 2 2

0 e.o.c.

Sean G0 = {(x, y) ∈ R2 √: y > 0} y G = R × R+ . Entonces la √


función T : G0 → G,
nx −1 a b
definida por T (x, y) = ( √y , y), es una biyección, T (a, b) = ( √n , b) y el jacobiano de

T −1 en (a, b) ∈ G es √nb .
Además, (Z, Y ) = T (X, Y ), de donde Teorema de transformación de variables implica que

 ( √ ) √b
f(X,Y ) a √nb , b √ si b > 0, a ∈ R
f(Z,Y ) (a, b) = n

0 e.o.c.

 ( 1 ) √b
 √1 e− 12 an2 b 1 n
−1
e− 2 b √ si b > 0, a ∈ R
(n) n b 2
= 2π Γ 2 2 n

 0 2
e.o.c.

- 481 -
Soluciones a Problemas Propuestos

luego,

∫ ∞
fZ (a) = f(Z,Y ) (a, b)db
−∞
∫ ∞ ( 2 ) ( )
1 1 1 − 2n
a
+ 12 b
b 2 − 2 db
n 1
= √ ·√ · n e
nπ Γ( n2 ) 2 22 0
∫ ∞ [ ( 2 ) ]
1 1 1
e−u u 2 − 2 du
n 1
= √ ( )· n 1 ·( )n+1
a
u = 2n + 21 b
nπ Γ n2 +
22 2 a2 1 2 2 0
2n + 2
n 1 ( )
1 1 2 2 +2 n 1
= √ (n) · n 1 · ( )n+1 Γ +
nπ Γ 2 2 2 +2 a2 2 2 2 2
+1 n
( n+1 )
Γ 2
= ) n+1 .
√ ( n ) ( a2 2
nπ Γ 2 n +1

O sea, Z ∼ t(n).

Problema 2.5.M:

a) Como X, Y son independientes,

{
λa a−1 −λx λb
Γ(a) x e Γ(b) y b−1 e−λy si x > 0, y > 0
f(X,Y ) (x, y) = fX (x)fY (y) =
0 e.o.c.

Consideremos G0 = R+ × R+ y G = R+ × R+ . Entonces la función T : G0 → G,


bx
definida por T (x, y) = ( ay , y), es una biyección, T −1 (u, v) = ( ab u v, v) y el jacobiano
de T −1 en (u, v) ∈ G es ab v.

Pero, (F, Y ) = T (X, Y ), entonces Teorema de transformación de variables aleatorias


implica que

{
f(X,Y ) ( ab u v, v) ab v si u > 0, v > 0
f(F,Y ) (u, v) =
0 e.o.c.
{
λa λb a a−1 e−λ ab uv v b−1 e−λv ( ab v)
Γ(a) Γ(b) ( b uv) si u > 0, v > 0
=
0 e.o.c.

- 482 -
Soluciones a Problemas Propuestos

luego,

 ∫
0 si u ≤ 0

fF (u) =
 f(F,Y ) (u, v)dv si u > 0
−∞

 0 ∫ si u ≤ 0

= λa λb −(λ ab u+λ)v
 a a a−1
Γ(a) Γ(b) ( b ) u e v a+b−1 dv si u > 0
0
{
0 si u ≤ 0
= λa λb a a a−1 1
Γ(a) Γ(b) ( b ) u (λ ( ab u+1))a+b
Γ(a + b) si u > 0
{
0 si u ≤ 0
= Γ(a+b) ua−1
Γ(a) Γ(b) ( ab )a ( a u+1)a+b si u > 0
b

b) Como X ∼ G( n2 , 12 ) e Y ∼ G( m 1
2 , 2 ), entonces, reemplazando el valor a por
n
2 yb
por m
2 , se tiene que
m X
2X n
F = n = Y
,
2Y m
o sea, la densidad de F en este caso es

 0 si u ≤ 0
n
fF (u) = Γ( n+m ) n n u 2 −1
 Γ( n2 ) Γ(
2
m (
) m)
2
n
n+m si u > 0
2 (m u+1) 2

X/n
Por lo tanto, la variable aleatoria Y /m tiene distribución F (Fisher-Snedecor) de
parámetros (n, m), se anota
X
n
Y
∼ F (n, m).
m

Nota: En el caso en que U ∼ N (0, 1) e Y ∼ χ2 (m), Problema 2.5.M implica que


Z = √UY tiene distribución t-student con m grados de libertad.
m
X
Ahora, si consideramos X = U 2 , entonces X ∼ χ2 (1) y luego parte b) implica que Z 2 = 1
Y
m
tiene distribución F (1, m), es decir, el cuadrado de una variable aleatoria con distribución
t-student y m grados de libertad tiene distribución F de parámetros (1, m).

Problema 2.5.N: Sean Xi = Ziσ−µ , i = 1, . . . , n. Entonces X1 , . . . , Xn son variables


aleatorias iid N (0, 1).
Sea A la matriz real de orden n × n definida por
 1 
√ a12 . . . a1n
n
 √1 a 
 n 22 . . . a2n 
A= .. .. .. .. 
,
 . . . . 
√1 an2 . . . ann
n

- 483 -
Soluciones a Problemas Propuestos

donde los valores aij se obtienen mediante el método de ortonormalización de Gran-


Schmidt. Es decir, A es una matriz ortogonal, esto es, At A = In . Consideremos el
vector aleatorio
(Y1 Y2 . . . Yn )1×n = (X1 X2 . . . Xn )1×n An×n .
Problema 2.5.K implica que las variables aleatorias Y1 , . . . , Yn son independientes y N (0, 1),
por lo que Ejemplo 2.2.9 implica que Y12 , . . . , Yn2 son iid χ2(1) .
Por otra parte,

n
Xi2 = (X1 X2 . . . Xn )(X1 X2 . . . Xn )t
i=1
= (Y1 Y2 . . . Yn )A−1 ((Y1 Y2 . . . Yn )A−1 )t

= (Y1 Y2 . . . Yn )A−1 (A−1 )t (Y1 Y2 . . . Yn )t

= (Y1 Y2 . . . Yn )(At A)−1 (Y1 Y2 . . . Yn )t

= (Y1 Y2 . . . Yn )In−1 (Y1 Y2 . . . Yn )t


∑n
= Yi2
i=1
y  
√1
n
  √1
 
= (X1 X2 . . . Xn )  . 
 n
Y1 
.
 . 
√1
n
1 1 1
= √ X1 + √ X2 + · · · + √ Xn
n n n

1
= √ (X1 + · · · + Xn )
n

1
= √ n X̄,
n
de donde
Y12 = n X̄ 2 .
Ası́, ( )

n ∑
n ∑
n
(Xi − X̄)2 = Xi2 − 2X̄ Xi + nX̄ 2
i=1 i=1 i=1
( )

n
= Xi2 − nX̄ 2
i=1
( )

n
= Yi2 − nX̄ 2
i=1

- 484 -
Soluciones a Problemas Propuestos
( )

n
= Yi2 − Y12
i=1
( )

n
= Yi2 ,
i=2
y por tanto
(n − 1) 1 ∑
n
(n − 1)S 2
= (Zi − Z̄)2
σ2 σ2 n − 1
i=1
 2
1 ∑
n ∑
n
= σXi + µ − 1 (σXj + µ)
σ2 n
i=1 j=1
 2
1 ∑
n ∑
n
= σXi + µ − σ 1 1
Xj − nµ
σ 2 n n
i=1 j=1


n
= (Xi − X̄)2
i=1


n
= Yi2 .
i=2

Finalmente, como Y2 , Y3 , . . . , Yn son iid χ2(1) , entonces (ver próxima sección),



n
Yi2 ∼ χ2(n−1) .
i=2

( 2
)
Problema 2.5.O: Como Xi ∼ N (µ, σ 2 ), i = 1, . . . , r, entonces X̄ ∼ N µ, σr . Ası́,

X̄ − µ
U= σ ∼ N (0, 1).

r
2
Además Problema 2.5.N implica que V = (r−1)S σ2
∼ χ2(r−1) . También, de la indepen-
dencia entre la media y varianza muestral (ver problema 2.6.N), se deduce que U y V son
independientes.

Aplicando Problema 2.5.L a U y V se concluye que


U
√ ∼ t(r−1) .
V
r−1

Pero,
X̄−µ
U σ
√ X̄ − µ
√ =√
r
= S
,
V S2 √
r−1 σ2 r

- 485 -
Soluciones a Problemas Propuestos

lo que concluye la demostración.

Problema 2.5.P: De Problema 2.5.N,

(n − 1)SX
2 (m − 1)SY2
2 ∼ χ2(n−1) y ∼ χ2(m−1) .
σX σY2

Entonces, usando el Problema 2.5.M se concluye que

(n − 1)SX
2

σX2

n−1 ∼ F (n, m).


(m − 1)SY2
σY2
m−1
2
SX
2 = σ 2 , entonces
Ası́, si σX Y ∼ F (n, m).
SY2

Problema 2.5.Q: Notar que (X1 , X2 ) = (Y1 , Y2 )B + (µ1 , µ2 ), con


( )
σ1 √ ρσ2
B= .
0 1 − ρ2 σ 2

Ası́,
(Y1 , Y2 ) = (X1 , X2 )B −1 − (µ1 , µ2 )B −1 .
Pero, (X1 , X2 ) ∼ N (µ, Σ), por lo cual
( )
(Y1 , Y2 ) ∼ N µB −1 − µB −1 , (B −1 )t ΣB −1 .

Como
( )(  
1 ) 1 √ −ρ
0 σ12 ρσ1 σ2  σ1 1−ρ2 σ1 
(B −1 )t ΣB −1 =
σ1
√ −ρ √ 1
ρσ1 σ2 σ22 0 √ 1
1−ρ2 σ1 1−ρ2 σ2 1−ρ2 σ2
( )
1 0
= ,
0 1

entonces
(Y1 , Y2 ) ∼ N ((0, 0), ( 10 01 )).

Problema 2.5.R: Primeramente,

E(Z2 − Z1 ) = E(Z2 ) − E(Z1 ) = m0 − m0 = 0


y

- 486 -
Soluciones a Problemas Propuestos

V ar(Z2 − Z1 ) = V ar(Z1 ) + V ar(Z2 ) = 2σ 2 .

Por lo tanto, ( )
1 1
E (Z2 − Z1 )2 = · 2σ 2 = σ 2 .
2 2

Además, para σ = 0.01, la variable aleatoria Z2 −Z1 , tiene distribución N (0, 2(0.01)2 ),
o sea
Z2 − Z1
√ ∼ N (0, 1),
0.01 · 2
de donde
( )
1
2
P (T > (0.01) ) = P (Z2 − Z1 ) > (0.01)
2 2
2

(( )2 )
Z2 − Z1
=P √ >1
0.01 2

( )
Z2 − Z1
= P √ >1
0.01 2

= 2(1 − ϕ(1))

= 0.3174.

SECCIÓN 2.6

Problema 2.6.A:

V (X)V (Y ) = (E(X 2 ) − (E(X))2 )(E(Y 2 ) − (E(Y )2 ))


= E(X 2 )E(Y 2 ) − E(X 2 )(E(Y ))2 − (E(X))2 E(Y 2 ) + (E(X)E(Y ))2 ,

además,

(E(X))2 V (Y ) = (E(X))2 (E(Y 2 ) − (E(Y ))2 )


= (E(X))2 E(Y 2 ) − (E(X)E(Y ))2 ,

(E(Y ))2 V (X) = (E(Y ))2 (E(X 2 ) − (E(X))2 )


= (E(Y ))2 E(X 2 ) − (E(X)E(Y ))2 .

- 487 -
Soluciones a Problemas Propuestos

En consecuencia,

V (X)V (Y ) + (E(X))2 V (Y ) + (E(Y ))2 V (X) = E(X 2 )E(Y 2 ) − (E(X)E(Y ))2


= E((XY )2 ) − (E(XY ))2
= V (XY ).

Problema 2.6.B:

1∑
n
1
a) E(X̄n ) = E(Xi ) = n µ = µ,
n n
i=1
además, como X1 , . . . , Xn son independientes

1 ∑
n
1 2 σ2
V (X̄n ) = V (Xi ) = n σ = .
n2 n2 n
i=1

b) Para cada 1 ≤ i ≤ n, considérese la variable aleatoria Yi = (Xi − X̄n )2 . Como


Yi = Xi2 + X̄n2 − 2Xi X̄n , entonces
( n )
∑n ∑ ∑
n
(n − 1)Sn2 = Yi = X12 + n X̄n2 − 2X̄n Xi
i=1 i=1 i=1
( )
∑n
= Xi2 + n X̄n2 − 2n X̄n2
i=1
( )

n
= Xi2 − n X̄n2 .
i=1

Pero, para todo 1 ≤ i ≤ n,

E(Xi2 ) = V (Xi ) + (E(Xi ))2 = σ 2 + µ2 ,

de donde ( )

n
E Xi2 = n(σ 2 + µ2 ).
i=1

También,
σ2
E(X̄n2 ) = V (X̄n ) + (E(X̄n ))2 = + µ2 ,
n
por lo tanto,
( )
σ2
E((n − 1)Sn2 ) = n(σ + µ ) − n
2 2
+ µ2 = (n − 1)σ 2 ,
n
o sea,
E(Sn2 ) = σ 2 .

- 488 -
Soluciones a Problemas Propuestos

Problema 2.6.C:
( n )
1∑
n
1∑
a) E(Y2 ) = E n Xi = E(Xi ).
i=1 n
i=1

Además, Xi ∼ U (0, a), por lo que, para todo i ∈ {1, . . . , n}, E(Xi ) = a2 .
Por lo tanto,
1∑a
n
a
E(Y2 ) = = .
n 2 2
i=1
Para encontrar E(Y1 ), primeramente encontremos la distribución de Y1 .
Como Rec Y1 = [0, a], entonces
{
0 si y ≤ 0
FY1 (y) =
1 si y ≥ a
Ahora, si 0 < y < a,
FY1 (y) = P (max{X1 , . . . , Xn } ≤ y) = P (X1 ≤ y, . . . , Xn ≤ y).
Pero, X1 , . . . , Xn son iid, por lo que

n
P (X1 ≤ y, . . . , Xn ≤ y) = P (Xi ≤ y)
i=1
= (P (X1 ≤ y))n
(∫ y )n
1
= du
a
( y 0)n
= ,
a
es decir, 
 0( ) si y ≤ 0
y n
FY1 (y) = si 0 < y < a
 a
1 si y ≥ a
Podemos observar que FY1 es continua y derivable, salvo posiblemente en y = 0;
y = a, por lo que una densidad para Y1 es
{ d
fY1 (y) = dy FY1 (y) si la derivada existe
0 e.o.c.
{ n n−1
= an y si 0 < y < a
0 e.o.c.
En consecuencia,
∫ ∞
E(Y1 ) = yfY1 (y)dy
−∞
∫ a
n n−1
= y y dy
0 an
n
= a.
n+1

- 489 -
Soluciones a Problemas Propuestos

b) E(λ1 Y1 ) = E(λ2 Y2 ) = a si λ1 = n+1


n , λ2 = 2.
( n )
2∑
c) Var(λ2 Y2 ) = Var n Xi
i=1

4 ∑
n
= Var(Xi ), ya que X1 , . . . , Xn son independientes.
n2
i=1
a2
Pero para todo i ∈ {1, . . . , n}Xi ∼ U (0, a), luego Var(Xi ) = 12 .
O sea,

4 a2
Var(λ2 Y2 ) = 2
·n·
n 12
1 2
= a .
3n
También,
∫ ∞
E(Y12 ) = y 2 fY1 (y)dy
−∞
∫ a
n n−1
= y2 y dy
0 an
n
= a2 ,
n+2
de donde,
( n+1 )
Var(λ1 Y1 ) = Var n Y1
(n + 1)2
= Var(Y1 )
n2
(n + 1)2
= (E(Y12 ) − (E(Y1 ))2 )
n2 ( ( )2 )
(n + 1)2 n n
= a −
2
a
n2 n+2 n+1
( )
(n + 1)2 n n2
= − a2
n2 n + 2 (n + 1)2
1
= a2 .
n(n + 2)

Finalmente, debido a que n2 − n = n (n − 1) > 0, resulta n (n + 2) > 3n, por lo que


1 1 2
a2 < a ,
n(n + 2) 3n

es decir,
Var(λ1 Y1 ) < Var(λ2 Y2 ).

- 490 -
Soluciones a Problemas Propuestos

Problema 2.6.D: El tamaño promedio de los cobros observados (se obtiene realizando el
producto entre el punto medio del intervalo con su respectiva frecuencia relativa, y luego
sumando sobre todos los intervalos o unidades) es

tamaño medio de los cobros observados = 200 · 2


100 + 600 · 24
100 + 1000 · 32
100 + 1400 · 21
100

+1800 · 10
100 · +2200 · 6
200 + 2600 · 3
100

+3000 · 1
100 + 3400 · 1
100

= 1216,

y la varianza de la distribución del tamaño de los cobros observados es

varianza de los cobros observados = 2002 · 2


100 + 6002 · 24
100 + 10002 · 32
100 + 14002 · 21
100

+18002 · 10
100 + 22002 · 6
200 + 26002 · 3
100 + 30002 · 1
100

+34002 · 1
100 − (1216)2

= 362944.

Por otra parte, si X es variable aleatoria con distribución log-normal de parámetros (µ, σ 2 ),
entonces ln X ∼ N (µ, σ 2 ) y después de calcular algunas integrales, se obtiene que
( 2
)
E(X) = exp µ + σ2 , Var(X) = exp(2µ + σ 2 ) [exp(σ 2 ) − 1].

Si X representa el tamaño de un cobro particular, entonces por las hipótesis del problema,
X ∼ LN (µ, σ 2 ). ¿Cómo estimar µ y σ 2 ?
Una forma de estimar µ y σ, es resolver el sistema
( 2
)
1216 = exp µ + σ2 ,

362944 = exp(2µ + σ 2 )[exp(σ 2 ) − 1].

Esta forma de estimar es conocida como estimación por momentos.


Elevando al cuadrado la primera de estas ecuaciones y dividiendo la segunda por este
cuadrado obtenemos
exp(σ 2 ) − 1 = 0.2455,
de donde
σ = 0.469,
y luego
µ = 6.993.

- 491 -
Soluciones a Problemas Propuestos

Ası́, la probabilidad de que un cobro en particular sea mayor que 1600 es igual a

P (X > 1600) = P (ln X > ln 1600)


= P (ln X > 7.3778)
( )
= P ln X−6.993
0.469 > 7.3778−6.993
0.469
= 1 − Φ(0.82)
= 0.2061.

Entonces, según el modelo propuesto, el número de cobros (de los 100 observados) con
tamaño mayor que 1600 es 100 · 0.2061 = 20, 61. Mientras, según lo observado, el número
de cobros con tamaño mayor que 1600 son 10 + 6 + 3 + 1 + 1 = 21.

Problema 2.6.E:

( )
1 ∑
100
E(T ) =E (Xi + Yi )
100
i=1

1 ∑
100
= E(Xi + Yi )
100
i=1

1 ∑
100
= E(Xi ) + E(Yi )
100
i=1
1
= 100 (0.5 + 0.4)
100
=0.9,

y por la independencia de X1 + Y1 , . . . , Xn + Yn (lo cual resulta de la independencia de


(X1 , Y1 ), . . . , (Xn , Yn )),
( )

100
1
Var(T ) = Var 100 (Xi + Yi )
i=1

1 ∑
100
= Var(Xi + Yi )
1002
i=1
1
= 100 Var(Xi + Yi )
1002
1
= Var(Xi + Yi ).
100
Pero,

Var(Xi + Yi ) = Var(Xi ) + Var(Yi ) + 2 Cov(Xi , Yi )


=0.05 + 0.05 + 2 · 0.03
=0.16,

- 492 -
Soluciones a Problemas Propuestos

entonces
0.16
Var(T ) = .
100

Problema 2.6.F: Para (x, y) ∈ R2 se definen las variables aleatorias U = IX≤x y


V = IY ≤y , es decir,
{ {
1 si X ≤ x 1 si Y ≤ y
U= V =
0 si X > x 0 si Y > y

Entonces,

E(U ) = 0 P (U = 0) + 1 P (U = 1)
= P (U = 1)
= P (X ≤ x)
= FX (x).

Análogamente,
E(V ) = FY (y).
Nótese además que
E(U 2 ) = E(U ) = FX (x)
y
E(V 2 ) = E(V ) = FY (y).

Entonces, la desigualdad de Cauchy aplicada al producto interno ⟨U, V ⟩ = E(U V ),


implica que
⟨U, V ⟩ ≤ ∥U ∥ ∥V ∥.
Pero, √ √
∥U ∥ = E(U 2 ) = FX (x)
y √ √
∥V ∥ = E(V 2 ) = FY (y),
en consecuencia

E(U V ) = ⟨U, V ⟩
= E(I(X≤x) I(Y ≤y) )
= E(I(X≤x,Y ≤y) )
= P (X ≤ x, Y ≤ y)
= F(X,Y ) (x, y),

lo que concluye la demostración.

- 493 -
Soluciones a Problemas Propuestos

Problema 2.6.G:

a) Como Yi = IAi , con Ai = (Xi = i), entonces


1
E(Yi ) = P (Xi = i) =
n
y

E(Y1 Y2 ) = E(IA1 IA2 )


= E(IA1 ∩A2 )
= P (A1 ∩ A2 )
1
= .
n(n − 1)

b)
1
E(T ) = n · =1
n
y

n ∑
n
V (T ) = V (Yi ) + 2 Cov(Yi , Yj ).
i=1 i<j

Además,

V (Yi ) = E(Yi2 ) − (E(Yi ))2


( )2
1
= E(Yi ) −
n
( )2
1 1
= −
n n
( )
1 1
= 1−
n n
n−1
= ,
n2

luego

n
(n − 1) n−1
V (Yi ) = n · 2
= .
n n
i=1

También, si i ̸= j,

Cov(Yi , Yj ) = E(Yi Yj ) − E(Yi ) E(Yj )


1 1
= P (Ai ∩ Aj ) − ·
n n
1 1
= −
n(n − 1) n2
1
= .
n2 (n − 1)

- 494 -
Soluciones a Problemas Propuestos

En consecuencia,

n−1 n(n − 1) 1
V (T ) = +2· · 2 = 1.
n 2 n (n − 1)

Problema 2.6.H: Sumando sobre cada columna de la tabla, obtenemos que:


α β 10
pX (0) = 32 , pX (1) = 32 , pX (2) = 32 ,

10 5 1
pX (3) = 32 , pX (4) = 32 , pX (5) = 32 .

Sumando en la tabla anterior, sobre cada fila, obtenemos

α β + 10 15 1
pY (0) = , pY (1) = , pY (2) = , pY (3) = .
32 32 32 32
Luego,
α β 10 10 5 1 β + 75
E(X) = 0 · +1· +2· +3· +4· +5· = .
32 32 32 32 32 32 32
a) Por condición del problema, se tiene que E(X) = 52 , de donde β = 5.

Además, 5i=1 pX (i) = 1, por lo que α = 1. Ası́,

1 15 15 1 3
E(Y ) = 0 · +1· +2· +3· = ,
32 32 32 32 2
1 5 10 10 5 1 15
E(X 2 ) = 02 · + 12 · + 22 · + 32 · + 42 · + 52 · =
32 32 32 32 32 32 2
y
1 15 15 1 21
E(Y 2 ) = 02 · + 12 · + 22 · + 32 · = .
32 32 32 32 8
O sea,
( )
15 5 + 75 2 5
V (X) = − = ,
2 32 4
( )2
21 3 3
V (Y ) = − = .
8 2 8

Además,
5 4 6 3 6
E(XY ) = (1 · 1) + (2 · 1) + (2 · 2) + (3 · 1) + (3 · 2)
32 32 32 32 32
1 2 3 1
+(3 · 3) + (4 · 1) + (4 · 2) + (5 · 1)
32 32 32 32
= 4,

por lo que
5 3 1
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 4 − · = .
2 2 4

- 495 -
Soluciones a Problemas Propuestos

En conclusión,
1

Cov(X, Y ) 2
ρ(X, Y ) = √ √ = √ 4√ = √ .
V (X) V (Y ) 5 3 15
4 8

Problema 2.6.I:

a) E(4X cos2 Y ) = 40 (cos2 0)p(X,Y ) (0, 0) + 40 (cos2 π4 )p(X,Y ) (0, π4 )


1
+ 40 (cos2 π2 )p(X,Y ) (0, π2 ) + 4 2 (cos2 0)p(X,Y ) ( 12 , 0)
1 1
+ 4 2 (cos2 π4 )p(X,Y ) ( 12 , π4 ) + 4 2 (cos2 π2 )p(X,Y ) ( 21 , π2 )
= p(X,Y ) (0, 0) + 12 p(X,Y ) (0, π4 ) + 0p(X,Y ) (0, π2 )
+ 2p(X,Y ) ( 12 , 0) + 1p(X,Y ) ( 21 , π4 ) + 0p(X,Y ) ( 21 , π2 )
= 0.1 + 1
2 · 0.2 + 2 · 0.1
= 0.4.

b) Var(4X cos2 Y ) = E((4X cos2 Y )2 ) − E2 (4X cos2 Y )


y

E((4X cos2 Y )2 ) = 1 P (X = 0, Y = 0) + 14 P (X = 0, Y = π4 )
+0 P (X = 0, Y = π2 ) + 4 P (X = 21 , Y = 0)
( ) ( )
+1 P X = 12 , Y = π/4 + 0 P X = 12 , Y = π2
= 0.1 + 1
4 · 0.2 + 4 · 0.1
= 0.1 + 0.05 + 0.4
= 0.55.

Por lo tanto,

Var(4x cos2 y) = 0.55 − (0.4)2


= 0.39.

c) Debemos encontrar P (U = u, V = v), para (u, v) ∈ Rec(U, V ).


Nótese que, Rec(U, V ) = {(1, 1), (1, 21 ), (1, 0), (2, 1), (2, 12 ), (2, 0)}, y

P (U = 1, V = 1) = P (X = 0, Y = 0) = 0.1,
P (U = 1, V = 12 ) = P (X = 0, Y = π4 ) = 0.2,
P (U = 1, V = 0) = P (X = 0, Y = π2 ) = 0.6,
P (U = 2, V = 1) = P (X = 21 , Y = 0) = 0.1,
P (U = 2, V = 12 ) = P (X = 12 , Y = π4 ) = 0,
P (U = 2, V = 0) = P (X = 21 , Y = π2 ) = 0.

- 496 -
Soluciones a Problemas Propuestos

La siguiente tabla resume la cuantia conjunta del vector (U, V ).

U \V 0 1 1/2
1 0.6 0.1 0.2
2 0 0.1 0

d)

Cov(U, V ) = E(U V ) − E(U ) E(V )


= E(4X cos2 Y ) − E(4X ) E(cos2 Y ).

Como Rec X = {0 , 1/2}, entonces



E(4X ) = 4X P (X = x)
x∈Rec X

= 1 P (X = 0) + 2 P (X = 12 ).

Pero,

P (X = 0) = P (X = 0, Y = y)
y∈Rec Y
= P (X = 0, Y = 0) + P (X = 0, Y = π4 ) + P (X = 0, Y = π2 )
= 0.1 + 0.2 + 0.6
= 0.9

y
( ) ∑ ( )
P X = 21 = P X = 12 , Y = y
y∈Rec Y
( ) ( ) ( )
= P X = 12 , Y = 0 + P X = 12 , Y = π4 + P X = 12 , Y = π2
= 0.1 + 0 + 0
= 0.1.

Luego,

E(4X ) = 0.9 + 2 · 0.1


= 1.1.

También,

E(cos2 Y ) = (cos2 Y )P (Y = y)
y∈Rec Y

= 1 P (Y = 0) + 21 P (Y = π4 ) + 0 P (Y = π2 )

- 497 -
Soluciones a Problemas Propuestos

y

P (Y = 0) = P (X = x, Y = 0)
x∈Rec X
= P (X = 0, Y = 0) + P (X = 12 , Y = 0)
= 0.1 + 0.1
= 0.2,

P (Y = π4 ) = P (X = x, Y = π4 )
x∈Rec X
= P (X = 0, Y = π4 ) + P (X = 12 , Y = π4 )
= 0.2 + 0
= 0.2,
o sea
E(cos2 Y ) = 1 · 0.2 + 1
2 · 0.2 + 0
= 0.2 + 0.1
= 0.3.

Finalmente,
Cov(U, V ) = 0.4 − 1.1 · 0.3
= 0.4 − 0.33
= 0.07.

Problema 2.6.J:
a) Como E(Y1 ) = b1 y E(Y2 ) = b2 , entonces
E((Y1 − b1 )2 )) = E(a211 X12 ) = a211 ,

E((Y2 − b2 )2 )) = E(a221 X12 + a222 X22 + 2a21 a22 X1 X2 ) = a221 + a222


y
Cov(Y1 , Y2 ) = Cov(a11 X1 , a21 X1 ) = a11 a21 .

Por las condiciones del problema, resultan las relaciones


b1 = 4, b2 = 5, a211 = 4, a221 + a222 = 34, a11 a21 = 10,
de donde a21 = 5 y a22 = 3.
Por lo tanto, ( )
2 5
(Y1 , Y2 ) = (X1 , X2 ) + (4 , 5)
0 3
es decir,
(Y1 , Y2 ) ∼ N ((4, 5), ( 10
4 10 ) ).
34

- 498 -
Soluciones a Problemas Propuestos

Observación: Otra forma de obtener el resultado anterior es descomponer Σ en la forma


At A, es decir, encontrar A ∈ M2 (R) de modo que
( )
t 4 10
AA= .
10 34

La matriz A = ( 20 53 ), satisface la relación anterior.

b) ( ) ( )
E etY2 = E et(5X1 +3X2 +5)
( ) ( )
= e5t E e5tX1 E e3tX2 (X1 , X2 son independientes)
1 2 1 2
= e5t e 2 (5t) e 2 (3t)
1 2 +5t
= e 2 (34)t .

Observación: Por teorema de transformación de variables aleatorias se verifica también


que, para todo (y1 , y2 ) ∈ R2 ,
( )2 { }
4 10 )−1 (y − 4
f(Y1 ,Y2 ) (y1 , y2 ) = √12π √136 exp − 21 [(y1 − 4 y2 − 5) ( 10 y − 5) ′
] .
34 1 2

Problema 2.6.K:

a) Véase Problema 2.6.S.


b) De la definición de Yi y Yj , se tiene que

(Yi − µi )(Yj − µj ) = (a1i X1 + a2i X2 + · · · + ani Xn )(a1j X1 + a2j X2 + · · · + anj Xn )


∑n ∑ n
= aki arj Xk Xr ,
k=1 r=1

luego

Cov(Yi , Yj ) = E((Yi − E(Yi ))(Yj − E(Yj )))


= E((Yi − µi )(Yj − µj ))
∑n ∑n
= aki arj E(Xk Xr ).
k=1 r=1

Pero, X1 , . . . , Xn son iid N (0, 1), de donde


{
1 si r = k
E(Xk Xr ) =
0 si r ̸= k
o sea,

n
Cov(Yi , Yj ) = aki akj = (At A)ij = Σij .
k=1

- 499 -
Soluciones a Problemas Propuestos

Problema 2.6.L: Nótese que


α α2
X2 = √ Y1 + Y2 y X3 = √ Y1 + αY2 + Y3 ,
1 − α2 1 − α2
o sea
Xi = a1i Y1 + a2i Y2 + a3i Y3 , i ∈ {1, 2, 3},
donde
1
a11 = √ , a21 = 0, a31 = 0,
1 − α2
α
a12 = √ , a22 = 1, a32 = 0,
1 − α2
α2
a13 = √ , a23 = α, a33 = 1.
1 − α2
Luego

Cov(Xi , Xj ) = Cov(a1i Y1 + a2i Y2 + a3i Y3 , a1j Y1 + a2j Y2 + a3j Y3 )


= a1i a1j V (Y1 ) + a2i a2j V (Y2 ) + a3i a3j V (Y3 ) + a1i a2j Cov(Y1 , Y2 )
+ a1i a3j Cov(Y1 , Y3 ) + a2i a1j Cov(Y2 , Y1 ) + a2i a3j Cov(Y2 , Y3 )
+ a3i a1j Cov(Y3 , Y1 ) + a3i a2j Cov(Y3 , Y2 )
= a1i a1j + a2i a2j + a3i a3j + 0,

o sea
1 α2
Cov(X1 , X1 ) = , Cov(X2 , X2 ) = + 1,
1 − α2 1 − α2
α α3
Cov(X1 , X2 ) = , Cov(X2 , X3 ) = + α,
1 − α2 1 − α2
α2 α4
Cov(X1 , X3 ) = , Cov(X3 , X3 ) = + α2 + 1.
1 − α2 1 − α2

Problema 2.6.M:

a) ( )
1∑ 1∑
n n
E(Zn,x ) = E I]−∞,x[ (Xi ) = E(I]−∞,x[ (Xi )).
n n
i=1 i=1
Pero, para todo 1 ≤ i ≤ n,
( )
E I]−∞,x[ (Xi ) = 0 P (I]−∞,x[ (Xi ) = 0) + 1 P (I]−∞,x[ (Xi ) = 1)
= P (Xi ≤ x)
( )
= Φ x−µ
σ .

De esta forma,
1 ∑ ( x−µ ) 1 ( )
n
E(Zn,x ) = Φ σ = n Φ x−µσ .
n n
i=1

- 500 -
Soluciones a Problemas Propuestos

b) Como X1 , . . . , Xn son independientes,


( )
1∑
n
V (Zn,x ) = V I]−∞,x[ (Xi )
n
i=1

1 ∑
n
= V (I]−∞,x[ (Xi )).
n2
i=1

Además, para cada 1 ≤ i ≤ n,

V (I]−∞,x[ (Xi )) = E(I]−∞,x[


2
(Xi )) − (E(I]−∞,x[ (Xi )))2
( ( ))2
= E(I]−∞,x[ (Xi )) − Φ x−µ σ
( ) ( ( x−µ ))2
= Φ x−µ σ − Φ σ
( x−µ ) [ ( )]
= Φ σ 1 − Φ x−µσ .

Ası́,

1 ∑ ( x−µ ) [ ( x−µ )]
n
V (Zn,x ) = Φ σ 1 − Φ σ
n2
i=1
1 ( x−µ ) [ ( )]
= Φ σ 1 − Φ x−µ
σ .
n

c)
 
1 ∑
n
1 ∑
n
Cov(Zn,x , Zn,y ) = Cov  I]−∞,x[ (Xi ), I]−∞,y[ (Xj )
n n
i=1 j=1

1 ∑∑
n n
= Cov(I]−∞,x[ (Xi ), I]−∞,y[ (Xj )).
n2
i=1 j=1

Pero, si i ̸= j, Cov(I]−∞,x[ (Xi ), I]−∞,y[ (Xj )) = 0, pues Xi y Xj son independientes.


En el caso en que i = j, y como x < y

Cov(I]−∞,x[ (Xi ), I]−∞,y[ (Xi )) = E((I]−∞,x[ (Xi ) I]−∞,y[ (Xi )))


−E(I]−∞,x[ (Xi )) E(I]−∞,y[ (Xj ))
( ) ( y−µ )
= E(I]−∞,x[ (Xi )) − Φ x−µ Φ
( x−µ ) ( x−µ ) ( y−µ ) σ
σ
= Φ σ −Φ σ Φ σ
( )[ ( )]
= Φ x−µσ 1 − Φ y−µσ .

O sea
1 ∑ ( x−µ ) [ ( y−µ )]
n
Cov(Zn,x , Zn,y ) = Φ σ 1 − Φ σ
n2
i=1

1 ( x−µ ) [ ( )]
= Φ σ 1 − Φ y−µ
σ .
n

- 501 -
Soluciones a Problemas Propuestos

d) Por la parte a) y b),


(( ( x−µ ))2 )
E Zn,x − Φ σ = V (Zn,x )
1 ( x−µ ) [ ( )]
= Φ σ 1 − Φ x−µ
σ ,
n

de donde
(( ( x−µ ))2 )
lim E Zn,x − Φ σ = 0.
n→∞

Nota: Si en lugar de considerar una sucesión (Xn , n ≥ 1), que sea iid N (µ, σ 2 ), se
considera una sucesión iid con distribución acumulada( común F , entonces se obtienen
x−µ )
los mismos resultados anteriores, intercambiando Φ σ por F (x).

Problema 2.6.N: Sea Yi = X̄ − Xi−1 , 2 ≤ i ≤ n + 1.


Basta probar que X̄ es independiente de (Y2 , . . . , Yn+1 ), pues si esto ocurre, X̄ es inde-
∑ 2
n+1
pendiente de g(Y2 , . . . , Yn+1 ) = n1 Yi .
i=2
Para probar lo anterior, es suficiente que X̄ sea independiente de cada Yi . Pero, X̄ e Yi son
normales, (combinación lineal de variables aleatorias normales e independientes), entonces
para probar que X̄ e Yi son independientes es suficiente verificar que Cov(X̄, Yi ) = 0.

Cov(X̄, Yi ) = Cov(X̄, X̄) − Cov(X̄, Xi−1 )


1
= V (X̄) − V (Xi−1 )
n
1 1
= 2
· n · V (X1 ) − V (Xi−1 )
n n
= 0.

Problema 2.6.O:

Y1 = U + Y0 + Z0 = U ,

Y2 = U + U + Z1 = 2U + Z1 ,

Y3 = U + 2U + Z1 + Z2 = 3U + Z1 + Z2 ,

inductivamente

i−1 ∑
0
Yi = iU + Zk , 1 ≤ i ≤ n, con Zk = 0..
k=1 k=1

- 502 -
Soluciones a Problemas Propuestos

Luego
( )

i−1 ∑
j−1
Cov(Yi , Yj ) =Cov i U + Zk , j U + Zk
k=1 k=1
( ) ( i−1 ) ( i−1 )

j−1 ∑ ∑ ∑
j−1
=i j a + i Cov U , Zk + j Cov Zk , U + Cov Zk , Zk
k=1 k=1 k=1 k=1
=i j a + i 0 + j 0 + b min{i − 1, j − 1}
=i j a + b min{i − 1, j − 1}.

Problema 2.6.P: Para t ̸= 0,

MX (t) =E(etX )
(∞ )
∑ (tX)n
=E
n!
n=1

∑ tn
= E(X n ) (suponiendo que la esperanza se puede intercambiar con la serie)
n!
n=0
∑∞
2n tn
= ·
n + 1 n!
n=0
∑∞
(2 t)n
=
(n + 1)!
n=0
∑∞
(2 t)n+1 1
= ·
(n + 1)! 2 t
n=0
 

∑ j
1 (2 t)
=  − 1
2t j!
j=0
1 2t
= (e − 1).
2t
Pero, MX (0) = 1, luego
 e2t −1
 2t si t ̸= 0
MX (t) =

1 si t = 0

Además, toda variable aleatoria con distribución uniforme sobre ]0, 2[ tiene función gene-
radora de momentos como la anterior, por lo tanto, X ∼ U (0, 2).

Problema 2.6.Q: Rec N = {2, 3} y


1 1 1 1 1
P (N = 2) = P ({(c, c), (s, s)}) = · + · = ,
2 2 2 2 2

- 503 -
Soluciones a Problemas Propuestos

1 1
P (N = 3) = P ({(c, s, c), (c, s, s), (s, c, s), (s, c, c)}) = 4 · = .
8 2
Ası́, para todo t ∈ R,
( )
MN (t) = E etN
1 2t 1 3t
= e + e ,
2 2
de donde
( )
3 3t

MN (t) t=0 = 2t
e + e
2 t=0
5
=
2
y
( )
′′ 2t 9 3t
MN (0) = 2e + e
2 t=0
13
= .
2
Por lo tanto,
5 13
E(N ) = y E(N 2 ) = ,
2 2
de donde
13 25 1
V (N ) = − = .
2 4 4

Problema 2.6.R: Para todo t ∈ R:

a)

MZ (t) = E(etZ )
= E(et(2X−3Y ) )
= 0.05 e2t−0 + 0 e2t−3t + 0.20 e2t−6t + 0 e2t−9t + 0.05 e4t−0
+0.10 e4t−3t + 0 e4t−6t + 0.2 e4t−9t + 0 e6t−0 + 0.10 e6t−3t
+0.10 e6t−6t + 0.20 e6t−9t
= 0.20 e−5t + 0.20 e−4t + 0.20 e−3t + 0.10 e0 + 0.10 et + 0.05 e2t
+0.10 e3t + 0.05 e4t .

b)

M2X (t) = E(et2X )


= pX (1) e2t + pX (2) e4t + pX (3) e6t
= 0.25 e2t + 0.35 e4t + 0.40 e6t ,

- 504 -
Soluciones a Problemas Propuestos

y
M−3Y (t) = E(et(−3Y ) )
= pY (0) e0 + pY (1) e−3t + pY (2) e−6t + pY (3) e−9t
= 0.10 e0 + 0.20 e−3t + 0.30 e−6t + 0.40 e−9t .

Claramente,
M2X−3Y (t) ̸= M2X (t)M−3Y (t),
en particular, se concluye que X e Y no son independientes.


n
Problema 2.6.S: Si Z= αi Xi , entonces, para todo t ∈ R,
i=1
∏n
MZ (t) = MXi (αi t)
i=1

n
{1 }
= exp 2 t2 αi2 σi2 + t αi µi
i=1
{ ( ) ( )}

n ∑
n
1 2
= exp 2t αi2 σi2 +t αi µi .
i=1 i=1

Pero, una variable aleatoria X es normal (µ, σ 2 ) si y sólo si para todo t ∈ R,


MX (t) = exp{ 21 t2 σ 2 + tµ}, por lo que,
( n )
∑ ∑
n
Z∼N αi µi , αi2 σi2 .
i=1 i=1

∑r
Problema 2.6.T: Si definimos n = i=1 ni ,
basta verificar que, para t < λ,
( )
t −n
MZ (t) = 1 − .
λ
Como Xi ∼ Gamma (ni , λ), entonces, para i = 1, . . . , r y t < λ,
( )
t −ni
MXi (t) = 1 − .
λ
Ahora, por la independencia de las Xi se tiene que, para t < λ,
∏r
MZ (t) = MXi (t)
i=1
∏r ( )
t −ni
= 1−
λ
i=1
( )−(n1 +···+nr )
t
= 1−
λ
( )
t −n
= 1− .
λ

- 505 -
Soluciones a Problemas Propuestos

Nota: Si Xi ∼ Gamma (m, λ), entonces la variable aleatoria T = 2λX tiene distribución
chi-cuadrado con 2m grados de libertad. En efecto,
MT (t) = MX (2λt)
( )
2λt −m
= 1− (si 2λt < λ)
λ
1
= (1 − 2t)−
2m
2 (t < ),
2
o sea T ∼ χ2 (2m).
∑n
Problema 2.6.U: Como Z = −2 i=1 ln(Xi ), entonces
MZ (t) = (Mln(X1 ) (−2t))n .
Pero, si s > −1,
Mln(X1 ) (s) = E(es ln(X1 )
) = E(X1s )
∫ 1
= xs dx
0
1
xs+1
=
s + 1 0
1
= ,
s+1
por lo tanto si t < 12 ,
( )n
1
MZ (t) =
−2t + 1
( )−n
t
= 1− 1 ,
2
( )
o sea, Y ∼ Gamma n, 1
2 .

Problema 2.6.V: Para k ∈ N,


P (N = k) = P (Sk ≤ t, Sk+1 > t)

= P (Sk ≤ t, Sk + Xk+1 > t)

= P ((Sk , Xk+1 ) ∈ At ) con At = {(x, y) ∈ R2 : x ≤ t, x + y > t}


∫∫
= f(Sk ,Xk+1 ) (x, y)dxdy
At
∫∫
= fSk (x) fXk+1 (y)dxdy (pues Sk y Xk+1 son independientes).
At

- 506 -
Soluciones a Problemas Propuestos

Además, si s < λ,


k
MSk (s) = E(es Sk ) = E(es Xi )
i=1
= (MX1 (s))k pues X1 , . . . , Xk son iid
( )k
λ
=
λ−s
( s )−k
= 1− ,
λ
luego
Sk ∼ Gamma(k, λ),
o sea 
 λ
(λx)k−1 e−λx si x > 0
fSk (x) = Γ(k)

0 e.o.c.
Por lo tanto,
∫∫ ∫∫
λ
fSk (x)fXk+1 (y) dx dy = λk−1 xk−1 e−λx λe−λy dx dy.
(k − 1)!
At At ∩R2+

La región sombreada de la figura siguiente representa al conjunto At ∩ R2+ .

11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
x+y = t
00000000
11111111
00000000
11111111
00000000
t 11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111111111111111111111
00000000000000000000000000
t x

Figura 2.6.A.

- 507 -
Soluciones a Problemas Propuestos

O sea,

∫∫ ∫ t( ∫ ∞ )
λ λk
λk−1 xk−1 e−λx λe−λy dx dy = k−1 −λx
x e −λy
λe dy dx
(k − 1)! (k − 1)! 0 t−x
At ∩R2+
∫ t
λk −λt
= e xk−1 dx
(k − 1)! 0
λk tk
= e−λt
(k − 1)! k
k
(λt) −λt
= e .
k!
Finalmente, si k = 0,
P (N = 0) = P (S0 ≤ t, S1 > t)
= P (Ω, S1 > t)
= P (S1 > t)
= P (X1 > t)
= e−λt
(λt)0 −λt
= e ,
0!
en consecuencia N ∼ P(λt).

Problema 2.6.W:
i)
MX+2Y (z) = E(ez(X+2Y ) )
= E(ezX+2zY )
= M(X,Y ) (z, 2z)
= exp{2z + 6z + z 2 + 2az 2 + 8z 2 }
= exp{8z + (9 + 2a)z 2 },

M2X−Y (z) = E(ez(2X−Y ) )


= E(e2zX+(−z)Y )
= M(X,Y ) (2z, −z)
= exp{4z − 3z + 4z 2 − 2az 2 + 2z 2 }
= exp{z + (6 − 2a)z 2 },

MX+2Y +2X−Y (z) = M3X+Y (z)


= E(ez(3X+Y ) )
= E(e3zX+zY )
= M(X,Y ) (3z, z)

- 508 -
Soluciones a Problemas Propuestos

= exp{6z + 3z + 9z 2 + 3az 2 + 2z 2 }
= exp{9z + (11 + 3a)z 2 ).

Para que las variables aleatorias X +2Y y 2X −Y sean independientes, es suficiente


que, para todo z real,
MX+2Y +2X−Y (z) = MX+2Y (z)M2X−Y (z).
Es decir, basta que
exp{9z + (11 + 3a)z 2 } = exp{8z + (9 + 2a)z 2 } exp{z + (6 − 2a)z 2 }.
Resolviendo la ecuación anterior resulta que exp{(4 − 3a)z 2 } = 1, por lo que a = 43 .

ii) Si a = 43 , entonces, para todo z ∈ R,


{ } { }
MX+2Y (z) = exp 8z + 35 2
3 z = exp 8z + 1
2 · 70 2
3 z ,
o sea ( )
X + 2Y ∼ N 8, 70
3 .
También, para todo z ∈ R,
{ } { }
M2X−Y (z) = exp z + 10 2
3 z = exp z + 1
2 · 20 2
3 z ,
o sea ( )
2X − Y ∼ N 1, 20
3 .

Pero, X + 2Y y 2X − Y son independientes, luego


( )
X + 2Y − (2X − Y ) ∼ N 8 − 1, 70
3 +
20
3 .
Por lo tanto,
P (X + 2Y < 2X − Y ) = P (X + 2Y − (2X − Y ) < 0)
( )
= Φ √−730
= 1 − 0.8997
= 0.1003.

Problema 2.6.X:

a) Sea (s, t) ∈ R2 , entonces


M(X,Y ) (s, t) = E(e(s,t) (X,Y ) )
= E(esX+tY )
= e(s·0+t·0) p(X,Y ) (0, 0) + e(s·0+t·1) p(X,Y ) (0, 1) + e(s·0+t·2) p(X,Y ) (0, 2)
+es·1+t·0 p(X,Y ) (1, 0) + es·1+t·1 p(X,Y ) (1, 1) + es·1+t·2 p(X,Y ) (1, 2)
1 1 t 1 2t 1 s 1
= + e + e + e + 0 · es+t + es+2t .
6 9 18 3 3

- 509 -
Soluciones a Problemas Propuestos

b) Nótese que

∂3 4
E(XY 2 ) = 2
M(X,Y ) (s, t) (s,t)=(0,0) = ,
∂s∂t 3

∂2
E(X 2 ) = M(X,Y ) (s, t) (s,t)=(0,0) = 2 .
∂s2 3

Por lo tanto, E(XY 2 + X 2 ) = 2.

Problema 2.6.Y:

a) Usando teorema de cambio de variables para la función h(u) = u2 , u > 0, (cuya



inversa es h−1 (u) = u, u > 0) se tiene que una densidad para X 2 = h(X) es

−1 d −1

fX (h (ξ))| dξ h (ξ)| si ξ > 0
fX 2 (ξ) =


0 e.o.c.
o sea,

 √ −α(√ξ)2 1

2α ξe | 2√ξ | si ξ > 0
fX (ξ) =


0 e. o. c.


 −αξ
αe si ξ > 0
=


0 e. o. c.

Es decir,

X 2 ∼ exp(α).

- 510 -
Soluciones a Problemas Propuestos


n
b) Para ver la distribución de T = Xi2 , calculemos su función generadora de mo-
i=1
mentos, MT (t).

MT (t) = MX12 +...+Xn2 (t)


n
= MX 2 (t) (pues los Xi son independientes)
i
i=1

= (MX 2 (t))n (pues los Xi tienen igual distribución que X)

[( ) ]n
t −1
= 1− (t < α ya que X 2 ∼ exp(α))
α

( )
t −n
= 1− (t < α).
α

En consecuencia, T ∼ Gamma(n, α) .

c)
(n)
E(Y ) = E
T

( )
1
= nE
T

α
=n· ,
n−1
n−1
luego, haciendo c = , se tiene que
n
( )
n−1 n−1
E(cY ) = E ·Y = E(Y ) = α.
n n

( )
Problema 2.6.Z: En general, si Z ∼ Gamma(α, λ) y c > 0, entonces cZ ∼ Gamma α, λc .
∑n
En este
∑caso, como X1 , . . .(, Xn )son iid exp(θ), entonces i=1 Xi ∼ Gamma(n, θ), por
n
lo que 2θ i=1 Xi ∼ Gamma n, 2θ θ
.
∑n ( 2n ) ∑
En otras palabras, 2θ i=1 Xi ∼ Gamma 2 , 12 , esto es, 2θ ni=1 Xi ∼ χ2(2n) .

- 511 -
Soluciones a Problemas Propuestos

Problema 2.6.AA: Por ser (X1 , X2 , X3 ) vector normal trivariado, para probar que
X1 , X2 , X3 son independientes, basta probar que Cov(Xi , Xj ) = 0, i ̸= j, i, j ∈ {1, 2, 3}.

Esta condición se desprende de i), ii) y iii) y del hecho que independencia de dos
variables aleatorias implica que su covarianza es cero.

SECCIÓN 2.8

Problema 2.8.A:

a)

{
fU/V =v (u) fV (v) si v ≥ 3
f(U,V ) (u, v) =
0 e.o.c.
{ 1 3
3v v 2 si v ≥ 3, 0 < u < 3v
=
0 e.o.c.
{ 1
v3
si (u, v) ∈ A
=
0 e.o.c.

donde A = {(u, v) ∈ R2 : v ≥ 3, 0 < u < 3v}.

v 11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000v = 1/3 u
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
3 00000000000000000000000
11111111111111111111111

9 u

Figura 2.8.A. Región sombreada representa A.

b)
{
f(U,V ) (u,v)
fU (u) si fU (u) ̸= 0
fV /U =u (v) =
0 e.o.c.

- 512 -
Soluciones a Problemas Propuestos

Pero,
 ∫ ∞
 1

 dv si 0 < u < 9

 v 3


3
∫ ∞ 
 ∫ ∞
fU (u) = f(U,V ) (u, v)dv = 1
 dv si u ≥ 9
−∞ 
 u v
3

1


3



0 e.o.c.



1

 si 0 < u < 9

 18


= 9
 si u ≥ 9

 2u 2




 0 e.o.c.

luego 
 18

 si 0 < u < 9, v ≥ 3

 v3



fV /U =u (v) = 2u2

 si u ≥ 9, v > 13 u

 9v 3




0 e.o.c.

Problema 2.8.B: Sea k ∈ {0, 1, 2, . . .}, teorema de probabilidades totales implica que


P (X = k) = P (X = k / N = n) P (N = n)
n=0
∞ ( )
∑ n λn
= pk (1 − p)n−k e−λ
k n!
n=k

pk −λ ∑ λn
= e (1 − p)n−k
k! (n − k)!
n=k

(λp)k −λ ∑ (λ (1 − p))n−k
= e
k! (n − k)!
n=k

(λp)k −λ ∑ (λ (1 − p))j
= e
k! j!
j=0

(λp)k −λ λ (1−p)
= e e
k!

(λp)k −λ p
= e ,
k!

- 513 -
Soluciones a Problemas Propuestos

o sea, X ∼ P(λp).

Problema 2.8.C:

∫ ∞
fX (x) = c exp{−(1 + x2 )(1 + y 2 )}dy
−∞
∫ ∞
2
= c exp{−(1 + x )} exp{−(1 + x2 )y 2 }dy.
−∞

Nótese que, si a > 0, entonces

∫ √ ∫ { }
∞ √ 1 1 ∞
y2
exp{−a y 2 }dy = 2π √ √ exp − 12 1 dy
−∞ 2a 2π 1 −∞ 2a
2a

√ 1
= 2π 1
2a

π
= √ .
a

Considerando a = 1 + x2 , se tiene que



π
fX (x) = c exp{−(1 + x )} √ 2
,
1 + x2
por lo tanto
f(X,Y ) (x, y)
fY /X=x (y) =
fX (x)

c exp{−(1 + x2 )(1 + y 2 )}
= √
π
c exp{−(1 + x2 )} √1+x 2

exp{−(1 + x2 )y 2 }
= √
√ π
1+x2
{ }
1 y2
= √ √ exp − 12 1 ,
1 2(1+x2 )
2π 2(1+x2 )

de donde ( )
Y /X = x ∼ N 0, 2(1+x
1
2) .

Simétricamente, ( )
X/Y = y ∼ N 0, 2(1+y
1
2) .

Observación: Claramente el vector (X, Y ) no puede tener distribución normal bivariada,


ya que la forma cuadrática asociada contiene términos de la forma x2 y 2 . Es decir, este

- 514 -
Soluciones a Problemas Propuestos

ejercicio muestra un vector bivariado en que sus distribuciones condicionales son normales,
pero el vector no es normal bivariado.

Problema 2.8.D: Si (U, V ) = (X + Y, X − Y ), entonces


( )
1 1
(U, V ) = (X, Y )A, con A = ,
1 −1

de donde se sigue que (U, V ) ∼ N (µA, AΣAt ), esto es,

(U, V ) ∼ N ((2 0), ( 71 13 )),

o sea { ( )}
1 2
7v 2
f(U,V ) (u, v) = √ exp − 12 3(u−2)
20 − (u−2)v
10 + 20 .
2π 20
Además, V ∼ N (0, 3), luego,

1 { }
v2
fV (v) = √ √ exp − 12 · 3 ,
2π 3
por lo tanto

f(U,V ) (u, 0)
fU/V =0 (u) =
fV (0)
{ }
3(u−2)2
√1
2π 20
exp − 12 ·
20
=
√ 1 √ exp{− 1 · 0}
2π 3 2

1 { }
(u−2)2
= √ √ exp − 12 · 20 .
20 3
2π 3

En conclusión,
( )
U/V = 0 ∼ N 2, 20
3 .

Problema 2.8.E: Sean T1 , T2 los tiempos de vida útil de las lámparas. Luego T1 ,
T2 son variables aleatorias independientes y con igual distribución exp(λ). Además,
X = min{T1 , T2 }, Y = max{T1 , T2 }.

a) 
 f(X,Y ) (x, y)
si fY (y) ̸= 0
fX/Y =y (x) = fY (y)

0 e.o.c.
Por ejemplo, se sabe que
{
2 λ2 e−λx e−λy si 0 < x < y
f(X,Y ) (x, y) =
0 e.o.c.

- 515 -
Soluciones a Problemas Propuestos

y
{
2 λ e−λy (1 − e−λy ) si y > 0
fY (y) =
0 e.o.c.

o sea, 
 λ e−λx
−λy
si 0 < x < y
 1−e
fX/Y =y (x) =
0 e.o.c.

b)
{
λ eλx e−λy si 0 < x < y
fY /X=x (y) =
0 e.o.c.

c) Sea x > 0,

F(Y −X)/X=x (z) = P (Y − X ≤ z/X = x) = P (Y ≤ z + x/X = x)


∫ z+x
= fY /X=x (y)dy,
−∞

pero
 ∫ z+x


∫ 
 λeλx e−λy dy si z > 0
z+x  x
fY /X=x (y)dy = ∫
−∞ 
 x


 − 0dy si z ≤ 0
z+x
{
1 − e−λz si z > 0
=
0 si z ≤ 0

por lo tanto, (Y − X)/X = x ∼ exp(λ).

Problema 2.8.F:

fX/P =p (x) g(p)


fP/X=x (p) = ∫∞
−∞ fX/P =p (x) g(p)dp
(n ) x n−x Γ(a+b) pa−1 (1 − p)b−1
p p (1 − p) Γ(a) Γ(b)
= ∫∞
−∞ fX/P =p (x) g(p) dp
(n )
p Γ(a + b) Γ(a + x) Γ(b + n − x)
= ∫∞ · ·
f
−∞ X/P =p (x) g(p)dp Γ(a) Γ(b) Γ(a + b + n)
Γ(a + b + n)
· pa+x−1 (1 − p)n+b−x−1 .
Γ(a + x) Γ(b + n − x)

- 516 -
Soluciones a Problemas Propuestos
∫1
Como fP/X=x es una densidad (sobre ]0, 1[), 0 fP/X=x (p)dp = 1 y también,
∫ 1
Γ(a + b + n)
pa+x−1 (1 − p)n+b−x−1 dp = 1,
0 Γ(a + x) Γ(b + n − x)

(pues el integrando es la densidad de una distribución Beta(a + x, n + b − x)).


Por lo tanto,

1 Γ(a + b) Γ(a + b + n)
∫∞ · = ( ).
f
−∞ X/P =p (x)g(p)dp Γ(a) Γ(b) Γ(a + x) Γ(n + n − x) np

En consecuencia,
P/X = x ∼ Beta(a + x, n + b − x).
Nótese que la media de la distribución a priori es
a
µpriori = ,
a+b
y la media de la distribución a posteriori es

a+x a+b a n x
µposteriori = = · + · .
a+b+n a+b+n a+b a+b+n n
Si p0 es el verdadero valor de p, entonces lim nx = p0 , de donde lim µposteriori = p0 .
n→∞ n→∞
También, la varianza de la distribución a posteriori es

2 (a + x) (n + b − x)
σposteriori =
(a + b + n)2 (a + b + n + 1)
a+x n+b−x
= ·
a + b + n (a + b + n) (a + b + n + 1)
( )
n+b 1 n x
= µposteriori − · · ,
(a + b + n) (a + b + n + 1) (a + b + n) (a + b + n + 1) n

de donde
2
lim σposteriori = p0 (0 − 0 · 1 p0 ) = 0.
n→∞

Ası́, la distribución a posteriori es cada vez más concentrada alrededor de p0 .

Problema 2.8.G:

fX/M =m (x) fM (m)


fM/X=x (m) = ∫ ∞ ∝ fX/M =m (x) fM (m).
−∞ fX/M =m (x) fM (m)dm

Como las Xi son independientes y normales,


( )
1 ∑n
fX/M =m (x) = n exp − 2σ2
1
(xi − m) .
2
σ n (2π) 2 i=1

- 517 -
Soluciones a Problemas Propuestos

Usando la identidad

n ∑
n
(xi − m) =
2
(xi − x̄)2 + n(x̄ − m)2 ,
i=1 i=1

se obtiene
( ) ( )
1 ∑n
fX/M =m (x) = n exp − 2σ2
1
(xi − x̄) 2
exp − σ2 (x̄ − m) .
1 2
σ n (2π) 2 i=1
2 n

Como solamente el último término depende de m, entonces


( )
fX/M =m (x) ∝ exp − σ2 (x̄ − m) fM (m).
1 2
2 n
( )
Usando que fM (m) = √2πσ1
exp − 2σ1 2 (m − µ0 )2 , y un argumento similar al del problema
0 0
anterior para el manejo de las constantes, se concluye que

M/X = x ∼ N (µ1 , σ12 ),

con
µ0 nx
σ02
+ σ2
µ1 = n 1
σ2
+ σ02
y
σ 2 σ02 1
σ12 = = .
nσ02 + σ 2 n
σ2
+ 1
σ2
Es decir, la precisión en este caso es
n 1
α1 = 2
+ 2.
σ σ0

Para valores de n “grande”, µ1 ≃ x y α1 ≃ σn2 . Entonces, la información sobre el tamaño


de la muestra determina la distribución a posteriori.
Por ejemplo, si la distribución a priori de M es N (2, 4), las Xi son N (4, 1) y x1 = 3.59 y
x2 = 5.52, entonces x̄ = 4.55, y la media a posteriori es

µ1 = 0.89 x̄ + 0.11µ0 = 4.27.

Si observamos además x3 = 3.93 y x4 = 4.71, entonces x̄ = 4.4 y la media a posteriori es

µ1 = 0.94 x̄ + 0.06µ0 = 4.30.

Si finalmente observamos x5 = 4.40, x6 = 5.06, x7 = 3.68 y x8 = 3.14, entonces x̄ = 4.25


y la media a posteriori resulta

µ1 = 0.97 x̄ + 0.03µ0 = 4.18.

Nótese que x̄ es ponderado cada vez con más peso a medida que el tamaño de la muestra
crece.

- 518 -
Soluciones a Problemas Propuestos

Problema 2.8.H: Véase Problema 2.8.G.

Observación: Los valores α0 = σ12 ; α = 1


σ2
y α1 = 1
σ12
son llamados “precisiones” de las
0
distribuciones correspondientes. Ası́,
α0 µ0 + αx α0 α
µ1 = = µ0 + x
α + α0 α + α0 α + α0
y
α1 = α + α0 .
Nótese, también, que la media a posteriori es un promedio ponderado de la media a priori
y el dato, con ponderaciones proporcionales a las respectivas precisiones. Si se asume
que el experimento (la observación de X) es mucho más informativa que la distribución a
priori, en el sentido que σ 2 ≪ σ02 (σ 2 mucho más “pequeño” que σ02 ), entonces α ≫ α0 y

α1 ≃ α,
µ1 ≃ x.

Ası́, la distribución a posteriori de M es cercana a una normal con media x y precisión α.


Esta observación ilustra dos cosas:

a) La distribución a priori tiene poca influencia sobre la distribución a posteriori.

b) la distribución a posteriori es, aproximadamente, proporcional a la función de vero-


similitud.

Desde un punto de vista heurı́stico, el primer punto es bastante obvio. Si uno no tiene
una fuerte opinión a priori, una opinión a posteriori es principalmente determinada por
el dato que uno observa. Tal distribución, a priori, es a menudo llamada vaga o priori no
informativa.

d
Problema 2.8.I: Como FZ (λ) = dλ fZ (λ), entonces

P (λ < Z ≤ λ + dλ) FZ (λ + dλ) − FZ (λ)


= ≃ fZ (λ),
dλ dλ
o sea
P (λ < Z ≤ λ + dλ) ≃ fZ (λ)dλ

β −βλ
= e (βλ)α−1 dλ.
Γ(α)

Como X/Z = λ ∼ P (λ), entonces P (X = x/λ < Z ≤ λ + dλ) ≃ e−λ λx! , x = 0, 1, . . .


x

Por lo tanto,

P (X = x, λ < Z ≤ λ + dλ) = P (X = x/λ < Z < λ + dλ) P (λ < Z < λ + dλ)

e−λ λx β
= · e−β λ (β λ)α−1 dλ,
x! Γ(α)

de donde (Teorema de probabilidades totales, versión continua)

- 519 -
Soluciones a Problemas Propuestos

∫ ∞
P (X = x) = P (X = x, λ < Z ≤ λ + dλ)dλ
0
∫ ∞
e−λ λx β
= · e−βλ (βλ)α−1 dλ
0 x! Γ(α)
∫ ∞
βα
= e−(1+β)λ λx+α−1 dλ
Γ(α)x! 0
∫ ∞ ( )x+α−1
βα −u u du
= e (u = (1 + β)λ)
Γ(α)x! 0 1+β 1+β
( )x+α ∫ ∞
βα 1
= e−u ux+α−1 du
Γ(α)x! 1 + β 0

βα
= Γ(x + α)
Γ(α) x! (1 + β)x+α
( )α ( )x
β 1 Γ(x + α)
=
1+β 1+β Γ(α) x!
( )α ( )x ( )
β 1 x+α−1
= , x = 0, 1, . . .
1+β 1+β x
( )
Nota: La definición general del coeficiente binomial ab , con 0 < a < b, está dada por
( )
b Γ(b + 1)
= .
a Γ(a + 1) Γ(b − a + 1)
En el caso en que a y b son enteros, Γ(a) = (a − 1)!; Γ(b) = (b − 1)!, por lo que se tiene
( )
b b!
= ,
a a!(b − a)!
que coincide con la definición de coeficiente binomial habitual.

Problema 2.8.J: Primeramente, el número medio de cobros observados es


0 · 88585 + 1 · 10577 + 2 · 779 + 3 · 54 + 4 · 4 + 5 · 1
no medio de cobros =
100000
= 0.12318,

y la varianza del número de cobros observados es

02 ·88585+12 ·10577+22 ·779+32 ·54+42 ·4+52 ·1


varianza del no medio de cobros = 100000 − (0.12318)2
= 0.127507.

Sea X la variable aleatoria que representa el número de cobros, en un año, de una


póliza cualquiera. Entonces, por las hipótesis del problema,

- 520 -
Soluciones a Problemas Propuestos

∫ ∞
P (X = x) = P (X = x/λ = s)fλ (s)ds

0

sx β
= e−s · e−βs (βs)α−1 ds, x = 0, 1, 2, . . .
0 x! Γ(α)

Según Problema 2.8.I, se obtiene que


( )( )α ( )x
α+x−1 β 1
P (X = x) = , x = 0, 1, . . .
x 1+β 1+β

Nótese además que


( )( )α
α−1 β
P (X = 0) =
0 1+β
( )α
Γ(α) β
=
Γ(1) Γ(α) 1 + β
( )α
β
= ,
1+β
( )( )α ( )
α+1−1 β 1
P (X = 1) =
1 1+β 1+β
( )α ( )
Γ(α + 1) β 1
=
Γ(2) Γ(α) 1 + β 1+β
( )α ( )
αΓ(α) β 1
=
(2 − 1)! Γ(α) 1 + β 1+β
( )α ( )
β 1
= α
1+β 1+β
( )
1
= α P (X = 0),
1+β
( )( )α ( )2
α+2−1 β 1
P (X = 2) =
2 1+β 1+β
( )α ( )2
Γ(α + 2) β 1
=
Γ(3) Γ(α) 1 + β 1+β
( )α ( )2
(α + 1)Γ(α + 1) β 1
=
(3 − 1)! Γ(α) 1+β 1+β
( )α ( )2
(α + 1)α β 1
=
2! 1+β 1+β

- 521 -
Soluciones a Problemas Propuestos
[ ( )α ]
α+1 1 1 β
= · α
2 1+β 1+β 1+β
α+1 1
= · P (X = 1).
2 1+β

También,
( )
α+3−1 (α + 2)(α + 1)α
= ,
3 3!

por lo que
( )α ( )3
(α + 2)(α + 1)α β 1
P (X = 3) =
3! 1+β 1+β
[ ( )α ]
α+2 1 α+1 1 1 β
= · · ·α·
3 1+β 2 1+β 1+β 1+β
α+2 1
= · P (X = 2).
3 1+β

En general,
α+x−1 1
P (X = x) = · P (X = x − 1).
x 1+β

Además, se puede verificar que

∞ (
∑ )( )α ( )x
α+x−1 β 1 α
E(X) = x =
x 1+β 1+β β
x=0

y
α(1 + β)
Var(X) = .
β2

¿Cómo estimar α y β?

Al igual que en el Problema 2.6.D, α y β pueden ser estimados igualando la media y


varianza según el modelo teórico, con la media y varianza observadas. Por esta razón,
resolvemos el sistema

α
= 0.12318,
β
α(1 + β)
= 0.127507.
β2

Dividiendo la primera de las dos ecuaciones por la segunda, obtenemos β = 28.4678, de


donde α = 3.507.

- 522 -
Soluciones a Problemas Propuestos

En consecuencia,

P (X = 0) = (0.966065)3.507 = 0.88597,

P (X = 1) = 3.507 · 0.033935 · 0.88597 = 0.10544,

P (X = 2) = 4.507
2 · 0.033935 · 0.10544 = 0.00806,

P (X = 3) = 5.507
3 · 0.033935 · 0.00806 = 0.00050,

P (X = 4) = 6.507
4 · 0.033935 · 0.00050 = 0.00003,

P (X = 5) ≃ 0.

Luego, el número de pólizas con 0 cobros es 100000 · P (X = 0) = 88597. Análogamente


se calcula la estimación para 1 cobro, 2 cobros, etc.

no de cobros no de pólizas no de pólizas según modelo


observadas Poisson(λ), con λ ∼Gamma(α, β)
0 88585 88597
1 10577 10544
2 779 806
3 54 50
4 4 3
5 1 0
6 0 0
Total 100000 100000

Problema 2.8.K: Para a, b números positivos, se puede verificar que


∫ 1
Γ(a)Γ(b)
xa−1 (1 − x)b−1 dx = .
0 Γ(a + b)

a) Sea k ∈ {0, 1, . . . , n}. Usando teorema de probabilidades totales, versión continua,


se tiene que
∫ ∞
P (Xn = k) = P (Xn = k / P = p)fp (p)dp
−∞
∫) 1(
n k
= p (1 − p)n−k 1dp
0 k
( )∫ 1
n
= p(k+1)−1 (1 − p)(n+1−k)−1 dp
k 0
( )
n Γ(k + 1)Γ(n + 1 − k)
= .
k Γ(k + 1 + n + 1 − k)

- 523 -
Soluciones a Problemas Propuestos

Pero, Γ(r) = (r − 1)!, para todo r ∈ N, luego

n! k!(n − k)!
P (Xn = k) = ·
k!(n − k)! (n + 1)!
1
= .
n+1

O sea, la variable aleatoria Xn tiene distribución uniforme sobre {0, 1, . . . , n}, lo cual
se anota Xn ∼ U {0, 1, . . . , n}.

b) Para x ∈ R,

FP/Xn=k (x) = P (P ≤ x / Xn = k)

P (P ≤ x, Xn = k)
=
P (Xn = k)
P (P ≤ x, Xn = k)
= 1 , por parte a).
n+1

Calculemos ahora la probabilidad del suceso A = (P ≤ x, Xn = k). Usando, nueva-


mente, teorema de probabilidades totales (versión continua), se tiene que
∫ ∞
P (A) = P (A / P = p)fP (p)dp
−∞
∫ 1
= P (P ≤ x, Xn = k / P = p)1dp
0
∫ 1
= P (p ≤ x, Xn = k / P = p)dp
0


 0 si x < 0



 ∫

 x

P (Xn = k / P = p)dp si 0 ≤ x < 1
=


0

 ∫ 1




 P (Xn = k / P = p)dp si x ≥ 1
0


 0 si x < 0






∫ x( )
 n k
p (1 − p)n−k dp si 0 ≤ x < 1
= k


0

 ∫ 1( )



 n k
 p (1 − p)n−k dp si x ≥ 1
0 k

- 524 -
Soluciones a Problemas Propuestos


 0 si x < 0



 ( )∫ x


 n
pk (1 − p)n−k dp si 0 ≤ x < 1
= k


0

 ( )



 n Γ(k + 1)Γ(n + 1 − k)
 si x ≥ 1
k Γ(k + 1 + n + 1 − k)
O sea,
P (A)
FP/Xn =k (x) = 1
n+1


 0 si x < 0



 ( )∫ x


 n
(n + 1) pk (1 − p)n−k dp si 0 ≤ x < 1
= k


0

 ( )



 n k!(n − k)!
 (n + 1) si x ≥ 1
k (n + 1)!
Como FP/Xn =k es función continua y derivable, salvo posiblemente en x = 0 y
x = 1, entonces, una densidad para P , condicional a Xn = k, está dada por
{ d
fP/Xn =k (x) = dx FP/Xn =k (x) si la derivada existe
0 e.o.c.
{ (n ) k
(n + 1) k x (1 − x)n−k si 0 < x < 1
=
0 e.o.c.
{
Γ(n+2)
Γ(k+1)Γ(n+1−k) x (1 − x)
k n−k si 0 < x < 1
=
0 e.o.c.

Por lo tanto, P / Xn = k ∼ Beta (k + 1, n + 1 − k).

Problema 2.8.L:
∫ ∞
a) Para k ∈ {0, 1, 2, . . .}, P (Y = k) = P (Y = k/X = x)fX (x)dx
−∞
∫ ∞
xk −x 1 α−1 −x
= e x e dx
0 k! Γ(α)
∫ ∞
1
= x(k+α)−1 e−2x dx
0 k! Γ(α)
∫ ∞
1 1
= · (k+α) u(k+α)−1 e−u du (u = 2x)
0 k! Γ(α) 2
∫ ∞
Γ(k + α) 1
= u(k+α)−1 e−u du
Γ(α) k! 2k+α 0 Γ(k + α)

- 525 -
Soluciones a Problemas Propuestos

Γ(k + α)
= · 1.
k! Γ(α) 2k+α

b) f(X,Y ) (x, y) = fY /X=x (y) fX (x)


 y


x −x 1
xα−1 e−x si x > 0, y ∈ {0, 1, 2, . . .}
 e
y! Γ(α)
=



0 e.o.c.
 (y+α)−1

 x
 e−2x si x > 0, y ∈ {0, 1, 2, . . .}
= y! Γ(α)



0 e.o.c.

de donde,


 fX,Y (x, k)
 si k ∈ {0, 1, . . .}
pY (k)
fX/Y =k (x) =



0 e.o.c.
 (k+α)−1 −2x

 x e k!Γ(α)2k+α
 · si x > 0, k ∈ {0, 1, 2, . . .}
= k! Γ(α) Γ(k + α)



0 e.o.c.

c)
E(Y ) = E(E(Y /X)) = E(E(Y /X = x) ◦ X).

Pero,

∑ ∞
∑ xk
E(Y /X = x) = kpY /X=x (k) = k e−x = x.
k!
k=0 k=0

por lo tanto,
E(Y ) = E(X) = α.

También,



E(Y ) = k pY (k)
k=0
∑∞
Γ(k + α) 1
= k · k+α .
k!Γ(α) 2
k=0

Ahora considerando α = n, para n = 1, 2, 3, . . . , se tiene por una parte que E(Y ) = n

- 526 -
Soluciones a Problemas Propuestos

y también

∑ k Γ(k + n) 1
E(Y ) = ·
k!Γ(n) 2k+n
k=0

∑ 1 (k + n − 1)! 1
= · · k+n
(k − 1)! (n − 1)! 2
k=1
∞ (
∑ )
k+n−1 1
= n
n 2k+n
k=1
∞ ( )
1 ∑ k+n−1 1
= n n ,
2 n 2k
k=1

o sea
∞ (
∑ )
n k+n−1 1
2 = .
n 2k
k=1

d) Para x ∈ R,
FX/Y =k (x) = P (X ≤ x/Y = k)

P (X ≤ x, Y = k)
=
P (Y = k)
P (X ≤ x, Y = k)
= Γ(1+k)
(por parte a)
k!Γ(1)21+k

= 2k+1 P (X ≤ x, Y = k).
Calculemos ahora la probabilidad del suceso A = (X ≤ x, Y = k).
Usando teorema de probabilidades totales (versión continua), se tiene que
∫ ∞
P (A) = P (A/X = z)fX (z)dz
−∞
∫ ∞
= P (X ≤ x, Y = k/X = z)e−z dz
∫ ∞
0

= P (z ≤ x, Y = k/X = z)e−z dz
0

 0 si x < 0

= ∫ x


 P (Y = k/X = z)e−z dz si x ≥ 0
0


 0 si x < 0

= ∫


x
z k −z −z
 e e dz si x ≥ 0
0 k!

- 527 -
Soluciones a Problemas Propuestos

O sea, 
 0 ∫
si x < 0
x
FX/Y =k (x) = z k −2z
 2k+1 e dz si x ≥ 0
0 k!
Como FX/Y =k es función continua y derivable, salvo posiblemente en x = 0, entonces
una densidad para X, condicional a Y = k, está dada por

 d
 FX/Y =k (x) si la derivada existe
fX/Y =k (x) = dx


0 e.o.c.


 xk
 2k+1 e−2x si x > 0
= k!


 0 e.o.c.


 2k+1
 x(k+1)−1 e−2x si x > 0
Γ(k + 1)
=



0 e.o.c.

es decir, X/Y = k ∼ Gamma(k + 1, 2).

Problema 2.8.M: Primeramente, nótese que Rec NT = N0 . Sea k ∈ N0 y A el


suceso definido por A = (NT = k). Entonces,
∫ ∞
P (A) = P (A/T = t)fT (t)dt
−∞
∫ ∞
= P (A/T = t)µe−µt dt
∫0 ∞
= P (Nt = k/T = t)µe−µt dt
∫ ∞
0

= P (Nt = k)µe−µt dt (Nt y T independientes)


0
∫ ∞
(λt)k −µt
= e−λt µe dt
0 k!
∫ ∞
λk 1
= µ xk e−x dx (x = (λ + µ)t)
k! (λ + µ)k+1 0
λk 1
= µ k!
k! (λ + µ)k+1
( )k
µ λ
=
λ+µ λ+µ
λ
= pk (1 − p), con p = .
λ+µ

- 528 -
Soluciones a Problemas Propuestos

Por lo tanto,
P (NT = k) = (1 − p)pk , para todo k ∈ {0, 1, 2, . . .},
o sea
NT ∼ G(1 − p).

Problema 2.8.N: Se pide calcular E(NT ). Según problema anterior, NT ∼ G(1 − p) con
λ
parámetro p = λ+µ , luego,
1 λ+µ
E(NT ) = = .
1−p µ

Problema 2.8.O: Como


p(X,Y ) (i, j)
PX/Y =j (i) = ,
pY (j)
entonces, Problema 2.6.H implica que
1
32 0
pX/Y =0 (0) = 1 = 1, pX/Y =0 (1) = 1 = 0,
32 32

0 0
pX/Y =0 (2) = 1 = 0, pX/Y =0 (3) = 1 = 0,
32 32

0 0
pX/Y =0 (4) = 1 = 0, pX/Y =0 (5) = 1 = 0.
32 32
También,
5
0
pX/Y =1 (0) = 15 = 0, pX/Y =1 (1) = 32
15 = 13 ,
32 32
4 3
4
pX/Y =1 (2) = 32
15 = 15 , pX/Y =1 (3) = 32
15 = 15 ,
32 32

2 1
32 2 32 1
pX/Y =1 (4) = 15 = 15 , pX/Y =1 (5) = 15 = 15 .
32 32
Análogamente,
pX/Y =2 (0) = 0, pX/Y =2 (1) = 0, pX/Y =2 (2) = 25 ,

pX/Y =2 (3) = 25 , pX/Y =2 (4) = 51 , pX/Y =2 (5) = 0,

pX/Y =3 (0) = 0, pX/Y =3 (1) = 0, pX/Y =3 (2) = 0,

pX/Y =3 (3) = 1, pX/Y =3 (4) = 0, pX/Y =3 (5) = 0.


Pero,

5
E(X/Y = j) = ipX/Y =j (i), j ∈ {0, 1, 2, 3},
i=0

- 529 -
Soluciones a Problemas Propuestos

luego

a)
7
E(X/Y = 0) = 0, E(X/Y = 1) = ,
3
14
E(X/Y = 2) = , E(X/Y = 3) = 3.
5

b)


3
E(E(X/Y )) = E(X/Y = j)pY (j)
j=0

7 15 14 15 1
= · + · +3·
3 32 5 32 32
5
= .
2

Nótese que E(E(X/Y )) = E(X), lo cual se verifica siempre.

c) También, para j ∈ {0, 1, 2, 3},

V (X/Y = j) = E(X 2 /Y = j) − (E(X/Y = j))2

y

5
E(X 2 /Y = j) = i2 pX/Y =j (i),
i=0

por lo que, usando a) nuevamente, se concluye que

E(X 2 /Y = 0) = 0 E(X 2 /Y = 1) = 7,

E(X 2 /Y = 2) = 42
5 E(X 2 /Y = 3) = 9.

De esta forma

V (X/Y = 0) = 0 − 02 = 0,

( )2
7 14
V (X/Y = 1) = 7 − = ,
3 9
( )2
42 14 14
V (X/Y = 2) = − = ,
5 5 25

V (X/Y = 3) = 9 − 32 = 0.

- 530 -
Soluciones a Problemas Propuestos

En consecuencia,

3
E(V (X/Y )) = V (X/Y = j)pY (j)
j=0

14 15 14 15
= · + ·
9 32 25 32
119
= .
120

d) Sea Z = X − E(X/Y ). Como V (Z) = E(Z 2 ) − (E(Z))2 y


E(Z) = E(X − E(X/Y ))
= E(X) − E(E(X/Y ))
= E(X) − E(X)
= 0,
entonces
V (Z) = E(Z 2 )

= E(X − (E(X/Y ))2 )

∑∑
= (i − E(X/Y = j))2 p(X,Y ) (i, j)
i j
( ) ( ) ( )
7 2 5 7 2 4 7 2 3
= 1− + 2− + 3−
3 32 3 32 3 32
( ) ( ) ( )
7 2 2 7 2 1 14 2 6
+ 4− + 5− + 2−
3 32 3 32 5 32
( ) ( )
14 2 6 14 2 3
+ 3− + 4−
5 32 5 32
119
= .
120

Problema 2.8.P:

a) Si r < 4,

∫ ∞
4
E(Y ) =
r
yr dy
1 y5
∫ ∞
= 4 y r−5 dy
1

- 531 -
Soluciones a Problemas Propuestos

y r−5+1
= 4
r − 5 + 1 1

4 1 ∞
=
r − 4 y 4−r 1
4
= (0 − 1)
r−4
4
= .
4−r

b) Sea h(y) = E(X/Y = y). Como X/Y = y ∼ N (y 2 , y), entonces h(y) = y 2 . Luego

E(X) = E(E(X/Y ))
= E(hoY )
= E(Y 2 )
4
=
4−2
= 2.

c) Nótese que

E(XY /Y = y) = E(Xy/Y = y)
= yE(X/Y = y)
= yy 2
= y3,

de donde
E(XY /Y ) = Y 3 .
De esta forma,

E(XY ) = E(E(XY /Y ))
= E(Y 3 )
4
=
4−3
= 4,

por lo que

Cov(X, Y ) = E(XY ) − E(X)E(Y )


4
= 4−2·
3
4
= .
3

- 532 -
Soluciones a Problemas Propuestos

Problema 2.8.Q:

a) Nótese que X ∼ B(n, p), Y /X = x ∼ B(x, α) y

p(X,Y ) (x, y) = pY /X=x (y) pX (x).

Sea x ∈ {0, 1, . . . , n}, entonces,


 ( )

 x
 αy (1 − α)x−y si y ∈ {0, 1, . . . , x}
y
pY /X=x (y) =



0 e.o.c.

y
 ( )

 n x
 p (1 − p)n−x si x ∈ {0, 1, . . . , n}
x
pX (x) =



0 e.o.c.

luego,
 ( ) ( )

 x y x−y n x ∈ {0, 1, . . . , n}
 α (1 − α) px (1 − p)n−x si
y x y ∈ {0, 1, . . . , x}
p(X,Y ) (x, y) =



0 e.o.c.

b) Sea Z = X − Y (el número final de artı́culos defectuosos después de la segunda


inspección), entonces Rec Z = {0, 1, 2, . . . , n} y

pZ (k) = P (X − Y = k)
∑n
= P (X − Y = k/X = x)P (X = x)
x=0
∑n
= P (Y = x − k/X = x)P (X = x)
x=0
∑n
= P (Y = x − k/X = x)P (X = x)
x=k
∑n
= p(X,Y ) (x, x − k)
x=k
∑n (
)( )
n x
= px (1 − p)n−x αx−k (1 − α)k
x x−k
x=k
∑ ( n )( k + j )
n−k
= pk+j (1 − p)n−(k+j) αk+j−k (1 − α)k
k+j k+j−k
j=0

- 533 -
Soluciones a Problemas Propuestos

∑(
n−k
n
)( )
k+j j
= (1 − α) p
k k
p (1 − p)n−j−k αj
k+j j
j=0

n−k ( )
n! (1 − α)k pk ∑ n − k
= · (pα)j (1 − p)(n−k)−j
(n − k)! k! j
j=0
( )
n
= (1 − α)k pk (pα + (1 − p))n−k
k
( )
n
= ((1 − α)p)k (1 − (1 − α)p)n−k ,
k

o sea X − Y ∼ B(n, (1 − α)p).

c)
E(Y ) = E(E(Y /X))
y
E(Y /X = x) = αx,
por lo que
E(Y /X) = αX.
Por lo tanto
E(Y ) = E(αX) = αE(X) = α n p.

Problema 2.8.R:

a) Según Ejemplo 2.6.21, X1 + X2 ∼ Gamma(2, θ), es decir,

θ2 2−1 −θt
fX1 +X2 (t) = t e , t > 0.
Γ(2)

Encontremos ahora la distribución conjunta de (X1 , X1 + X2 ).


Sea G0 = {(x, y) ∈ R2 : x > 0, y > 0} y G = {(x, y) ∈ R2 : 0 < x < y}.
Entonces, la función g : G0 → G, definida por g(x, y) = (x, x + y), es una biyección,
g −1 (x, y) = (x, y − x) y el jacobiano de g −1 en cualquier punto (a, b) ∈ G es 1.
Como (X1 , X1 + X2 ) = g(X1 , X2 ), entonces Teorema de transformación de variables
implica que
{
f(X1 ,X2 ) (u, v − u) si 0 < u < v
f(X1 ,X1 +X2 ) (u, v) =
0 e.o.c.
{
θe−θu θe−θ(v−u) si 0 < u < v
=
0 e.o.c.

= θ2 e−θv I(0<u<v) .

- 534 -
Soluciones a Problemas Propuestos

Ası́, para t > 0,


f(X1 ,X1 +X2 ) (s, t)
fX1 /X1 +X2 =t (s) =
fX1 +X2 (t)

θ2 e−θt I(0<s<t)
= θ2 2−1 −θt
Γ(2) t e

1
= I .
t (0<s<t)
b)

E(Z/X1 + X2 = t) = 1 P (Z = 1/X1 + X2 = t) + 0 P (Z = 0/X1 + X2 = t)

= P (X1 > x0 /X1 + X2 = t)


∫ ∞
= fX1 /X1 +X2 =t (s)ds
x0

∫ t
1
= ds
x0 t
x0
=1− (si x0 < t).
t

Problema 2.8.S:


d
a) E(Xn+1 /Xn = x) = y P (Xn+1 = y/Xn = x),
y=0
luego

 0 si x = 0
E(Xn+1 /Xn = x) = d si x = d

(x − 1) 12 + (x + 1) 21 si 0 < x < d

Por lo tanto E(Xn+1 /Xn = x) = x, para todo x ∈ {0, 1, . . . , d}.

b) Por a) se tiene que, para todo n ≥ 0,

E(Xn+1 /Xn ) = Xn (P (Xn ∈ {0, 1, . . . , d}) = 1).

Pero,
E(E(Xn+1 /Xn )) = E(Xn+1 ),
o sea
E(Xn+1 ) = E(Xn ), para todo n ≥ 0,

- 535 -
Soluciones a Problemas Propuestos

de donde
1
E(Xn ) = , para todo n ≥ 0.
5

Problema 2.8.T:

V (Y /X) = E(Y 2 /X) − (E(Y /X))2 ,


o sea

E(V (Y /X)) = E(E(Y 2 /X)) − E((E(Y /X))2 )


= E(Y 2 ) − E((E(Y /X))2 )
= E(Y 2 ) − [E((E(Y /X))2 ) − (E(Y ))2 + (E(Y ))2 ]
= E(Y 2 ) − (E(Y ))2 − [E((E(Y /X))2 ) − (E(E(Y /X)))2 ]
= V (Y ) − V (E(Y /X)).

Por lo tanto,
V (Y ) = E(V (Y /X)) + V (E(Y /X)).


Problema 2.8.U: Según Problema 2.5.I (X, Y ) ∼ N (µ, ), con µ = (2, 1) y

∑ ( )−1 [ ]
1 − 21 8
7
2
7
= = .
− 21 2 2
7
4
7

Luego, µ1 = 2, µ2 = 1, σ12 = 87 , σ22 = 4


7 y Cov(X, Y ) = 27 Ṗor lo tanto,
( )
a) X/Y = y ∼ N 32 + 12 y , 1 ,

b) E(X/Y ) = 3
2 + 12 Y .

Problema 2.8.V:

a)
 ∫ √
∫ ∞  1−x2
1
fX (x) = f (x, y)dy = √ dy si −1 < x < 1
 − 1−x2 π
−∞
0 e.o.c.
{ √
2 1−x2
si −1 < x < 1
= π
0 e.o.c.
Luego, para −1 < x < 1,
{ √ √
fX,Y (x, y) √1
2 1−x2
si − 1 − x2 < y < 1 − x2
fY /X=x (y) = =
fX (x) 0 e.o.c.

- 536 -
Soluciones a Problemas Propuestos

Además, para −1 < x < 1,


∫ ∞
E(Y /X = x) = yfY /X=x (y)dy
−∞
∫ √1−x2
1
= √ y √ dy
− 1−x2 2 1 − x2
1
= √ 0
2 1 − x2

= 0,
o sea
E(Y /X) = 0.
b)
∫ ∞
fY (y) = f (x, y)dx
−∞
{ √
2 1−y 2
= π si −1 < y < 1
0 e.o.c.
o sea,
fY /X=x (y) ̸= fY (y),
por lo tanto, X e Y no son independientes.
c) Nótese que Cov(X, Y ) = Cov(X, E(Y /X)),
ya que
E(XE(Y /X)) = E(E(XY /X))
= E(XY )

y
E(E(Y /X)) = E(Y ).
Por lo tanto,
Cov(X, Y ) = Cov(X, 0)
= 0.

Problema 2.8.W: Sean


Yi = número de heridos en el i-ésimo accidente (i ≥ 1),
X = número de accidentes en la semana.
Luego, ( )

X ∑
0
Y = Yi =0 .
i=1 i=1

- 537 -
Soluciones a Problemas Propuestos

a)

E(Y /X = r) = E( Xi=1 Yi /X = r) (r ≥ 0)

= E( ri=1 Yi /X = r)

= E( ri=1 Yi )

= ε r,
o sea
E(Y /X) = εX,
de donde

E(Y ) = E(E(Y /X))


= E(εX)
= εE(X)
= ε µ.

b)

V (Y ) = E(Y 2 ) − (εµ)2
y
E(Y 2 ) = E(E(Y 2 /X)).
Pero
∑r
E(Y 2 /X = r) = E(( 2
i=1 Yi ) )
∑r ∑r 2
= V( i=1 Yi ) + (E( i=1 Yi ))


r ∑
r
= V (Yi ) + ( E(Yi ))2
i=1 i=1

= τ 2 r + ε2 r 2 ,
o sea
E(Y 2 /X) = τ 2 X + ε2 X 2 .
Por lo tanto,

E(Y 2 ) = E(τ 2 X + ε2 X 2 )
= τ 2 E(X) + ε2 E(X 2 )
= τ 2 µ + ε2 (σ 2 + µ2 ),

de donde
V (Y ) = τ 2 µ + ε2 σ 2 .

- 538 -
Soluciones a Problemas Propuestos

Problema 2.8.X: Nótese que



m
E(Sm /Sn = k) = E( Xi /Sn = k)
i=1

m
= E(Xi /Sn = k).
i=1
Además, para 1 ≤ i ≤ m,
E(Xi /Sn = k) = 0 · pXi /Sn =k (0) + 1 · pXi /Sn =k (1)

P (Xi = 1, Sn = k)
=
P (Sn = k)

y
P (Xi = 1, Sn = k) = P (i − ésimo ensayo tiene éxito y k − 1 de los otros
n − 1 ensayos restantes tiene éxito)

= P (i − ésimo ensayo tiene éxito)


·P (k − 1 de los otros n − 1 ensayos restantes tiene éxito),
por lo tanto
(n−1) k−1 (1 − p)n−k
p k−1 p
E(Xi /Sn = k) = (n )
k p (1 − p)
k n−k

(n − 1)! k!(n − k)!


= ·
(k − 1)!(n − k)! n!
k
= .
n
Luego,

m ∑
m
k
E(Xi /Sn = k) =
n
i=1 i=1
m
= · k,
n
o sea
m
E(Sm /Sn ) = · Sn .
n
Otra solución:
Sn = E(Sn /Sn )


n
= E(Xi /Sn )
i=1

= n E(X1 /Sn ) (pues X1 , . . . , Xn son iid),

- 539 -
Soluciones a Problemas Propuestos

o sea
Sn
= E(X1 /Sn ),
n
luego

m
E(Sm /Sn ) = E(Xi /Sn )
i=1
= m E(X1 /Sn )
Sn
= m·
n
m
= · Sn .
n

Problema 2.8.Y:
{
9x2 y 2 si (x, y) ∈]0, 1[×]0, 1[
f(X1 ,X2 ) (x, y) = fX1 (x) fX2 (y) =
0 e.o.c.
Sea g la función definida por g(a, b) = ( ab , ab). Entonces g, definida sobre
G0 =]0, 1[×]0, 1[ y con valores = {(u, v) ∈ R : 0 < v < u, 0 < uv < 1}, es
√ en G √
2

una biyección y g −1 (u, v) = ( uv u, v


u ). Además, el jacobiano de g
−1 en todo punto

(u, v) ∈ G es igual a 2u .
1

u=v

1111111111111111
0000000000000000
1
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
uv = 1
0000000000000000
1111111111111111
0000000000000000
1 u

Figura 2.8.B: Región sombreada representa G.


Por Teorema de transformación de variables aleatorias, se tiene que

{ √ √
f(X1 ,X2 ) ( uv u, uv ) 2u
1
si 0 < v < u, 0 < uv < 1
f(Y1 ,Y2 ) (u, v) =
0 e.o.c.
{
9· v
u · u2 · v
u · 1
2u si 0 < v < u, 0 < uv < 1
=
0 e.o.c.
{ v2
9
2 · u si 0 < v < u, 0 < uv < 1
=
0 e.o.c.

- 540 -
Soluciones a Problemas Propuestos

luego,
 ∫
∫ ∞ 
1
v 9 v2
fY2 (v) = f(Y1 ,Y2 ) (u, v)du = · du si 0 < v < 1
 v 2 u
−∞
0 e.o.c.
{
−9v 2 ln(v) si 0 < v < 1
=
0 e.o.c.

por lo tanto,
∫ ∞
E(Y1 /Y2 = v) = ufY1 /Y2 =v (u)du
−∞
 ∫ 1 2
 v · vu 9
u· 2
du si 0 < v < 1
=
 v −9 · v 2 ln(v)
0 e.o.c.
{
1−v 2
− 21 · 1
ln(v) · v si 0 < v < 1
=
0 e.o.c.
o sea,
{
−1 1−Y22
· si 0 < Y2 < 1
E(Y1 /Y2 ) = 2 ln(Y2 ) Y2
0 e.o.c.
−1 1 − Y22
= · I(0<Y2 <1)
2 ln(Y2 ) Y2

Problema 2.8.Z:

a) Si n = 0,

E(X0+1 ) =E(X1 ) = E(Z10 ) = µ,

(X ) ( (X ))
∑ n ∑ n

E(Xn+1 ) =E Zkn =E E Zkn /Xn .


k=1 k=1

Pero,
(X ) ( )
∑n ∑
r
E Zkn /Xn = r =E Zkn /Xn = r
k=1 k=1
= r E(Zrn /Xn = r) (igual distribución)
= r E(Zrn ) ((Xn = r) es independiente de Zrn )
= r µ,

- 541 -
Soluciones a Problemas Propuestos

o sea (X )
∑ n

E Zkn /Xn = Xn µ,
k=1

por lo tanto ( (X ))
∑n

E(Xn+1 ) = E E Zkn /Xn


k=1
= E(Xn µ)
= µ E(Xn ).
Pero,
E(X1 ) = µ,
de donde
E(X2 ) = µ E(X1 ) = µ2 ,
por lo que
E(X3 ) = µ E(X2 ) = µ3 .

Inductivamente, E(Xn+1 ) = µn+1 , para todo n ≥ 0.

b) E(Xn+1
2 ) = E(E(X 2 /X )) y
n+1 n

E(Xn+1
2
/Xn = r) = Var(Xn+1 /Xn = r) + (E(Xn+1 /Xn = r))2
(X )
∑n

= V ar Zkn /Xn = r + (rµ)2


k=1
( )
∑r
= V ar Zkn /Xn = r + (rµ)2
k=1
= r V ar (Zrn /Xn = r) + (rµ)2
= r V ar (Zrn ) + (rµ)2
= rσ 2 + r2 µ2 .

Luego,
E(Xn+1
2
/Xn ) = Xn σ 2 + Xn2 µ2 ,
por lo tanto

E(Xn+1
2
) = E (E(Xn+1
2
/Xn ))
= E(Xn σ 2 + Xn2 µ2 )
= σ 2 E(Xn ) + µ2 E(Xn2 )
= σ 2 µn + µ2 E(Xn2 ).

- 542 -
Soluciones a Problemas Propuestos

En consecuencia,

Var(Xn+1 ) = σ 2 µn + µ2 E(Xn2 ) − (µn+1 )2


= σ 2 µn + µ2 (E(Xn2 ) − (µn )2 )
= σ 2 µn + µ2 (E(Xn2 ) − (E(Xn ))2 )
= σ 2 µn + µ2 V ar(Xn ).

Pero,

V ar(X1 ) = V ar(Z10 )
= σ2 ,

de donde

V ar(X2 ) = σ 2 µ + µ2 σ 2
= σ 2 (µ2 + µ)
= σ 2 µ (µ + 1).

También

V ar(X3 ) = σ 2 µ2 + µ2 (σ 2 µ + µ2 σ 2 )
= σ 2 (µ4 + µ3 + µ2 )
= σ 2 µ2 (µ2 + µ + 1).

Inductivamente,

V ar(Xn ) = σ 2 µn−1 (µn−1 + µn−2 + · · · + µ + 1)


 2 n−1 µn −1
 σ µ µ−1 si µ ̸= 1
=

σ2 n si µ = 1

c)

lim E(Xn+1 ) = lim µn+1


n→∞ n→∞

= 0, pues 0 < µ < 1,


o sea, se espera que en el largo plazo se extinga la población (si cada individuo tiene
un número esperado de hijos igual a µ, en cada generación).

- 543 -
Soluciones a Problemas Propuestos

Problema 2.8.AA:

a) Usando Problema 2.6.S, con αi = n1 , i = 1, . . . , n, se concluye que

( )
X̄ ∼ N 0, n1 .

b) Para mostrar que X̄ es independiente de S 2 , es suficiente mostrar que X̄ es inde-


pendiente del vector (X1 − X̄, . . . , Xn − X̄), ya que S 2 = g(X1 − X̄, . . . , Xn − X̄),
con

1 ∑ 2
n
g(a1 , . . . , an ) = ai .
n−1
i=1

Por otra parte, el vector (X̄, X1 − X̄, . . . , Xn − X̄) es normal multivariado (ya que
cada componente del vector es combinación lineal de variables aleatorias normales
(0, 1) e independientes).
Luego, para demostrar la independencia de X̄ con S 2 , es suficiente demostrar que
X̄ y Xi − X̄ son independientes, para todo i ∈ {1, . . . , n}.
Pero, la variables aleatorias X̄ y Xi −X̄ son normales (para todo i ∈ {1, . . . , n}), por
lo que demostrar su independencia equivale a demostrar que Cov(X̄, Xi − X̄) = 0.
Finalmente,

Cov(X̄, Xi − X̄) = Cov(X̄, Xi ) − Cov(X̄, X̄)


= Cov(X̄, Xi ) − V (X̄)
( n ) ( n )
1∑ 1∑
= Cov Xk , X i − V Xk
n n
k=1 k=1
( n )
1∑ ∑
n
1
= Cov (Xk , Xi ) − 2 V Xk
n n
k=1 k=1
1 1 ∑
n
= Cov(Xi , Xi ) − 2 V (Xk ) (las Xk son independientes)
n n
k=1
1 ∑
n
1
= − 2 1 (X1 , . . . , Xn son normales (0,1))
n n
k=1
= 0.

Problema 2.8.AB:
a)
( )
X1 + X2 θ+θ
E(Y ) = E = = θ,
2 2
1 1
V (Y ) = (V (X1 ) + V (X2 )) = .
4 2

- 544 -
Soluciones a Problemas Propuestos

b)

S = E(Y /T )
( )
X1 + X2
= E /X1
2
1 1
= E(X1 /X1 ) + E(X2 /X1 )
2 2
1 1
= X1 + E(X2 /X1 ) (principio de sustitución)
2 2
1 1
= X1 + E(X2 ) (X1 , X2 son independientes)
2 2
1 1
= X1 + θ.
2 2

c)

1 1 1 1
E(S) = E(X1 ) + θ = θ + θ = θ,
2( 2) 2 ( 2 )
1 θ 1 1
V (S) = V X1 + =V X1 = .
2 2 2 4

Ası́, V (S) ≤ V (Y ).
d)

f(X1 ,X2 )/T =t (x1 , x2 ) = f(X1 ,X2 )/T =t (x1 , x2 )


= fX2 (x2 ), si x1 = t
{ }
1 1
= √ exp − (x2 − θ) . 2
2π 2

Problema 2.8.AC:

a)

E(Y ) =E(I(Xn =1) )


=1 · P (I(Xn =1) = 1) + 0 · P (I(Xn =1) = 0)
=P (Xn = 1)
=θ.

Por otra parte,

2
V (Y ) =E(I(Xn =1)
) − θ2
=θ − θ2 .

- 545 -
Soluciones a Problemas Propuestos

b) E(Y /T ) = k ◦ T , donde k(t) es la función


k(t) = E(Y /T = t)
= E(I(Xn =1) /X1 + · · · + Xn = t)
= 1 · P (Xn = 1/X1 + · · · + Xn = t) + 0 · P (Xn = 0/X1 + · · · + Xn = t)
P (Xn = 1, X1 + · · · + Xn = t)
=
P (X1 + · · · + Xn = t)
P (Xn = 1, X2 + · · · + Xn−1 = t − 1)
= .
P (X1 + · · · + Xn = t)
Como X1 + · · · + Xn ∼ B(n, θ) y Xn es independiente de X1 , . . . , Xn−1 , entonces


0 ( ) si t = 0
k(t) = θ n−1 θ t−1 (1 − θ)n−1−(t−1)


t−1
(n) si t ∈ {0, 1, . . . , n}
t θ (1 − θ)
t n−t

t
= , t ∈ {0, 1, . . . , n}.
n
Por lo tanto, E(Y /T ) = k ◦ T = T
n.

Problema 2.8.AD:

a) Sea k entero no negativo. Entonces Teorema de Probabilidades Totales (versión


“continua”) implica que
∫ ∞
P (X = k) = P (X = k/Y = λ)fY (λ)dλ
0
∫ ∞
λk β α
= e−λ
· · λα−1 e−βλ dλ
0 k! Γ(α)

βα 1 ∞ α+k−1 −(1+β)λ
= · λ e dλ
Γ(α) k! 0
βα 1 Γ(α + k)
= · ·
Γ(α) k! (1 + β)α+k
( )α ( )k
Γ(α + k) β β
= 1− .
Γ(α)k! 1+β 1+β

Por lo tanto, la variable aleatoria X tiene distribución Binomial Negativa de parámetros


β
(α, p), con p = .
1+β

α+k
Notar que P (X = k + 1) = (1 − p)P (X = k), k ≥ 1 y P (X = 0) = pα .
k+1

- 546 -
Soluciones a Problemas Propuestos

b) Como X/Y = λ ∼ P(λ), entonces E(X/Y = λ) = λ, de donde E(X/Y ) = Y.


α
Pero, E(E(X/Y )) = E(X), por lo que E(X) = E(Y ) = (ya que Y ∼ Gamma(α, β)).
β
Finalmente,
1
α α 1+β α(1 − p)
= β = .
β p
1+β

c) Como X/Y = λ ∼ P(λ), entonces V (X/Y = λ) = λ, de donde V (X/Y ) = Y .


Además,
V (X) = E(V (X/Y )) + V (E(X/Y )),
de donde

V (X) = E(Y ) + V (Y )
α α
= + 2
β β
( )
α 1
= 1+ .
β β

1 1 α(1 − p)
Por último, 1 + = , por lo cual V (X) = .
β p p2

Problema 2.8.AE: M (t) = E (E(exp(tXY )/Y )).

E(exp(tXY )/Y ) = E(exp(tXY )/Y = y) ◦ Y,


E(exp(tXY )/Y = y) = E(exp(tXy)/Y = y),
E(exp(tyX)/Y = y) = E(exp(tyX)) (X e Y independientes),
( )
E(exp(tyX)) = exp 12 t2 y 2 .

Para la última igualdad se usa la función generadora de momentos de una variable N (0, 1).

Ası́, (1 ) ( 1 2 2)
E(exp(tXY )/Y ) = exp 2 t 2 2
y ◦ Y = exp 2t Y .

Pero Y ∼ N (0, 1), de donde Y 2 ∼ χ2(1) . Por lo tanto,

( )1
( (1 )) 1 2
1 2 1
E exp 2
2t Y
2
= , t <
1 − 2 12 t2 2 2

(función generadora de momentos de una variable chi-cuadrado con un grado de libertad).

- 547 -
Soluciones a Problemas Propuestos

En consecuencia,
( )1
1 2
M (t) = , |t| < 1.
1 − t2

SECCIÓN 2.9

Problema 2.9.A:



0 si x < 0
F (x) = FX (x) = x si 0 ≤ x < 1


1 si x ≥ 1


0 si x < 0
n ≤ x < n, k ∈ {1, . . . , n}
k
Fn (x) = FXn (x) = si k−1 k
 n+1

1 si x ≥ 1

Luego, para x ∈ [0, 1[c y n ≥ 1, Fn (x) = F (x), o sea, lim Fn (x) = F (x).
n→∞
Sea x ∈ [0, 1[, entonces existe k ∈ {1, . . . , n}, tal que x ∈ [ k−1
n ,
k
n [, de donde

k
Fn (x) = , para todo n ≥ 1.
n+1
[ k−1 [
Pero, F (x) = x, entonces F (x) ∈ n , k
n , por lo tanto

−1 k−n−1 k−1 k k k k 1
< = − < F (x) − Fn (x) < − = < ,
n+1 n(n + 1) n n+1 n n+1 n(n + 1) n+1

o sea, para todo n ≥ 1,


−1 1
< F (x) − Fn (x) < ,
n+1 n+1

(esta desigualdad no depende de k) por lo tanto

lim F (x) − Fn (x) = 0,


n→∞

es decir
lim Fn (x) = F (x).
n→∞

- 548 -
Soluciones a Problemas Propuestos

Problema 2.9.B: Para ε > 0,


( )
Z
P | − 1| > ε = P (|Z − (λ1 + λ2 )| > ε(λ1 + λ2 ))
λ1 + λ2

= P (|Z − E(Z)| > ε(λ1 + λ2 ))

V (Z)
≤ (Desigualdad de Chebyshev)
ε2 (λ1 + λ2 )2
λ1 + λ2
=
ε (λ1 + λ2 )2
2

1 1
= 2
.
ε λ1 + λ2

Ası́ entonces
Z P
→ 1,
− cuando λ1 + λ2 → ∞,
λ1 + λ2 n
en particular
Z D

→ 1, cuando λ1 + λ2 → ∞.
λ1 + λ2 n

Problema 2.9.C: Para j ≥ 2,


j ( ) ∑
j
1 2 1
E(Xj ) = (−k) 3 + 0 1− 2 + k 3 =0
j j j
k=1 k=1


j ∑
j
2
E(Xj2 ) = 2
k P (Xj = k) = k2
j3
k=1 k=1

2 ∑ 2
j
= k
j3
k=1
2 j (j + 1) (2j + 1)
= 3· ,
j 6

por lo tanto

V (Xj ) = E(Xj2 ) − (E(Xj ))2


( )
1 3 1
= 2+ + 2 .
3 j j

- 549 -
Soluciones a Problemas Propuestos

Para ε > 0,
( ∑n )  
∑ ∑
X
j=1 j n n

P − 0 > ε = P  Xj − E( Xj ) > εnα 
nα j=1
j=1

V ar( nj=1 Xj )
≤ (Desigualdad de Chebyshev)
ε2 n2α
∑n
j=1 V ar(Xj )
= (independencia)
ε2 n2α
1 ∑n 3 1
3 j=1 (2 + j + j 2 )
=
ε2 n2α
1 ∑n
3 j=1 (2 + 3 + 1)

ε2 n2α

3 · 6n
1
=
ε2 n2α
2 1
= 2
· 2α−1 ,
ε n
pero, α > 12 , por lo tanto
1
lim = 0.
n→∞ n2α−1
Luego, para todo ε > 0,
( ∑n )
i=1 Xi

lim P
− 0 > ε = 0,
n→∞ nα

es decir ∑n
i=1 Xi P

− 0.
nα n

Problema 2.9.D: Sea ε > 0 y n ∈ N, entonces


1
P (|Xn − 0| > ε) = P (Xn = n) = ,
n
o sea, para todo ε > 0,
lim P (|Xn − 0| > ε) = 0.
n→∞

Además, para todo n ≥ 1,

E(|Xn − 0|) = E(|Xn |) = 0 · P (Xn = 0) + n · P (Xn = x) = 1,

o sea
lim E(|Xn − 0|) = 1,
n→∞

- 550 -
Soluciones a Problemas Propuestos

por lo tanto (Xn ) no converge en L1 .

Problema 2.9.E: Para todo n ≥ 1,

a a2
E(Xn ) = , V ar(Xn ) = .
2 12
c.s. P
Ley fuerte de Kolmogorov implica que Yn −−→ a
2, en particular, Yn −
→ a
2 (y también
n n
D
Yn −
→ a2 ).
n
Además,
n · a2 a
lim E(Yn ) = lim =
n→∞ n→∞ n 2
y
( a)
lim V ar Yn − = lim V ar(Yn )
n→∞ 2 n→∞
2
n · a12
= lim
n→∞ n2

= 0.

Por lo tanto
L2 a
Yn −→ .
n 2

Problema 2.9.F:

a) Como X tiene distribución Poisson de parámetro λ, entonces, ΦX (t) = eλ(e −1) ,


it

para todo t ∈ R. También, para todo t ∈ R, ΦX (t) = (ΦXn,1 (t))n , pues X es suma
de variables aleatorias independientes con igual distribución.
O sea,
it −1) 1
(eλ(e ) n = ΦXn,1 (t),
de donde
λ it −1)
ΦXn,i (t) = ΦXn,1 (t) = e n (e , i = 2, . . . , n.
Por lo tanto (λ)
Xn,i ∼ P n .

b) Como Nnn = n1 ni=1 Nn,i , con Nn,i variables aleatorias iid P(θ), entonces Ley fuerte
de Kolmogorov implica que

Nn c.s.
−−→ E(N1,1 ) = θ,
n n
en particular
Nn D

→ θ.
n n

- 551 -
Soluciones a Problemas Propuestos

También (∑ )
n
V ar Nn,i = n θ = V ar(Nn ),
i=1

luego, Teorema del Lı́mite Central implica que


∑n ∑
Nn,i − E( ni=1 Nn,i ) Nn − n θ

i=1
∑n = √
V ar( i=1 Nn,i ) nθ
√ ( )
θ Nn D
= √ −n −→ N (0, 1).
n θ n

c) Como Nn ∼ P(nθ), entonces para x > 0,


( Nn )
F Nn (x) = P n ≤x
n

= P (Nn ≤ nx)

[nx]
(nθ)k
= e−nθ .
k!
k=0
( Nn )
Pero, n ; n ≥ 1 converge en distribución a θ, luego
{
1 si x > θ
lim F Nn (x) =
n→∞ n 0 si x < θ
 

[nx]
(nθ)k
O sea, la sucesión e−nθ ; n ≥ 0 converge a 0 si 0 < x < θ y a 1 si
k!
k=0
x > θ.

Problema 2.9.G: Como ΦXn +an (t) = ei tan ΦXn (t) y an → a, entonces ei tan → ei ta .
2
− t2 D
También ΦXn (t) → e , pues Xn −
→ N (0, 1).
n
Por lo tanto
t2 t2
ΦXn +an (t) −→ ei ta e− 2 = e− 2 +i ta .
D
Teorema de Levy implica que Xn + an −
→ N (a, 1).
n

Problema 2.9.H:


n ( )
1
ΦYn (t) = ΦXk t (independencia)
2k
k=1
∏n ( )
1
= ΦX1 t (igual distribución)
2k
k=1

- 552 -
Soluciones a Problemas Propuestos

Pero,

ΦX1 (u) = E(eiuX1 ) = E(cos(uX1 )) + iE(sen(uX1 ))


( )
1 1 1 1
= cos(u) + cos(−u) + i sen(u) + sen(−u)
2 2 2 2
= cos(u),

luego


n
( )
1
ΦYn (t) = cos 2k
t
k=1


n 1
sen( 2k−1 t) sen(2θ)
= 1 (identidad cos(θ) = 2 sen(θ) ,
k=1
2 sen( 2k t )
siempre que θ ̸= π + 2mπ, m ∈ Z)
( )n
1 sen( 210 t)
= (propiedad telescópica de la productoria)
2 sen( 21n t)
( )n
1 sen(t)
=
2 sen( 21n t)
sen(t)
= ,
sen( 21n t)
t· 1
t
2n

o sea
sen(t) sen(t) 1
lim ΦYn (t) = lim = lim
n→∞ n→∞ sen( 21n t) t n→∞ sen( 21n t)
t 1
t 1
t
2n 2n

sen(t) 1 ( )
= · pues 1
2n t →0
t 1 n

sen(t)
= ,
t
para t ̸= 0 y t ̸= (π + 2mπ)2r , con m ∈ Z y r = 1, 2, . . ..
Si t = 0,
lim ΦYn (t) = lim 1 = 1.
n→∞ n→∞

Si t = (π + 2mπ)2r , con m∈Z y r = 1, 2, . . . ,

lim ΦYn (t) = lim 0 = 0.


n→∞ n→∞

Por lo tanto { sen(t)


t si t ̸= 0
lim ΦYn (t) =
n→∞ 1 si t = 0

- 553 -
Soluciones a Problemas Propuestos

También, si Y ∼ U (−1, 1), entonces


{ sen(t)
t si t ̸= 0
ΦY (t) =
1 si t = 0

Teorema de Levy implica que


D
Yn −
→ U (−1, 1) .
n

Problema 2.9.I:

a)

F Xn (x) = P (Xn ≤ nx)


n




0 si nx < 1

 ∑
[nx]
2i
= si 1 ≤ nx < n

 n(n + 1)

 i=1
1 si nx ≥ n


 0 si x < n1
[nx]([nx]+1)
= si n1 ≤ x < 1

 1
n(n+1)
si x ≥ 1

Caso 1: x ≤ 0
lim F Xn (x) = lim 0 = 0.
n→∞ n n→∞

Caso 2: x ≥ 1
lim F Xn (x) = lim 1 = 1.
n→∞ n n→∞

Caso 3: 0 < x < 1


[nx]([nx] + 1)
lim F Xn (x) = lim ,
n→∞ n n→∞ n(n + 1)

ya que existe n0 ∈ N tal que, para todo n ≥ n0 , 1


n < x.
Pero,

x(x − n1 ) (nx − 1)(nx − 1 + 1) [nx]([nx] + 1)


n+1 = ≤
n
n(n + 1) n(n + 1)

nx(nx + 1) x(x + n1 )
≤ = n+1
n(n + 1) n

- 554 -
Soluciones a Problemas Propuestos

y
x(x + n1 ) x(x − n1 )
lim n+1 = x2 = lim n+1 ,
n→∞ n→∞
n n

o sea
lim F Xn (x) = x2 ,
n→∞ n

de donde 
 0 si x ≤ 0
lim F Xn (x) = x2 si 0 < x < 1
n→∞ n 
1 si x ≥ 1

Por otra parte, si X ∼ Beta(2, 1), entonces



 Γ(2 + 1) 2−1
x (1 − x)1−1 si 0 < x < 1
fX (x) = Γ(2)Γ(1)

0 e.o.c.
{
2x si 0 < x < 1
=
0 e.o.c.

de donde 
 0 si x ≤ 0
FX (x) = x2 si 0 < x < 1

1 si x ≥ 1

Por lo tanto
Xn D

→ Beta(2, 1).
n n

b) Sea T :]0, 1[→ R función, definida por

t
T (t) = .
1−t
∫1 D
Como ]0, 1[ es abierto, P (X ∈ A) = 0 fX (x)dx = 1 y Xn
n −
→ X, entonces
n

( )
Xn D
T −
→ T (X),
n n

es decir
Xn D

→ T (X).
n − Xn n
Sea G0 = {x ∈ R : 0 < x < 1} y G = R+ . Entonces, la función H : G0 → G es
una biyección, H −1 (y) = 1+y
y
y el jacobiano de H −1 en y es (1+y)
1
2 . Por Teorema

- 555 -
Soluciones a Problemas Propuestos

de transformación de variables aleatorias se tiene que, una densidad para la variable


aleatoria H(X) está dada por
 ( )
 f 1
X 1+w ·
w
si w > 0
fH(X) (w) = (1 + w)2
 0 e.o.c.

 2· w · 1
si w > 0
= 1 + w (1 + w)2
 0 e.o.c.

 2w
si w > 0
= (1 + w)3
 0 e.o.c.

Problema 2.9.J: Para cada k ≥ 1,


E(Xk2 ) = V ar(Xk ) + (E(Xk ))2 = 1 + 02 = 1,

E((Xk − 1)2 ) = V ar(Xk − 1) + (E(Xk − 1))2 = V ar(Xk ) − (E(Xk ) − 1)2


= 1 + (0 − 1)2
= 2.

Además,
X12 +···+Xn2
n
Yn = (X −1)2 +···+(X 2 .
1 n −1)
n
X12 +···+Xn2 c.s.
Por la ley Fuerte de Kolmogorov n −−→ 1 (las variables aleatorias X12 , . . . , Xn2 , . . .
n
son iid pues las Xi lo son, además E(X1 ) = 1).
2

Análogamente,
(X1 − 1)2 + · · · + (Xn − 1)2 c.s.
−−→ 2,
n n
luego
c.s. 1
Yn −−→ .
n 2

Problema 2.9.K: Como


ΦaUn +bVn (t) = ΦaUn (t) ΦbVn (t)
= ΦUn (at) ΦVn (bt),
entonces por Teorema de Levy se tiene que
lim ΦaUn +bVn (t) = lim ΦUn (at) lim ΦVn (bt)
n→∞ n→∞ n→∞

= e− 2 (at) e− 2 (bt)
1 2 1 2

= e− 2 (a
1 2 +b2 )t2
,

- 556 -
Soluciones a Problemas Propuestos

(esta es la función caracterı́stica de una variable aleatoria N (0, a2 + b2 )), lo cual implica
que
D
aUn + bVn −
→ N (0, a2 + b2 ).
n

Problema 2.9.L: Por Teorema del Lı́mite Central


n D
(X̄n − µ) −
→ N (0, 1)
σ n

y

n D
(Ȳn − τ ) −
→ N (0, 1).
β n

√ √
n n
Sean Un = σ (X̄n − µ), Vn = β (Ȳn − τ ), (n ≥ 1). Problema 2.9.K implica que

D
(−στ ) Un + (βµ) Vn −
→ N (0, σ 2 τ 2 + β 2 µ2 ).
n

Por otra parte,

√ √
n (µ Ȳn − τ X̄n ) n [β µ β1 (Ȳn − τ ) + (−σ τ ) σ1 (X̄n − µ)]
Zn = =
µ X̄n µ X̄n
β µ Vn + (−σ τ ) Un
=
µ X̄n

c.s. P
y la Ley Fuerte de Kolmogorov implica que X̄n −−→ µ, en particular µX̄n −
→ µ2 .
n n
En consecuencia, Teorema de Slutsky implica que

( )
D 2 2 2 µ2
→ N 0, σ τ µ+β
Zn − 4 .
n

Problema 2.9.M: Nótese que, para todo n ≥ 1,


n
Xn = θn−i εi .
i=1

- 557 -
Soluciones a Problemas Propuestos

a)
 

n
V ar(Xn ) = V ar  θn−j εj 
j=1


n
= V ar(θn−j εj )
j=1


n
= (θn−j )2 σ 2
j=1


n
= σ 2 θ2n (θ−2 )j
j=1

(1 − (θ−2 )n )θ−2
= σ 2 θ2n .
b) 1 − θ−2
 

n ∑
n−k
Cov (Xn , Xn−k ) = Cov  θn−j εj , θn−k−j εj 
j=1 j=1


n−k
= Cov(θn−j εj , θn−k−j εj )
j=1


n−k
= θn−j+n−k−j σ 2
j=1

c) = θ−k V ar(Xn−k ).


n
MXn (t) = Mεj (θn−j t)
j=1


n
= Mε1 (θn−j t) (los εi tienen todos igual distribución N (0, σ 2 ))
j=1


n
[1 ]
= exp 2 σ 2 (θn−j t)2
j=1
   
∑n
= exp  12 σ 2  θ2n−2j  t2 .
j=1

Luego  

n
Xn ∼ N 0, σ 2 θ2n−2j .
j=1

- 558 -
Soluciones a Problemas Propuestos


n
σ2
d) Como σ 2 θ2n−2i −→ 1−θ2
, cuando |θ| < 1, entonces, por criterio de Scheffé se
i=1 n
tiene que ( )
D σ2
Xn −
→ N 0, 1−θ 2 .
n

∑ A ∈ Mn (R). Luego, (X∑


e) (X1 , . . . , Xn ) = (ε1 , . . . , εn )A, con 1 , . . . , Xn ) es normal
n-variado y (X1 , . . . , Xn ) ∼ N (µ, ), con µ = (0, . . . , 0) y = [cij ]n×n , cij =
θ|i−j| V (Xmin{i,j} ).

Problema 2.9.N: Como


√ √
E( n (X̄n − m)) = n (E(X̄n ) − m)

= n (m − m)
= 0
y

V ar( n (X̄n − m)) = n V ar(X̄n )
 
1 ∑n ∑
= V ar(Xi ) + 2 Cov(Xi , Xj )
n
i=1 i<j

1
= [n σ 2 ρ + 2 ρ (n − 1)],
n
entonces
√ √
E( n (X̄n − m)) −→ 0 y V ar( n (X̄n − m)) −→ (σ 2 + 2) ρ.
n n

Pero, n (X̄n − m) es variable aleatoria normal (pues es combinación lineal de normales,
ya que (X1 , . . . , Xn ) es normal n-variado), luego Teorema de Scheffé implica que
√ D
n (X̄n − m) −→ N (0, (σ 2 + 2)ρ).
n

También
[ n ]
1 ∑ ∑ n
E(Sn2 ) = E(Xi2 ) − E(X̄n2 )
n−1
i=1 i=1
[ n ]
1 ∑ ∑ n
= (V (Xi ) + m2 ) − (V (X̄n ) + m2 )
n−1
i=1 i=1
[ ]
1 n σ 2 ρ + 2 ρ (n − 1)
= nσ ρ −
2
n
n−1 n2
y
V ar(Sn2 − σ 2 ρ) = V ar(Sn2 )
3σ 4 ρ2 (n − 3) 2 2
= − (σ ρ) ,
n (n − 1)n

- 559 -
Soluciones a Problemas Propuestos

luego
E(Sn2 ) −→ σ 2 ρ y V ar(Sn2 − σ 2 ρ) −→ 0,
L2
de donde Sn2 −→ σ 2 ρ.
n
P P √
En particular, Sn −
2 →σ 2 ρ y también Sn −
→ σ ρ.
n n
Finalmente, Slutsky implica que
√ ( )
n (X̄n − m) D 2
→ N 0, (σ σ+2)ρ
− 2ρ .
Sn n

Problema 2.9.O: Como E(X12 ) = V (X1 ) + (E(X1 ))2 = σ 2 + µ2 , entonces la ley fuerte
de Kolmogorov implica que
X12 + · · · + Xn2 c.s. 2
−−→ σ + µ2 ,
n n

en particular
X12 + · · · + Xn2 P 2
→ σ + µ2 .

n n
X1 +···+Xn c.s.
También la ley fuerte de Kolmogorov implica que n −−→ µ, en particular
n

(X1 + · · · + Xn )2 P 2
→µ .

n2 n

Pero, ( )
n X12 + · · · + Xn2 n (X1 + · · · + Xn )2
Sn2 = − · ,
n−1 n n−1 n2
luego teorema de Slutsky implica que
P
Sn2 −
→ 1 (σ 2 + µ2 ) − 1µ2 = σ 2
n
n
(ya que n−1 converge a uno).

Problema 2.9.P:

a)

FT (u) = P (T ≤ u)
= P (min{X1 , . . . , Xn } ≤ u)
(∫ ∞ )n
= 1− f (x, θ)dx
u

0 ( si u ≤ θ
∫ ∞ )n
= −(x−θ)
1 − e dx si u > θ
u
{
0 si u ≤ θ
= −n(u−θ)
1−e si u > θ

- 560 -
Soluciones a Problemas Propuestos

Como FT (u) es continua y derivable, salvo posiblemente en u = θ, entonces una


densidad para T es
fT (u) = ne−n(u−θ) I(u>θ) ,

para todo el u ∈ R.

b)
∫ ∞
E(T ) = xfT (x)dx
−∞
∫ ∞
= nenθ xe−nx dx
θ
∫ ∞
nθ 1
= ne ye−y dy, y = nx
n2 nθ
enθ [ −nθ ]
= e · 1!(nθ + 1)
n
1
= θ+ .
n

Nota: Para a > 0, m natural,


∫ ∞ ∑
m
m −v −a am−k
v e dv = e m! .
a (m − k)!
k=0

De esta forma,

E(S) = θ, si solo si
E (αT + β) = θ, si y solo si
αE(T ) + β = θ, si y solo si
1
αθ + + β = θ.
n

1
Ası́, para α = 1, β = − se obtiene que IE(S) = θ.
n

c)
( )
1
V (S) = V T −
n
= V (T )
( )
= IE T 2 − (IE(T ))2
( )
1 2
= E(T 2 ) − θ + .
n

- 561 -
Soluciones a Problemas Propuestos

Además,
∫ ∞
E(T ) = ne
2
x2 e−nx dx

θ
[ ( )]
enθ −nθ (nθ)2 nθ 1
= e · 2! + +
n2 2! 1! 0!
2θ 2
= θ2 + + 2.
n n
1
En consecuencia, V (S) = 2 .
n

d)
P (S ≤ γ) =p, si y solo si

( )
1
P T − ≤ γ =p, si y solo si
n

( )
1
P T ≤γ+ =p, si y solo si
n

( )
1
FT γ+ =p.
n
Como T es una variable aleatoria continua, su función de distribución es continua y
estrictamente creciente. y por ende admite inversa continua y estrictamente creciente
1
,γ + =FT−1 (p)
n
1
γ = − + FT−1 (p)
n
Como p ∈]0, 1[,
1
γ =θ − (1 + ln(1 − p)).
n
e)
P (|T − θ| > ε) = 1 − P (|T − θ| ≤ ε)
= 1 − P (−ε + θ ≤ T ≤ ε + θ)
= 1 − (FT (ε + θ) − FT (−ε + θ)).
Desde la parte a), obtenemos que FT (ε + θ) = 1 − e−n(ε+θ−θ) y FT (−ε + θ) = 0
(ε + θ > θ y −ε + θ < θ).
Por lo tanto,
lim P (|T − θ| > ε) = lim e−nε = 0.
n→∞ n→∞
Esto quiere decir que T converge en probabilidad a θ.

- 562 -
Soluciones a Problemas Propuestos

Problema 2.9.Q:
a)
( )
FM (u) = P max {|Xi |} ≤ u
i=1,...,n
{
0, si u ≤ 0
=
(P (|X1 | ≤ u))n si u > 0
{
u
si 0 < u < θ
P (|X1 | ≤ u) = θ
1 si u ≥ θ
Ası́, 

0, si u ≤ 0
( u )n
FM (u) = si 0 < u < θ
 θ

1 si u ≥ θ
Como FM (u) es continua y derivable, salvo posiblemente en u = 0, u = θ, entonces
una densidad para M es
n
fM (u) = n un−1 I(0<u<θ) .
θ
b)
∫ ∞
E(M ) = ufM (u)du
−∞

n θ n
= u du
θn 0
n
= θ,
n+1
∫ ∞
E(M ) =
2
u2 fM (u)du
−∞

n θ n+1
= u du
θn 0
n
= θ2 .
n+2
Luego,
( )2
n n n
V (M ) = θ2 − θ = θ2
n+2 n+1 (n + 1)2 (n + 2)
y
E((M − θ)2 ) = V (M − θ) + (E(M − θ))2
= V (M ) + (E(M ) − θ)2
( )2
n n
= 2
θ + θ−θ
(n + 1)2 (n + 2) n+1
2
= θ2 .
(n + 1)(n + 2)

- 563 -
Soluciones a Problemas Propuestos

c)

P (|M − θ| > ε) = 1 − P (|M − θ| ≤ ε)


= 1 − P (−ε + θ ≤ M ≤ ε + θ)
= 1 − (FM (ε + θ) − FM (−ε + θ)).

Por a), FM (ε + θ) = 1 y 0 < −ε + θ < θ (pues ε ∈]0, θ[).

Luego, ( )n
−ε + θ
lim P (|M − θ| > ε) = lim = 0.
n→∞ n→∞ θ

Nota: Si ε ≥ θ, entonces FM (ε + θ) = 1 y FM (−ε + θ) = 0 (pues −ε + θ ≤ 0). O


sea, en este caso también se cumple que limn→∞ P (|M − θ| > ε) = 0.

( )n √
d) Si P (M < b) = 0, 05, entonces de a), θb = 0.05, es decir, b = θ n 0.05.

Luego, P (M < θ n0.05) = 0.05, de donde
( )
M
P θ<√ = 0.95.
n0.05

Pero, P (M < θ) = FM (θ) = 1, por lo que


( )
M
P M <θ< √ = 0.95.
n0.05

c.s.
Problema 2.9.R: Por la Ley Fuerte de los Grandes Números se tiene que p̂n −−→ p.
n
c.s.
Luego, g(p̂n ) −−→ g(p), con g(x) = √ 1
, x ∈]0, 1[.
n x(1−x)

P
En particular, g(p̂n ) −
→ g(p), es decir,
n

1 P 1
√ →√
− .
p̂n (1 − p̂n ) n p(1 − p)

También, el Teorema del Lı́mite Central aplicado a la sucesión (Xn ; n ≥ 1) implica que

p̂ − p D
√n −
→ Z, con Z ∼ N (0, 1),
p(1−p) n
n

de donde √ D √
n(p̂n − p) −
→ p(1 − p)Z.
n

- 564 -
Soluciones a Problemas Propuestos

Por lo tanto, Teorema de Stlusky implica que


1 √ D 1 √
√ →√
n(p̂n − p) − p(1 − p)Z.
p̂n (1 − p̂n ) n p(1 − p)
Pero,
1 √ p̂n − p
√ n(p̂n − p) = √ ,
p̂n (1 − p̂n ) p̂n (1−p̂n )
n
lo que concluye la demostración.

Problema 2.9.S: Notar que, para cada i, E(Xi2 ) = V (Xi )+(E(Xi ))2 = σ 2 +µ2 . Además,
1∑
n
n
Sn2 = · (Xi − X̄)2
n−1 n
i=1
y
∑n ( ∑n )2
1∑
n 2
i=1 Xi i=1 Xi
(Xi − X̄)2 = − .
n n n
i=1

Entonces, Ley Fuerte de los Grandes Números implica que:


∑n
Xi c.s
i) i=1
n −→ µ,
n
∑n
Xi2 c.s
ii) −→ σ 2 + µ2 .
i=1
n
n
( ∑n )2
i=1 Xi c.s
De i) se deduce que n −→ µ2 . Además,
n
n
iii) limn→∞ n−1 = 1.
c.s
Ası́, i), ii), y iii) implican que Sn2 −→ σ 2 .
n

Problema 2.9.T:
a) Si se considera la función h(t) = tδ , para t > 0, entonces h :]0, ∞[→]0, ∞[ es
h (t) = 1δ t δ −1 . Entonces, teorema de transformación
1 1
biyección, h−1 (t) = t δ y dtd −1

de variables implica que




fX (h−1 (t)) d h−1 (t) si t > 0
fX δ (t) = dt

0 e. o. c.
 ( 1
)
 δ
 (t δ )δ−1 exp −
1 (t δ )δ 1 1 −1
tδ si t > 0
= α α δ


0 e. o. c.
 ( )
 1
 exp − t
si t > 0
= α α

0 e. o. c.

- 565 -
Soluciones a Problemas Propuestos

En consecuencia, X δ ∼ exp(α−1 ).

El recı́proco se obtiene de forma análoga, considerando la transformación h(t) = t1/δ .

b)

E(X1δ ) + E(X2δ ) + . . . + E(Xnδ )


E(Yn ) =
n
nE(X1δ )
=
n
= E(X1δ )
=α (pues X1δ ∼ exp(α−1 )).

También,

V ar(X1δ + . . . + Xnδ )
V ar(Yn ) =
n2
δ
nV ar(X1 )
=
n2
α 2
= .
n

c) En virtud de los ı́tem anteriores, para todo ε > 0,

α 2
V ar(Yn ) ε2
P (|Yn − α| > ε) ≤ = −−−→ 0,
ε2 n n→∞

P
es decir, Yn −
→ α.
n

Problema 2.9.U:

i)

1 1 nαλ
E(Yn ) = · E(X̄) = · =λ
α α n

1 1 nλ2 α λ2
V ar(Yn ) = · V ar(X̄) = · = ,
α2 α2 n2 αn

- 566 -
Soluciones a Problemas Propuestos

ii) De i) y la desigualdad de Chebyshev se tiene que, para ε > 0,

P (|Yn − λ| > ε) = P (|Yn − E(Yn )| > ε)

V ar(Yn )

ε2

λ2 1
= · .
αε2 n
En consecuencia, para todo ε > 0,

lim P (|Yn − λ| > ε) = 0.


n→∞

( )
iii) Como las variables aleatorias X1 , . . . , Xn son iid Gamma α, λ1 , entonces la función
generadora de momentos de X1 + . . . + Xn está dada por


n
MX1 +...+Xn (s) = MXi (s)
i=1

= (MX (s))n

= [(1 − λs)−α ]n

= (1 − λs)−αn (s < λ−1 ).

Por lo tanto,

n ( )
1
T = Xi ∼ Gamma nα, .
λ
i=1

( )
iv) Si α = 2, entonces T ∼ Gamma 2n, λ1 , de donde, para 2
λs < λ1 ,
( ) ( )
2 2 −2n
MZ (s) = MT ·s = 1−λ· s
λ λ

= (1 − 2s)−2n ,
( ) ( )
o sea, Z = 2
λ · T ∼ Gamma 2n, 12 = Gamma 4n 1
2 2 .
,

En conclusión, Z ∼ χ24n .

- 567 -
Soluciones a Problemas Propuestos

Problema 2.9.V:

FYn (t) = P (Yn ≤ t) = 1 − P (Yn > t)

= 1 − P (min{X1 , . . . , Xn } > t)

= 1 − P (X1 > t, . . . , Xn > t)


n
=1− P (Xi > t)
i=1

(∫ ∞ )n
=1− fXi (s)ds
t

 (∫ ∞ )n

1 − α −(α+1)
αβ s ds si t ≥ β
= t

0 e. o. c.

 nα −nα
1 − β t si t ≥ β
=


0 e. o. c.

Como FYn es continua y derivable (salvo posiblemente en t = β) entonces, una densi-


dad para Yn está dada por



 d FYn (t) si t > β
fYn (t) = dt

0 e. o. c.
{
nαβ nα t−(nα+1) si t > β
=
0 e. o. c.

En consecuencia, Yn ∼ P areto(nα, β).

- 568 -
Soluciones a Problemas Propuestos

β
Además, si ε > 0, entonces 0 < ε+β < 1, y

P (|Yn − β| > ε) = 1 − P (|Yn − β| ≤ ε)

= 1 − P (−ε + β ≤ Yn ≤ ε + β)

= 1 − [FYn (ε + β) − FYn (−ε + β)]

= 1 − FYn (ε + β) + 0

( )nα
β
= ,
ε+β

luego

( )nα
β
lim P (|Yn − β| > ε) = lim
n→∞ n→∞ ε+β

= 0.

Problema 2.9.W:

Para 0 < ε ≤ 1,

P (|n−Xn − 0| > ε) = P (n−Xn > ε)

( )
log(ε)
= P −Xn >
log(n)

( )
log(ε)
= P Xn ≤ −
log(n)

log(ε)
=− −→ 0,
log(n)
log(ε)
usando que 0 < − log(n) < 1, para n suficientemente grande y que Xn tiene distribución
U (0, 1).

- 569 -
Soluciones a Problemas Propuestos

Además, si ε > 1, tenemos P (|n−Xn − 0| > ε) = 0.


Por lo tanto,
n−Xn −
P
→ 0.
n

- 570 -
BIBLIOGRAFÍA

[1] Abramowitz, M. and Stegun, I. Eds. (1964): Handboox of Mathematical Functions


with Formulas, Graphs and Mathematical Tables. U.S. Department of Comerce, Na-
tional Bureau of Standards Applied Mathematics Series 55.
[2] Bussab, W. y Morettin, P. (1991): Estadı́stica Básica, Atual Editora, 4a Edición, Sao
Paulo.
[3] Bury, K. (1999): Statistical Distributions in Engineering, Cambridge University
Press, Cambridge, U.K.
[4] Casella, G., Berger, R. (1991): Statistical Inference, Pacific Growe, Wadsworth and
Brooks/Cole, California, U.S.A.
[5] Evans, D. (1992): Probability and its Applications for Engineers, Marcel Dekker, Inc.
New York, U.S.A.
[6] Evans, M., Hastings, N., Peacock, B. (1993): Statistical Distributions, Second Edi-
tion, John Wiley, New York, U.S.A.
[7] James, B. (1981): Probabilidade: um curso de nı́vel intermediário, Projeto Euclides,
CNPq, Rio de Janeiro, Brasil.
[8] Maronna, R. (1995): Probabilidad y Estadı́stica Elementales, Editorial Exac-
ta, La Plata, Argentina.
[9] Pitman, J. (1993): Probability, Springer-Verlag, New York, U.S.A.
[10] Rice, J. (1995): Mathematical Statistics and Data Analysis, Second Edition, Duxbury
Press, California, U.S.A.
[11] Saavedra, E. (2001): Problemas Resueltos en Probabilidades y Estadı́stica. Central
de Publicaciones, Facultad de Ciencia, Universidad de Santiago de Chile.

571
ÍNDICE DE MATERIAS

Aproximación, 321 Cuantiles, 155, 202


a los cuantiles normales, 172, 179 Cuociente de variables aleatorias, 261, 264
con cuantiles normales Curva Normal, 164
al cuantil t-student, 179
al cuantil chi-cuadrado, 179 Densidad
de poisson a la binomial, 138 t-student, 176
normal a la binomial, 330 beta, 163
normal a la poisson, 332 chi-cuadrado, 174
Azar, 1 conjunta, 225
de probabilidad, 146, 149
Bayes, 105
exponencial, 159
Bernoulli, 53
gamma, 161
Campana de Gauss, 164 normal, 164
Convergencia otras, 179
casi segura, 382, 389 uniforme, 157
en Lp , 383 Desigualdad
en distribución, 383, 388 de Cauchy, 301
en probabilidad, 382, 387 de Chebyshev, 212
Convolución, 259 de Jensen, 219
Coordenadas polares, 273 de Markov, 210
Correlación, 298 Desviación estándar, 121, 195
Covarianza, 290 Diagrama
de combinaciones lineales, 293 de cuantiles, 202
matriz, 296 de Venn, 58
Criterio Distribución
de convergencia en distribución, 391 p-variada, 373
caso discreto, 392 t-student, 178
de Lévy, 391 bernoulli, 126
de Scheffé, 393 beta, 164
de Slutsky, 397 binomial, 125

573
Índice de Materias

binomial negativa, 131 gamma, 161


Cauchy, 192 generadora de momentos, 302
chi-cuadrado, 176 generadora de momentos multivari-
condicional ada, 310
caso continuo, 338 inversa, 155
caso discreto, 333
caso normal bivariado, 342 iid, 268
conjunta, 223 Independencia
continua, 146 de sucesos, 101, 102
discreta, 116 de variables aleatorias, 246, 247
exponencial, 161 Jacobiano, 267
geométrica, 128
marginal, 236 Kolmogorov, 69
multinomial, 233
normal, 172 Laplace, 17
normal bivariada, 235, 270 Ley
poisson, 133 débil de Chebyshev, 389
uniforme bivariada, 234 de los grandes números, 388
uniforme discreta, 123 fuerte de Kolmogorov, 390
uniforme sobre ]a, b[, 158
Método
Error cuadrático medio, 362 captura-recaptura, 19
de Monte Carlo, 295
Espacio muestral, 2
de rechazo, 359
Esperanza
Mediana, 156
condicional, 347, 351
Mejor predictor, 363
de una transformación de un vector
Mejor predictor lineal, 363, 369, 370
aleatorio, 281
Modelo
de variable aleatoria continua, 188,
de Poisson temporal, 138
194
de probabilidades
de variable aleatoria discreta, 121, 122
Binomial, 46
en general, 193
de Laplace, 13
Esquema Bernoulli, 127
Kolmogorov, 57
Evento, 2
Muestreo con y sin reemplazo, 17
Experimento aleatorio, 4, 7, 11, 20, 23,
32 Predicción, 362
Principio de sustitución, 354
Función Probabilidad, 13, 46, 56, 77
caracterı́stica, 312 condicional, 73, 344
convexa, 218
de cuantı́a, 116 Recorrido
de cuantı́a conjunta, 225 de variable aleatoria continua, 146
de densidad conjunta, 225, 226 de variable aleatoria discreta, 116
de distribución acumulada, 117, 118, de vector aleatorio, 225
147, 150 Regla
de distribución conjunta, 223, 225, de inclusión-exclusión, 63
226 de la aditividad, 61

- 574 -
Índice de Materias

de la diferencia, 61
de la diferencia generalizada, 62
del complemento, 60
del producto, 78
del producto generalizado, 84

Simulación, 187, 273


Suma de variables
chi-cuadrado, 310
continuas, 230, 258, 259
discretas, 256
exponenciales, 259
gamma, 309
normales, 260
poisson, 250

Tabla
t-student, 178
chi-cuadrado, 176
normal, 170
Teorema
de Bayes, 95
de probabilidades totales, 92, 344
de transformación de variables caso
bidimensional, 267
de transformación de variables caso
unidimensional, 184
del lı́mite central, 321
Transformación
de un vector aleatorio, 265
de una variable aleatoria, 180

Variable aleatoria
continua, 146
discreta, 116
Varianza
condicional, 348, 351
de una suma, 293
de variable aleatoria continua, 195
de variable aleatoria discreta, 121
Vector aleatorio, 223

- 575 -

S-ar putea să vă placă și