Libro

CURSO INTRODUCTORIO DE
PROBABILIDAD
Raúl Jiménez y Haydée Lugo
Universidad Carlos III de Madrid
Septiembre 2009
2
Índice general
Prefacio 5
1. Conceptos básicos 7
1.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . 10
1.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4. Espacios equiprobables . . . . . . . . . . . . . . . . . . . . . . . 15
1.5. Problemario I . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2. Variables aleatorias discretas 23

2.1. Definición y ejemplos . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Vectores aleatorios discretos . . . . . . . . . . . . . . . . . . . . 27
2.3. Independencia de variables aleatorias discretas . . . . . . . . . . . 29
2.4. Funciones de vectores aleatorios . . . . . . . . . . . . . . . . . . 31
2.5. Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . 35
2.7. Problemario II . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3. Variables aleatorias continuas 41

3.1. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . 42
3.2. Esperanza y funciones de variables aleatorias . . . . . . . . . . . 46
3.3. Densidad conjunta y densidades marginales . . . . . . . . . . . . 47
3.4. Independencia de v.a. continuas . . . . . . . . . . . . . . . . . . 48
3.5. Cambio de variable y aplicaciones . . . . . . . . . . . . . . . . . 50
3.6. Propiedades de la esperanza . . . . . . . . . . . . . . . . . . . . 51
3.7. Densidad y esperanza condicional . . . . . . . . . . . . . . . . . 52
3.8. Extremos y sumas de variables independientes . . . . . . . . . . . 55
3.9. Problemario III . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3
4 ÍNDICE GENERAL
4. Convergencia y funciones generatrices 63

4.1. Desigualdad de Chebyshev y Ley de Grandes Números . . . . . . 63
4.2. Función generatriz de momentos . . . . . . . . . . . . . . . . . . 66
4.3. Función caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4. Convergencia en distribución y Teorema Central del Lı́mite . . . . 71
4.5. Problemario IV . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Prefacio
Estas notas no pretenden sustituir los excelentes libros de introducción a la

probabilidad que he usado para enseñar a estudiantes de ingenierı́a y matemáticas
de la Universidad Simón Bolı́var y a estudiantes de estadı́stica e ingenierı́a de la
Universidad Carlos III de Madrid. Ha sido un verdadero placer basar mis lecciones
en los libros de Grimmett y Welsh1 y Durrett2 . Estos libros son totalmente auto-
contenidos y un buen estudiante podrı́a prescindir de un profesor para aprender
lo que necesite. La intención de estas notas es distinta. Por un lado, proponen un
esquema eficiente para un curso de un trimestre o un cuatrimestre para estudiantes
que ya manejen el cálculo en varias variables. Por otro, ofrecen al estudiante y al
profesor una tabla de contenido ampliada que sirve de guı́a para un curso sin que
sustituya el material que se va a discutir en el pizarrón de clase o el que se debe
leer en los libros de referencia.
Las notas están organizadas en cuatro capı́tulos, cada uno puede cubrirse apro-
ximadamente en tres semanas de clases, con dos sesiones por semana (incluyendo
sesiones de prácticas). Si el curso es de un trimestre (12 semanas) las secciones
4.2 y 4.3 deberı́an omitirse y emplear el tiempo que se les hubiera dedicado para
evaluaciones y pequeños repasos. Si el curso es de un cuatrimestre (14 semanas)
se puede cubrir todo el contenido. Mi recomendación es hacer una evaluación
rápida (quiz) al finalizar el Captulo 1 y dos exámenes, uno sobre los dos prime-
ros capı́tulos y otro sobre los dos últimos. La experiencia me ha demostrado que
separar el tema discreto del continuo ayuda al desarrollo y evaluación del curso.
Los conceptos y resultados más importantes están resaltados en negro en el

texto, en forma de fórmulas numeradas o incluı́dos en definiciones y teoremas (ge-
neralmente con nombres) o en proposiciones numeradas. Las demostraciones no
están necesariamente incluı́das, aunque muchas se incluyen por o bien considerar
que ayudan al discurso de las notas o bien por que la versión que aquı́ se enseña
es mejor que la estándar en este tipo de cursos. La idea es que las notas sean un
5
6 ÍNDICE GENERAL
material ligero y manipulable, ası́ que se requiere que el profesor demuestre y que
el estudiante complete lo que hagan falta.
Me comprometo con los lectores en ir llenando poco a poco las notas con la
intención de hacerlas aún más autocontenidas, sin que esto modifique la inteción
original que tienen. En particular, espero pronto ofrecer soluciones y actualizacio-
nes de algunos ejercicios propuestos ası́ cómo ampliar la gama de ejemplos. Mi
premura en ofrecer esta vesión beta es para remplazar unas notas excesivamente
rudimentarias e incompletas que yo usaba para mis clases y que se han ido repro-
duciendo espontáneamente por algunos estudiantes. Estas notas tienen los tı́picos
errores de cut and paste que siempre corregı́a al pizarrón y me avergüenza que
sigan circulando por ahı́ con mi nombre. Las actualizaciones de las notas pueden
obtenerse en forma libre en mi página web www.est.uc3m.es/rjjimene
Raúl Jiménez
Madrid, 2009
Referencias
1. Grimmett, G. y D. J. A. Welsh. Probability: An introduction. Oxford Uni-

versity Press, Oxford (la primera impresión es de 1986 y existen diversan
reimpresiones con correcciones desde entonces hasta la del 2003).
2. Durrett R. Essentials of Probability. Duxbury Press, Belmont CA (1993,

ahora fuera de prensa para ser reemplazado por Elementary Probability for
Applications, versiones PDF se pueden encontrar en la página del autor
http://www.math.cornell.edu/ durrett)
Capı́tulo 1
Conceptos básicos
Muchos de los eventos que estamos acostumbrados a observar no pueden ser

predeterminados. Por ejemplo, ¿cuánto variará el euro respecto al dólar de hoy
a una semana?, ¿cuánto lloverá durante el próximo mes?. El escenario dispuesto
para observar lo que está por ocurrir se denomina experimento aleatorio. Los
juegos de azar nos brindan ejemplos clásicos de experimentos aleatorios. Aunque
los objetos que estudiemos con la teorı́a de probabilidades estén siempre aso-
ciados a un determinado experimento aleatorio, los presentamos en un contexto
matemático muy general y útil para la modelación de cualquier escenario.
1.1. Espacios de probabilidad

El conjunto de todos los posibles resultados de un experimento aleatorio es
llamado espacio muestral y comúnmente denotado por la letra Ω. Otros conjun-
tos de interés de posibles resultados son llamados eventos y denotados por letras
mayúsculas, generalmente las primeras del abecedario.
A lo largo de estas notas se hace uso intensivo de operaciones con conjuntos,
es por ello que conviene recordar algunos conceptos básicos, tales como:
Conjunto vacı́o.
Conjunto numerable, infinito numerable y no numerable.
Unión, intersección y diferencia de conjuntos.
Complemento y partición de un conjunto.
7
8 CAPÍTULO 1. CONCEPTOS BÁSICOS
Diagramas de Venn.
Leyes distributivas y leyes de Morgan.
Dado un experimento aleatorio, la clase F de todos los eventos o conjuntos de

interés debe tener ciertas propiedades (razonables):
(I) El espacio muestral es un conjunto de interés,
Ω∈F.
(II) Si un conjunto es de interés su complemento también lo es,
si A ∈ F entonces Ac ∈ F .
(III) La unión de una colección contable de eventos es un evento de interés,
si A1 , A2 , . . . son eventos de F entonces ∪n≥1 An ∈ F .
Una clase de eventos que satisface las tres propiedades anteriores se denomina
σ-álgebra. Es fácil comprobar que si F es una σ-álgebra entonces cumple pro-
piedades tales como:
(I’) 0/ ∈ F .
(II’) Si A, B ∈ F entonces A − B ∈ F .
(III’) Si A1 , A2 , . . . son eventos de F entonces ∩n≥1 An ∈ F .
Aún más general, se puede demostrar que F es cerrada bajo operaciones

numerables de conjuntos.
Uno de nuestros objetivos es medir el chance de que eventos asociados a un
experimento aleatorio ocurran: ¿cuál es el chance de que llueva más este otoño
que el pasado?, ¿cuál es el chance de que el euro retroceda ante el dólar?, ¿cuál es
el chance de ganar un juego de póker?.
Una medida de probabilidad es una función que asigna a cada evento el
chance o probabilidad que tiene de ocurrir al observar un experimento aleatorio.
Si asignamos a los eventos que no tienen chance de ocurrir probabilidad 0 y a los
eventos que tienen chance seguro de ocurrir probabilidad 1, entonces una medida
1.1. ESPACIOS DE PROBABILIDAD 9
de probabilidad es una función P : F → [0, 1] que debe satisfacer las siguientes

propiedades:
P(Ω) = 1, (1.1)
Si A1 , A2 , . . . son eventos disjuntos de F , es decir si Ai ∩ A j = 0/ para todo i 6= j,

entonces
P(∪n≥1 An ) = ∑ P(An ) (1.2)
n≥1
Esta última propiedad es conocida como σ-aditividad y es natural exigı́rsela a

casi cualquier medida: área, volúmen, etc. La idea subyacente es que toda medida
debe permitir medir por partes.
A partir de (1.1) y (1.2) las siguientes propiedades de las medidas de probabi-
lidad pueden (y deben) ser demostradas todas de manera directa:
/ =0
P1. P(0)
P2. Aditividad: Si A1 , A2 , . . . , An son eventos disjuntos, entonces

n
P(∪ni=1 Ai ) = ∑ P(Ai )
i=1
P3. P(Ac ) = 1 − P(A)
P4. P(B − A) = P(B) − P(B ∩ A)
P5. Si A ⊂ B entonces P(B − A) = P(B) − P(A)
P6. Monotonı́a: Si A ⊂ B entonces P(A) ≤ P(B)
P7. P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
P8. Subaditividad: P(∪n≥1 An ) ≤ ∑ni=1 P(Ai )
Otras propiedades que se demuestran con un poco más de trabajo (el profesor
puede escoger un par de ellas, recomendamos P10 y P11) son:
P9. Fórmula de inclusión exclusión:

n n
P(∪ni=1 Ai ) = ∑ P(Ai) − ∑ P(Ai ∩ A j )
i=1 i< j
n
+ ∑ P(Ai ∩ A j ∩ Ak )
i< j<k
− · · · + (−1)n+1 P(∩ni=1 Ai )
Note que el caso n = 2 corresponde a P7. El caso n = 3 se requiere para

resolver varios ejercicios.
P10. σ-subaditividad: Para cualquier sucesión de eventos, no necesariamente dis-

juntos,
P(∪n≥1 An ) ≤ ∑ P(An )
n≥1
P11. Continuidad por la izquierda: Si A1 , A2 , . . . es una sucesión creciente de

eventos, es decir, para cualquier n se verifica que An ⊂ An+1 , entonces
P(∪n≥1 An ) = lı́m P(An )

n
P12. Continuidad por la derecha: Si A1 , A2 , . . . es una sucesión decreciente de

eventos, es decir, para cualquier n se verifica que An+1 ⊂ An , entonces
P(∩n≥1 An ) = lı́m P(An )

n
Dado un espacio muestral Ω, una σ-álgebra F de subconjuntos de Ω y una

medida de probabilidad P : F → [0, 1], la terna (Ω, F , P) es llamada espacio de
probabilidad.
1.2. Probabilidad condicional

Información adicional, no contemplada, de un experimento puede modificar
el escenario de tal forma que la probabilidad que le hayamos dado a un evento
puede variar. Por ejemplo, la probabilidad que le hayamos dado a que el euro se
revalorizará frente al dólar durante la próxima semana cambiará si sabemos que
acaba de ocurrir una caı́da importante en Wall Street. En general, consideremos
1.2. PROBABILIDAD CONDICIONAL 11
que A y B son eventos que ocurren con probabilidad P(A) y P(B). Si sabemos
que B ha ocurrido la probabilidad de que A ocurra no tiene por que seguir siendo
P(A), ya que A ocurrirá sı́ y sólo sı́ A ∩ B ocurre. Lo anterior sugiere que, dado
que B ocurre, la probabilidad de A es proporcional a P(A ∩ B). Ya que, dado que B
ocurre, B en un evento seguro, la constante de proporcionalidad a la que hacemos
referencia debe ser 1/P(B). La siguiente definición pone orden al trabalenguas
anterior.
Definición (Probabilidad Condicional). Sean A, B eventos con P(B) > 0, en-
tonces la probabilidad condicional de A dado B se denota por P(A|B) y se define
por
P(A ∩ B)
P(A|B) = .
P(B)
Para cada evento A, P(A|B) es un número positivo, es decir, la probabilidad con-
dicional establece un correspondencia entre los eventos y los números reales po-
sitivos. Más especı́ficamente, la probabilidad condicional es una medida de pro-
babilidad.
Proposición 1. Sea B un evento con P(B) > 0, entonces
(i) Para todo evento A, 0 ≤ P(A|B) ≤ 1
(ii) P(Ω|B) = 1
(iii) Si A1 , A2 , . . . son eventos disjuntos entonces
P(∪n≥1 An |B) = ∑ P(An|B)

n≥1
Por la proposición anterior, todas las propiedades que satisfacen las medidas
probabilidad también las satisface la probabilidad condicional. Por ejemplo, la
probabilidad condicional es monótona, subaditiva, continua por la derecha y por
la izquierda.
La probabilidad condicional brinda una importante fórmula para el cálculo de
probabilidades, cuando se tiene una partición apropiada del espacio muestral. Una
partición de un conjunto A es una sucesión de eventos disjuntos B1 , B2 , . . . cuya
unión sea A.
Fórmula de probabilidad total. Sea B1 , B2 , . . . una partición del espacio mues-

tral, Supongamos que P(Bi ) > 0 para i ≥ 1. Entonces, para cualquier evento A,
P(A) = ∑ P(A|Bi )P(Bi ). (1.3)

i≥1
La aplicación de esta fórmula se basa en la apropiada escogencia de la partición,

de manera que P(A|Bi ) sea sencillo de calcular. Comúnmente esta fórmula sim-
plifica engorrosos cálculos.
Ejemplo. Se tienen dos cajas. La primera tiene b1 bolas blancas y r1 rojas. La
segunda caja tiene b2 bolas blancas y r2 rojas. Si se pasa una bola al azar de la
primera caja a la segunda y luego se extrae un bola al azar de la segunda caja, use
la fórmula de probabilidad total para calcular la probabilidad de extraer una bola
blanca de la segunda caja.
Son comunes las situaciones en las que se tiene conocimiento preciso, o al
menos información estadı́stica, acerca de P(A|B) cuando en realidad se requiere
conocer P(B|A). La siguiente es una sencilla y poderosa fórmula, que relaciona
ambas probabilidades.
Fórmula de Bayes. Sean A y B eventos con probabilidad no nula, entonces
P(A|B)P(B)
P(B|A) = (1.4)
P(A)
Ejemplo. Continuando con el ejemplo anterior, use la fórmula de Bayes para cal-
cular la probabilidad de haber pasado una bola roja de la primera caja a la segunda
caja cuando la que se extrajo de la segunda caja fue blanca.
Otra fórmula de mucha utilidad para cálculo de probabilidades, cuando se con-
sideran experimentos secuenciales que son modelados a través de árboles de
decisión, es la llamada fórmula de multiplicación:
Fórmula de multiplicación. Sean A1 , A2 , . . . , An eventos con probabilidad no nu-
la. Entonces, para n ≥ 2,
P(∩ni=1 Ai ) = P(A1 )P(A2 |A1 ) · · · P(An | ∩n−1

i=1 Ai ) (1.5)
1.3. INDEPENDENCIA 13
1.3. Independencia
La noción de independencia en teorı́a de probabilidades está tomada de su
significado cotidiano. En general, decimos que un par es independiente cuando el
resultado de las acciones de uno no afecta en el resultado las acciones del otro.
En términos probabilı́sticos, diremos que dos eventos son independientes si la
ocurrencia de uno de ellos no afecta la probabilidad de ocurrecia del otro. Es
decir, A es independiente de B si
P(A|B) = P(A)
Para que la ecuación anterior esté bien definida, es necesario que P(B) > 0, en
cuyo caso, podemos reescribir la ecuación como
P(A ∩ B) = P(A)P(B)
De esta última ecuación podemos observar que:

La independencia es recı́proca, esto es, si A es independiente de B entonces
B es independiente de A.
La condición P(B) o P(A) > 0 no es requerida.

Ahora estamos en capacidad de definir formalmente la independencia e interpre-
tarla.
Independencia de dos eventos. Decimos que el par de eventos A, B son indepen-
dientes respecto a P si
P(A ∩ B) = P(A)P(B) (1.6)
¿Cómo generalizar la noción de independencia de una par de eventos a una
familia?. Pues igual que en el sentido cotidiano: Para que una familia sea inde-
pendiente cualquier subgrupo debe serlo, no basta que sean independientes por
pares o que lo sea un subgrupo en particular.
Independencia de una Familia de Eventos. Decimos que la familia de eventos
{Ai , i ∈ I} es independiente si para cualquier J ⊂ I
P(∩i∈J Ai ) = Πi∈J P(Ai ) (1.7)
Ejemplo. Considere Ω = {1, 2, 3, 4} y P({ω}) = 1/4 para todo ω ∈ Ω. Sean A =

{1, 2}, B = {1, 3} y C = {1, 4}. Note que la probabilidad de cada uno de estos
eventos es 1/2 y por tanto cada par de eventos son independientes. Por ejemplo, A
y B son independientes ya que
P(A ∩ B) = 1/4 = P(A)P(B).
Sin embargo, P(A ∩ B ∩ C) = 1/4 6= P(A)P(B)P(C), y por tanto A, B y C no son
independientes.
Para determinar la no independencia (dependencia) de una familia de eventos
basta verificar que la ecuación (1.7) no se cumple para un subgrupo particular (pa-
ra algún J). Sin embargo, la independencia de una colección de eventos puede ser
una propiedad dura de comprobar. Por ejemplo, para verificar por definición la in-
dependencia de apenas 10 eventos habrı́a que verificar más de 1000 ecuaciones!.
Afortunadamente, consideraremos muchos casos en que la independencia de una
familia de eventos es una consecuencia directa de la manera en que son obser-
vados. El caso que queremos destacar trata de eventos asociados a repeticiones
independientes de experimentos aleatorios, tales como lanzamientos sucesivos
de un dado o una moneda. Si se tienen n experimentos independientes, en el senti-
do de que los resultados de unos no afectan los resultados de los otros, y A1 , A2 , . . .
son eventos asociados al primer experimento, al segundo, etc., entonces A1 , A2 , . . .
son independientes.
Los siguientes dos resultados conciernen con sucesiones de eventos asociados
a experimentos independientes.
Proposición 2. Si A es un evento con probabilidad no nula de que ocurra aso-
ciado a un experimento. Si repetimos el experimento infinitas veces, entonces A
ocurre alguna vez con probabilidad 1.
Para demostrar este resultado aplicamos varias propiedades que hemos apren-
dido. Llamando An el evento A ocurre en el nésimo experimento y p = P(An ),
usando P2, las leyes de Morgan, P12 y la independencia de A1 , A2 . . . , Am , obtene-
mos
P(A ocurre alguna vez) = P(∪n≥1 An )
= 1 − P ([∪n≥1 An ]c )
= 1 − P(∩n≥1 Acn )
= 1 − lı́m P(∩mn≥1 An )
c
m→∞
= 1 − lı́m (1 − p)m = 1
m→∞
1.4. ESPACIOS EQUIPROBABLES 15
Proposición 3. Sean A y B son eventos mutuamente excluyentes, asociados a un

experimento con probabilidad no nula de que ocurran. Entonces, si repetimos el
experimento infinitas veces, A ocurre antes que B con probabilidad
P(A)
P(A ocurra antes que B) = .
P(A) + P(B)
Para probar esta proposición observemos que
P(A ocurra antes que B) = ∑ P(A ocurre antes que B en el experimento k)

k≥1
= ∑ [P(ni A ni B ocurren)]k P(A)
k≥0
P(A)
=
1 − P(ni A ni B ocurren)
1 P(A)
= P(A) = .
P(A ∪ B) P(A) + P(B)
Una elegante aplicación de la conjunción de este resultado con la fórmula

de probabilidad total, que sugerimos que o bien el profesor o bien el estudiante
demuestre, determina que la probabilidad de ganar en el juego de dados es

8 3 3 4 4 5 5 244
+2 + + = = 0,493.
36 36 3 + 6 36 4 + 6 36 5 + 6 495
En el juego tiras los dados en una primera ronda. Si sale 7 o 11 ganas. Si sale 2,
3 o 12 pierdes. Si tiras 4, 5, 6, 8, 9 o 10 hay que seguir lanzando hasta que o bien
repitas el número que lanzaste en la primera ronda o bien salga un 7. En el primer
caso ganas, en el segundo pierdes.
1.4. Espacios equiprobables

En muchos experimentos aleatorios; por ejemplo, en la mayorı́a de los jue-
gos de azar; el cálculo de probabilidades puede reducirse a contar el número de
elementos de un conjunto.
Denotemos por |A| el número de elementos o cardinal del conjunto A. Si
Ω es finito y todos los resultados del experimento tienen igual probabilidad de
ocurrencia decimos que el espacio es equiprobable. En ese caso, la probabilidad

de un resultado cualquiera del experimento debe ser 1/|Ω|, ya que P(Ω) = 1. Ası́,
la probabilidad de un evento A de un espacio equiprobable es
P(A) = |A|/|Ω|.
A continuación, vamos a presentar dos esquemas elementales de conteo.

Variaciones y Permutaciones. Sean E y F dos conjuntos finitos. Supongamos
sin pérdida de generalidad que E = {1, 2, . . . , p} y F = {1, 2, . . . , n}. Denotemos
p
por In el número de funciones inyectivas que van de E a F. Claramente, si p > n
p
entonces In = 0. Si p ≤ n, podemos construir una función inyectiva f : E → F
usando el siguiente esquema recursivo:
Empezamos seleccionando f (1) entre los n elementos pertenecientes a F. Una
vez escogido f (1) , existe n − 1 posibles escogencias para f (2), ya que f (2) debe
diferir de f (1) para que f sea inyectiva. Siguiendo este procedimiento, f (i) puede
ser escogido entre los n − (i − 1) elementos F − { f (1), . . . , f (i − 1)}. En total,
tenemos n(n − 1) . . . (n − p + 1) posibilidades para construir f .
En resumen, si p ≤ n, el número de inyecciones de E a F es
n!
Inp = n(n − 1) . . . (n − p + 1) = ,
(n − p)!
siendo n! el factorial de n, definido por
n! = 1 · 2 · 3 · · · n (1.8)
para n ≥ 1 y 0! = 1.
Varios problemas de conteo se reducen a calcular el número de funciones in-
yectivas entre dos conjuntos. Por ejemplo, ¿de cuántas maneras podemos colocar
p bolas enumeradas en n cajas?. Otro problema tı́pico es: ¿cuántos arreglos, o
conjuntos ordenados, pueden construirse extrayendo sin reposición p elementos
p
de un conjuntos con n elementos. La respuesta a ambas preguntas es In .
El caso especial Inn = Pn = n! es comunmente interpretado como el total de
permutaciones de n elementos, lo cual no es más que el número de funciones
biyectivas sobre un conjunto de n elementos.
1.4. ESPACIOS EQUIPROBABLES 17
Números Combinatorios. Sea F un conjunto con n elementos, a continuación

vamos a responder la pregunta de cuántos subconjuntos de F con p elementos
hay.
Ya que un arreglo de p elementos de F (x1 , x2 , ..., x p ) puede identificarse como
una función inyectiva f : {1, . . . , p} → F definida por f (i) = xi , el número de
p
arreglos o subconjuntos ordenados de F con p elementos es In . Ahora, las p!
permutaciones del arreglo (x1 , . . . , x p ) representan el mismo subconjunto de F.
En consecuencia, el número de subconjuntos diferentes de F con p elementos es
p
In dividido por el número p! de permutaciones de un conjunto con p elementos.
Ası́, si p ≤ n, el número de subconjuntos de F con p elementos es

n n!
= (1.9)
p (n − p)!p!
De la fórmula del binomio de Newton y de los cálculos anteriores podemos

deducir que el número de subconjuntos de un conjunto de n elementos es 2n , ya
que
n n
n
∑ (número de subconjuntos con n elementos) = ∑ p = 2n. (1.10)
p=0 p=0
Una propiedad útil de los números combinatorios es

n n
= . (1.11)
p n− p
Otra, conocida como fórmula de Pascal, es

n n−1 n−1
= + . (1.12)
p p−1 p
Varios problemas clásicos del cálculo de probabilidades, que se reducen a con-

tar el número de elementos de un conjunto son versiones del siguiente problema
de muestreo sin reposición:
De una caja que contiene N1 bolas negras y N2 bolas rojas y escogemos aleato-
riamente n bolas (n ≤ N1 + N2 ) sin reposición. ¿Cuál es la probabilidad de escoger
exactamente k bolas negras? Si k es mayor que N1 o n, la probabilidad de escoger
k bolas negras es cero, ası́ que supondremos que 0 ≤ k ≤ mı́n(N1 , n). El conjunto
Ω de todos los posibles resultados del experimento aleatorio es la familia de todos

los subconjuntos ω de n bolas de las N1 + N2 bolas de la caja. De manera que

N1 + N2
|Ω| =
n
Debemos contar los subconjuntos ω con k bolas negras y n − k bolas rojas. Para
formar tal conjunto debemos formar
un conjunto de k bolas negras entre las N1
bolas negras. Sabemos que hay Nk1 posibilidades de hacer lo anterior. Para cada
subconjunto de k bolas negras, debemos asociar un subconjuntode n− k bolas
N2
rojas. Este conjunto lo formamos de entre las N2 bolas rojas y hay n−k maneras
de hacerlo. Ası́ que, si A es el evento que consiste en escoger k bolas negras y
n − k bolas rojas, de las N1 + N2 bolas que hay en la caja, entonces

N1 N2
|A| =
k n−k
Por lo tanto, la probabilidad de A es

N1 N2
k n−k
P(A) = (1.13)
N1 +N2
n
1.5. Problemario I
1. Supongamos que Ω = A ∪ B y P(A ∩ B) = 0,2. Hallar:
a) El máximo valor posible para P(B), de tal manera que se cumpla

P(A) ≥ P(B).
b) P(Ac ), sabiendo que P(B) = 0,7
c) P(Ac ∩ Bc )
2. Dado que: Ω = A ∪ B ∪C, P(A) = P(B) = P(C) = p,

P(A ∩ B) = P(A ∩C) = P(B ∩C) = q y P(A ∩ B ∩C) = z . Hallar:
a) P(Ac ∩ Bc ∩C)
b) P((A ∩ B ∩C)c )
c) P(A ∪ (Bc ∩Cc ))
1.5. PROBLEMARIO I 19
d) P((A ∩ B)c ∪Cc )
3. Se sientan 4 personas, al azar, en 4 sillas que llevan sus nombres (una silla
con cada nombre). ¿Qué probabilidad hay de que alguna de las personas
quede en la silla con su nombre?
4. La siguiente tabla contiene las probabilidades correspondientes a las inter-

secciones de los eventos indicados:
B Bc
A 0.4 0.2
Ac 0.15 0.25
a) Hallar P(A | B)
b) Hallar P(B | A)
c) Hallar P(Ac | B)
d) Hallar P(Bc | A)
5. Si n personas se sientan al azar en una fila de 2n asientos, halle la probabi-

lidad de que no queden 2 personas en sillas contiguas.
6. En el lanzamiento de un par de dados, encuentre la probabilidad de que:
a) La suma de los dados sea 7

b) La diferencia entre las caras sea mayor que tres.
7. Se lanza una moneda 8 veces, hallar la probabilidad de que:
a) se obtengan exactamente 5 caras,

b) se obtengan a lo sumo 4 sellos.
8. Las barajas de poker constan de 52 cartas (no incluimos los comodines), dis-
tribuidas como sigue: se tienen 4 pintas: corazón (♥), diamante (♦), trébol
(♣) y pica (♠). De cada pinta hay 13 cartas denominadas 1,2,...,10, J, Q y
K. Se reparten al azar 5 cartas (una mano) a cada jugador. Hallar la proba-
bilidad de que en una mano el jugador I reciba:
a) ninguna pica,
b) al menos 2 picas,
c) 3 cartas del mismo número (un trı́o) y otras dos cartas con números
distintos al del trı́o y distintos entre sı́. Por ejemplo,
{3♥, 3♠, 3♣, 5♣, Q♦} es una mano incluı́da en el evento que nos in-
teresa.
9. La urna I contiene r bolas rojas y b blancas. La urna II contiene, inicial-
mente, una bola roja y una blanca. Se toma una bola al azar de la urna I y
se pasa a la II, luego se extrae una bola al azar de la urna II y resulta ser
blanca. ¿Cúal es la probabilidad de que la bola pasada de la urna I a la II
haya sido blanca?
10. Las llamadas telefónicas a una empresa son recibidas por tres recepcionistas
A, B y C, de tal manera que de las 200 llamadas recibidas en un dı́a, 60
son atendidas por la recepcionista A, 80 por B y las restantes por C. La
recepcionista A se equivoca al pasar la llamada en un 2 % de las veces,
la recepcionista B en un 5 % y la C en un 3 %. Hallar la probabilidad de
que al pasar una llamada recibida en la empresa, ésta sea pasada al lugar
equivocado
11. Una urna contiene inicialmente r bolas rojas y b blancas. Se extraen 5 bolas,
una por una, al azar, sin remplazo.
a) Hallar la probabilidad de que la secuencia sea RBRBR (Primera Roja,
Segunda Blanca,...).
b) Hallar la probabilidad de que la secuencia sea RRRBB. Compare con
(a). Generalize.
c) Ahora se extraen al azar, una por una y sin remplazo, todas las bolas
de la urna. Diga porque todas las secuencias de extracción tienen la
misma probabilidad.
d) ¿Cuál es la probabilidad de que la última bola extraı́da sea roja?
12. Un virus peligroso está presente en el 0.01 % de la población nacional. Se
tiene una prueba clı́nica para detectar la presencia del virus, y esta prueba es
correcta en el 99 % de los casos (es decir, entre los portadores del virus, la
prueba dá positivo el 99 % de las veces y entre los no portadores dá negativo
el 99 % de las veces). Un individuo tomado al azar en la población es some-
tido a la prueba y el resultado de ésta es positivo. Al conocer el resultado de
la prueba, ¿cuál es la probabilidad de que este individuo sea realmente un
portador del virus?. Comente sobre el valor de esta probabilidad.
1.5. PROBLEMARIO I 21
13. Existen 2 caminos para ir de A hasta B, y 2 caminos para ir desde B a C.

Cada uno de los caminos tiene probabilidad p de estar bloqueado, inde-
pendientemente de los otros. Hallar la probabilidad de que haya un camino
abierto de A a B, dado que no hay camino de A a C.
14. Se recibe un lote de 1000 artefactos, de los cuales 60 están dañados. Para
decidir si aceptamos o no el lote se seleccionan 200 artefactos al azar, sin
remplazo, rechazando el lote si más de 2 están dañados. Hallar la probabili-
dad de aceptar el lote.
15. Consideremos una sucesión de experimentos independientes consistentes

en el lanzamiento de dos dados. En este juego se gana si la suma de los
dados es 7. Hallar:
a) la probabilidad de ganar por vez primera, en un intento posterior al

12do.
b) La probabilidad de haber ganado 2 veces en 20 intentos.
c) en 10 intentos, la probabilidad de haber ganado 3 ó más veces.
16. Una unidad de mantenimiento sabe que cada falla reportada tiene probabi-
lidad 0.15 de ser falsa alarma. Si la unidad acepta 25 solicitudes de man-
tenimiento por dı́a y sólo dispone del tiempo para atender 20 fallas reales,
determine: ¿Cuál es la probabilidad de que todas las fallas reales sean aten-
didas?
17. Un estanque contiene 500 peces de los cuales 300 están marcados. Un pes-
cador logra sacar 50 peces. Hallar la probabilidad de que:
a) 20 de los peces estén marcados,

b) ninguno de los peces esté marcado.
18. Un lector óptico falla en la lectura del código de barras, con una probabili-
dad de 0.01.
a) ¿Cuál es la probabilidad de que el lector falle solo una vez en las pri-
meras 10 lecturas?
b) ¿Cuál es la probabilidad de que el lector no falle en las primeras 20
lecturas dado que en las primeras 10 lecturas, el lector no falló.
19. Un depósito guarda 1000 artı́culos, 100 de los cuales son defectuosos. Un
inspector toma uno de los artı́culos al azar, y si no es defectuoso lo devuelve
al lote. Sea N el número de inspecciones de objetos no defectuosos, que se
realizan antes de encontrar el primer objeto defectuoso. Calcular la proba-
bilidad de tener 25 ≤ N ≤ 60.
20. En un colegio de Artes están matriculados 300 hombres y 700 mujeres. Se

eligen 25 estudiantes al azar, hallar la probabilidad de que 15 ó más de los
elegidos sean mujeres si el muestreo se hace (a) con reemplazo y (b) sin
reemplazo.
Capı́tulo 2
Variables aleatorias discretas
Consideremos el lanzamiento de un dado, Ω = {1, 2, 3, 4, 5, 6}, y supongamos

que apostamos al resultado de tal manera que nuestra ganancia es
−1 si el resultado es impar,
0 si el resultado es 2 o 4,
2,75 si el resultado es 6.
Se entiende que ganancias negativas son pérdidas positivas. Si el resultado es ω,
la ganancia puede expresarse como X(ω), donde X : Ω → R es la función definida
por
X(1) = X(3) = X(5) = −1
X(2) = X(4) = 0
X(6) = 2,75
X es un ejemplo de una variable aleatoria discreta, las cuales son nuestro actual
objeto de estudio.
2.1. Definición y ejemplos

Dado un espacio de probabilidad (Ω, F , P), una variable aleatoria discreta
es una función X : Ω → R tal que
1. Su conjunto de imágenes X(Ω) = {x ∈ R : X(ω) = x, para algún ω ∈ Ω} es
un conjunto numerable. Es decir, X(Ω) = {xi : i ∈ I}, para algún conjunto
(finito o infinito) de ı́ndices I ⊂ N.
23
24 CAPÍTULO 2. VARIABLES ALEATORIAS DISCRETAS
2. Para todo x ∈ R se verifica
{ω ∈ Ω : X(ω) = x} ∈ F . (2.1)
La primera condición se refiere al hecho de que X toma solamente valores

en un conjunto numerable de R. La segunda condición puede parecer oscura al
primer vistazo. La idea es que podamos dar probabilidades de que la variable
tome cualquiera de sus posibles valores, pero esta probabilidad puede no estar
definida si no se satisface (2.1) para algún x (la probabilidad sólo tiene que estar
definida para los eventos pertenecientes a F ). Consideremos Ω = N y σ-álgebra
F formada por el vacı́o, los números pares positivos (Pares), los impares posi-
tivos (Impares) y N. Sea P : F → [0, 1] la medida de probabilidad definida por
P(Pares) = P(Impares) = 1/2 y X : Ω → R la función identidad X(ω) = ω. Note
que
{ω ∈ Ω : X(ω) = x} = {x} si x ∈ N
= 0/ en caso contrario
Ası́ que no podemos decir con que probabilidad la variable toma el valor 2 o 4,
sólo sabemos que es par con probabilidad 1/2 y un número natural con probabili-
dad 1. Como mencionamos, nos interesa la probabilidad de que la variable tome
cualquiera de sus posible valores. A eso apunta la siguiente definición.
Función de masa de probabilidad. La función de masa de probabilidad (fmp) de
la variable aleatoria discreta X es la función pX : R → [0, 1] definida por
pX (x) = P(X = x) = P({ω ∈ Ω : X(ω) = x})
Ya que P(X = x) es la probabilidad de que X tome el valor x, se tiene que
P(X = x) ≥ 0 para todo x ∈ R
P(X = x) = 0 para todo x ∈

/ X(Ω).
Además, y esta es otra importante propiedad de las funciones de masa de proba-
bilidad,
∑ P(X = x) = ∑ P(X = x) = P(Ω) = 1. (2.2)
x x∈X(Ω)
Esta propiedad caracteriza las funciones de masa de probabilidad de las variables

aleatorias discretas en el sentido siguiente:
2.1. DEFINICIÓN Y EJEMPLOS 25
Si A es un conjunto numerable de R y π : A → R satisface

π≥0 y ∑ π(x) = 1, (2.3)
x∈A
entonces π es la fmp de una variable aleatoria X asociada a un espacio de proba-

bilidades (Ω, F , P) tal que X(Ω) = A.
Otro concepto muy importante en teorı́a de probabilidades es el de función de
distribución de una variable aleatoria:
La función de distribución de una variable aleatoria X es la función FX : R →
[0, 1] definida por
FX (x) = P(X ≤ x). (2.4)
A partir de la función de distribución de una variable aleatoria discreta podemos
calcular su fmp y viceversa. Especı́ficamente,
FX (x) = ∑ P(X = xi) y P(X = x) = F(x) − lı́m F(x − ε)
xi ≤x ε→0+
En general, basta determinar una de estas dos funciones para calcular probabili-
dades de los eventos asociados a una variable aleatoria, que en general son del
tipo
P(X ∈ A) = P({ω ∈ Ω : X(w) ∈ A}) = ∑ P(X = xi )
xi ∈A
Si F es la función de distribución de una variable aleatoria escribimos X ∼ F

y si X y Y son variables aleatorias con la misma función de distribución decimos
que son igualmente distribuı́das y escribimos X ∼ Y . Veamos algunos ejemplos
clásicos:
Distribución Bernoulli. Decimos que X es una variable aleatoria con distribución
Bernoulli de parámetro p, y escribimos X ∼ Bernoulli(p), si
P(X = 1) = p, P(X = 0) = 1 − p, para algún p ∈ [0, 1].
En el argot, p se entiende como la probabilidad de éxito de un determinado suceso
en un experimento y q = 1 − p la del fracaso o éxito del complemento.
Distribución Binomial. Decimos que X tiene distribución Binomial con paráme-
tros n y p, X ∼ Bin(n, p), si
n
P(X = k) = pk qn−k , para k = 0, 1, . . . , n. (2.5)
k
Para demostrar que la función definida en (2.5) satisface (2.3) es necesario usar la
fórmula del binomio de Newton. Ası́,
n n
∑ pk qn−k = (p + q)n = 1
k=0 k
P(X = k) en (2.5) es la probabilidad de observar un total de k éxitos en n experi-

mentos independientes, cada uno con probabilidad p de que sea éxito.
Figura 2.1: Funciones de masa de probabilidad de Binomiales de parámetros n =

10 y p = 1/4 (gris), p = 1/2 (negro), p = 3/4 (blanco).
Distribución Geométrica. Decimos que la distribución de X es Geométrica con

parámetro p, X ∼ Geo(p), si
P(X = n) = qk−1 p, para n = 1, 2, 3, . . . . (2.6)
Note que
∞ ∞
1
∑ pqk−1 = p ∑ qk = p =1
k=1 k=0 1−q
La probabilidad (2.6) es la de requerir exactamente n repeticiones independientes

de un mismo experimento hasta observar el primer éxito. Igual que antes, p es la
probabilidad de éxito en un experimento y q = 1 − p.
2.2. VECTORES ALEATORIOS DISCRETOS 27
Distribución Hipergeométrica. X es una variable Hipergeométrica de paráme-

tros N, NA y n, con N > máx(NA , n), si

NA N−NA
k n−k
P(X = k) = , para k = 0, 1, . . . , mı́n(NA , n) (2.7)
N
n
Para demostrar que esta es una función de masa de probabilidad, es necesario

hacer uso de (1.13). La probabilidad (2.7) es la de extraer k elementos de un
conjunto A ⊂ Ω, cuando se extraen aleatoriamente y sin reposicin n elementos de
Ω. Aquı́ |A| = NA y |Ω| = N.
Distribución de Poisson. X es Poisson de parámetro λ > 0, X ∼ Poisson(λ), si
1 k −λ
P(X = k) = λ e , para k = 0, 1, 2, . . . . (2.8)
k!
Haciendo uso del desarrollo en serie de Taylor de la función exponencial, es senci-
llo comprobar que la función definida en (2.8) satisface (2.3). Cuando n es grande
y p pequeño, haciendo λ = np, la aproximación
n 1 k −λ
pk qn−k ≈ λe
k k!
es buena. De manera que el modelo Poisson puede entenderse como un caso lı́mite
del Binomial, cuando el número de experimentos es grande y la probabilidad de
éxito de cada experimento es pequeña. Al final del curso formalizamos esta idea.
2.2. Vectores aleatorios discretos

Sean X e Y variables aleatorias discretas definidas sobre un mismo espacio mues-
tral. El vector aleatorio (X,Y ) toma valores en un subconjunto numerable de R2
y estamos interesados en la probabilidad de que el vector tome esos valores. La
función de masa de probabilidad conjunta de las variables X e Y es la función
pX,Y : R2 → [0, 1] definida por:
pX,Y (x, y) = P(X = x,Y = y)

= P({ω ∈ Ω : X(ω) = x} ∩ {ω ∈ Ω : Y (ω) = y}) (2.9)
0.3
0.25
0.2
0.15
0.1
0.05
0
0 2 4 6 8 10 12 14 16 18
Figura 2.2: Funciones de masa de probabilidad de variables Poisson de parámetros

λ = 2 (blanco) y λ = 5 (negro).
Similar al caso univariante, si x ∈

/ X(Ω) o y ∈
/ Y (Ω) entonces P(X = x,Y = y) = 0,
y
∑ ∑ P(X = x,Y = y) = 1.
x y
Las funciones de masa de probabilidad P(X = x) y P(Y = y) las podemos obtener

a partir de la función de masa de probabilidad conjunta marginalizando de manera
adecuada. Para ello, note que Ω = ∪x {ω : X(ω) = x} = ∪y {ω : Y (ω) = y}. Usando
la aditividad de la medida de probabilidad
P(X = x) = P({ω : X(ω) = x})
= P({ω : X(ω) = x} ∩ (∪y {ω : Y (ω) = y}))
= ∑ P({ω : X(ω) = x} ∩ {ω : Y (ω) = y})
y
= ∑ P(X = x,Y = y)
y
Cambiando X por Y en los cáculos anteriores obtenemos la fmp de Y a partir de

la conjunta,
P(Y = y) = ∑ P(X = x,Y = y)
x
En este contexto las funciones P(X = x) y P(Y = y) son llamadas marginales de

X y Y respectivamente.
2.3. INDEPENDENCIA DE VARIABLES ALEATORIAS DISCRETAS 29
Ejemplo. Sea X una variable que toman valores 1, 2, 3 y Y una que toma valores
1, 2, 3, 4. Suponga que la probabilidad de que el par (X,Y ) tome el valor (x, y)
viene dada por la entrada x, y de la siguiente tabla.
1 2 3 4
1 0,10 0,05 0,05 0,00
2 0,15 0,10 0,05 0,00
3 0,20 0,15 0,10 0,05
Entonces la marginal de X se obtiene sumando las columnas y la de Y las filas.

Cuando X,Y son discretas, la función de probabilidad condicional de X da-
do Y = y se define por la probabilidad condicional
P(X = x,Y = y)
P(X = x|Y = y) = .
P(Y = y)
De esta forma, las probabilidades condicionales del tipo P(X ∈ A|Y = y) se cal-
culan usando la siguiente identidad:
P(X ∈ A|Y = y) = ∑ P(X = x|Y = y)
x∈A
Ejemplo. Siguiendo con el ejemplo anterior,

P(X > 1|Y = 1) = 0, 35 y P(X > 1|Y = 2) = 0,25
2.3. Independencia de variables aleatorias discretas

Recordemos que dos eventos A y B son independientes si
P(A ∩ B) = P(A)P(B)
Hablaremos de independencia de variables si una toma valores independiente de
los valores que tome la otra. En otras palabras, las variables discretas X e Y son
independientes si los eventos
{ω ∈ Ω : X(ω) = x} y {ω ∈ Ω : Y (ω) = y}
son independientes para todo x, y ∈ R. Es decir, X y Y son independientes si la
función de masa de probabilidad conjunta es el producto de las marginales,
P(X = x,Y = y) = P(X = x)P(Y = y) para todo x, y ∈ R
Observación: X,Y son independientes sı́ y sólamente sı́ existen funciones f , g :

R → R tal que
PX,Y (x, y) = P(X = x,Y = y) = f (x)g(y) para todo x, y ∈ R
aún cuando f , g no sean las marginales de las variables en cuestión.

Ejemplo. Sean X,Y variables aleatorias con función de masa conjunta definida
por
1 x y −(λ+µ)
P(X = x,Y = y) = λµe x, y = 0, 1, . . .
x!y!
Factorizando tenemos que
λx
y

µ −(λ+µ)
P(X = x,Y = y) = e
x! y!
= f (x)g(y),
con f (x) = λx /x! y g(y) = µy e−(λ+µ) /y!, de manera que X e Y son independientes.
Sin embargo, las funciones f y g no son funciones de masa de probabilidad. De
hecho, las marginales de X,Y son
1 k −λ 1
P(X = k) = λe y P(Y = k) = µk e−µ para k = 0, 1, . . .
k! k!
Es conveniente extender el concepto al caso multivariado, pero primero intro-

duciremos una práctica notación que es un estándard en teorı́a de probabilidades:
Para X1 , . . . , Xn : Ω → R y A1 , . . . , An ⊂ R escribimos
{X1 ∈ A1 , . . . , Xn ∈ An } = ∩ni=1 {ω ∈ Ω : Xi (ω) ∈ Ai }
Definición (independencia de variables aleatorias). Las variables aleatorias X1 , . . . , Xn

son independientes si para cualquier sucesión de intervalos A1 , . . . , An ⊂ R se cum-
ple
P(X1 ∈ A1 , . . . , Xn ∈ An ) = P(X1 ∈ A1 ) · · · P(Xn ∈ An )
2.4. FUNCIONES DE VECTORES ALEATORIOS 31
2.4. Funciones de vectores aleatorios

Muchas veces estamos interesados en una función de un vector aleatorio. Es
común observar n variables y que nos interesen los valores extremos (el más pe-
queño y el más grande entre todos los valores observados). También es común
estar interesados en el promedio. En general, dado un conjunto de n variables
aleatorias X1 , X2 , . . . , Xn y una función g : Rn → R, nos puede interesar calcu-
lar la función de masa de probabilidad de la variable aleatoria definida por U =
g(X1 , X2 , . . . , Xn ).
Distribución del mı́nimo. Sean X1 , X2 , . . . , Xn variables aleatorias y denotemos
por Un el mńimo de ellas, es decir
Un = mı́n{X1 , X2 , . . . , Xn }.
Es fácil comprobar que
{Un > k} = {X1 > k, X2 > k, . . . , Xn > k}
y en consecuencia, si X1 , X2 , . . . , Xn son independientes se tiene
P(Un > k) = P(X1 > k)P(X2 > k) . . . P(Xn > k) (2.10)
Si X1 , X2 , . . . , Xn son variables independientes e idénticamente distribuı́das (i.i.d.),

entonces (2.10) tiene la forma
P(Un > k) = [P(X1 > k)]n (2.11)
Por lo tanto, la fmp de Un la podemos escribir como
P(Un = k) = P(Un > k − 1) − P(Un > k)

= [P(X1 > k − 1)]n − [P(X1 > k)]n (2.12)
Ejemplo. Sean X1 , X2 , . . . , Xn variables i.i.d geométricas de parámetro p = 1 − q

(Xi ∼ Geo(p) para 1 ≤ i ≤ n). En este caso
∞
P(Xi > k) = ∑ pq j−1 = qk , para k = 1, 2, 3, . . .
j=k+1
Sustituyendo en (2.12) se tiene que
P(mı́n{X1 , X2 , . . . , Xn } = k) = [qk−1 ]n − [qk ]n = [qn ]k−1 (1 − qn ).

En decir, el mı́nimo de variables i.i.d, con distribución geométrica de parametro p

es también una variable geométrica, pero de parámetro 1 − qn = 1 − (1 − p)n .
Distribución del máximo. Consideremos ahora el máximo
Vn = máx{X1 , X2 , . . . , Xn }
de n variables aleatorias. Note que
{Vn ≤ k} = {X1 ≤ k, X2 ≤ k, . . . , Xn ≤ k}
Si las variables son independientes se tiene entonces que
FVn (k) = P(Vn ≤ k) = P(X1 ≤ k)P(X2 ≤ k) . . . P(Xn ≤ k)
y si son i.i.d.
FVn (k) = [P(X1 ≤ k)]n . (2.13)
Ejemplo. Continuando con el ejemplo en el que X1 , X2 , . . . , Xn son i.i.d, geométri-

cas de parámetro p, la función de distribución del máximo Vn = máx{X1 , X2 , . . . , Xn }
es
FVn (k) = [1 − P(X1 > k)]n = (1 − qk )n para k = 1, 2, . . .
Suma de variables aleatorias. Consideremos X,Y variables aleatorias discretas

y Z = X +Y . Claramente Z es discreta y toma el valor z sı́ y solamente sı́ cuando
X toma el valor x, Y toma el valor z − x. Ası́ que
P(Z = z) = P(∪x {X = x,Y = z − x})

= ∑ P(X = x,Y = z − x)
x
Fórmula de convolución. Si X,Y son variables aleatorias discretas e indepen-

dientes entonces Z = X +Y tiene fmp
P(Z = z) = ∑ P(X = x)P(Y = z − x)

x
En el caso particular en que X,Y son no negativas, P(X = x) = 0 si x < 0 y P(Y =

z − x) = 0 si x > z. En ese caso,
z
P(X +Y = z) = ∑ P(X = x)P(Y = z − x)
x=0
2.5. ESPERANZA 33
y decimos que la fmp de X +Y es la convolución de las funciones de probabilidad

de X y Y .
Ejemplo. Sean X,Y v.a. independientes con distribución de Poisson de parámetros
λ y µ respectivamente, Usando la fórmula de convolución
z
1 x −λ 1
P(X +Y = z) = ∑ λe µz−x e−µ
x=0 x! (z − x)!
1
= (λ + µ)z e−(λ+µ)
z!
Es decir, si X ∼ Poisson(λ) y Y ∼ Poisson(µ) son independientes entonces la suma

X +Y ∼ Poisson(λ + µ)
2.5. Esperanza
Consideremos un dado justo. Si este es lanzado un número grande de veces,
cada posible resultado aparecerá alrededor de un sexto de las veces y el promedio
del número observado será aproximadamente
1(1/6) + 2(1/6) + . . . + 6(1/6) = 3, 5
El concepto en su forma más general lleva a la siguiente definición

Definición Sea X es una variable aleatoria discreta. La esperanza de X, denotada
por E(X) y también llamada valor esperado de X, es el número definido por
E[X] = ∑ x P(X = x)
x
siempre y cuando la serie converja.

Teorema de transferencia. Si X es una variable discreta y g : R → R entonces la
esperanza de Y = g(X) es
E[Y ] = E[g(X)] = ∑ g(x)P(X = x)

x
Prueba
E[Y ] = ∑ y P(Y = y)
y
" #
= ∑y ∑ P(X = x)
y {x:g(x)=y}
= ∑ ∑ y P(X = x)
y {x:g(x)=y}
= ∑ g(x)P(X = x)
x
Otra importante valor asociado a una variable X es su varianza Var(X), la cual

es una medida de dispersión de la variable en torno a su esperanza. Formalmente,
la varianza de una variable aleatoria X se define como el valor esperado de la
variable (X − µ)2 , siendo µ la esperanza de X. Es decir,
Var(X) = E([X − µ]2 )

= ∑(x − µ)2 P(X = x)
x
(2.14)
Proposición 4. Var(X) = E[X 2 ] − (E[X])2
Prueba
Var(X) = E([X − µ]2 )

= ∑(x − µ)2 P(X = x)
x
= ∑(x2 − 2xµ + µ2)P(X = x)
x
= ∑ x2P(X = x) − 2µ ∑ xP(X = x) + µ2 ∑ P(X = x)
x x x
2 2 2
= E[X ] − 2µ + µ
= E[X 2 ] − µ2
= E[X 2 ] − (E[X])2
El Teorema de transferencia anterior puede extenderse al caso multivariado de

la siguiente manera:
2.6. ESPERANZA CONDICIONAL 35
Sean X,Y variables discretas y g : R2 → R entonces
E[g(X,Y )] = ∑ ∑ g(x, y)P(X = x,Y = y) (2.15)

x y
Usando (2.15) podemos introducir un importante indicador del grado de de-

pendencia lineal entre dos variables aleatorias: La covarianza entre las variables
X,Y es
Cov(X,Y ) = E[(X − µX )(Y − µY )] siendo µX = E(X) y µY = E(Y ).
Otros resultados importantes que podemos demostrar de forma sencilla con la

fórmula de tranferencia (2.15) son:
1. Linealidad del valor esperado: Si Z = g(X,Y ) = aX + bY , con a, b ∈ R,

entonces
E(Z) = E(aX + bY ) = aE(X) + bE(Y )
2. Fórmula para la covarianza: Cov(X,Y ) = E(XY ) − E(X)E(Y )
3. Varianza de combinaciones lineales: Para todo a, b ∈ R,
Var(aX + bY ) = a2Var(X) + b2Var(Y ) + 2abCov(X,Y ).
En particular, Var(aX + b) = a2Var(X).
4. Esperanza del producto y varianza de la suma de independientes: Si

X,Y son independientes entonces
E(XY ) = E(X)E(Y )
Var(X +Y ) = Var(X) +Var(Y )
2.6. Esperanza Condicional

Sea X una variable aleatoria discreta y B un evento asociados al mismo espacio
de probabilidad. Supongamos que P(B) > 0. La Esperanza Condicional de X
dado el evento B, la cual denotaremos por E(X|B), es el valor esperado asociado
a la función de masa de probabilidad condicional
P({ω : X(ω) = x} ∩ B)
P(X = x|B) = .
P(B)
Esto es,
E[X|B] = ∑ x P(X = x|B)
x
El siguiente resultado es un versión de la fórmula de probabilidad total (1.3)

para valores esperados y de similar utilidad.
Fórmula de particionamiento. Si X es una v.a. discreta y B1 , B2 , . . . son una
partición del espacio muestral, con P(Bi ) > 0 para cada i, entonces
E[X] = ∑ E[X|Bi ]P(Bi )

i
Prueba de la fórmula
E[X] = ∑ E[X|Bi]P(Bi)
i≥1

= ∑ ∑ x P(X = x|B) P(Bi )
i≥1 x
= ∑ ∑ x P({X = x} ∩ Bi)
i≥1 x
= ∑ x P({X = x} ∩ (∪i≥1Bi))
x
= ∑ x P(X = x)
x
Ejemplo. Una moneda es lanzada repetidamente. Sea p la probabilidad de obtener

cara en cada lanzamiento, con 0 < p = 1 − q < 1. Vamos a calcular la longitud
esperada de la racha inicial (i.e. el número de resultados iguales y consecutivos al
primero).
Sea H el evento el primer lanzamiento es cara y H c el evento el primer lanza-
miento es sello. El par H, H c forma una partición del espacio muestral. Si X es la
longitud de la racha inicial, es fácil verificar que
P(X = k|H) = pk−1 q para k = 1, 2, . . .
ya que si H ocurre entonces X = k ocurre sı́ y sólo sı́ el primer lanzamiento es

seguido por exactamente k − 1 caras y después un sello. Similarmente,
P(X = k|H c ) = qk−1 p para k = 1, 2, . . .

2.7. PROBLEMARIO II 37
Es decir, las distribuciones condicionales son geométricas, ası́ que

1 1
E[X|H] = y E[X|H c ] =
q p
Usando la fórmula de particionamiento obtenemos
1 1 1
E[X] = E[X|H]P(H) + E[X|H c ]P(H c ) = p + q = −2
q p pq
2.7. Problemario II
1. Calcule e interprete el valor esperado de X cuando tiene distribución:
binomial de parámetros n y p
geométrica de parámetro p
hipergeométrica
Poisson de parámetro λ
2. Calcular la varianza de X cuando tiene distribución:
binomial de parámetros n y p
geométrica de parámetro p
Poisson de parámetro λ
3. Si X se distribuye Poisson de parámetro λ, pruebe que
E[X(X − 1)(X − 2) . . . (X − k)] = λk+1
4. Si X tiene distribución geométrica, pruebe la propiedad de pérdida de me-

moria
P(X > m + n|X > m) = P(X > n)
5. Sea N una v.a. a valores enteros no negativos. Verifique que
E[N] = ∑ P(N > k) (2.16)

k≥0
6. Un dado tiene dos cara azules, dos rojas y dos verdes. Se lanza repetidamen-
te. Encuentre la probabilidad de que no todos los colores aparezcan en los
primeros k lanzamientos. Deduzca que si N es la v.a. que toma el valor n si
el tercer color aparece en el n-ésimo lanzamiento por primera vez, entonces
E[N] = 11/2. Sugerencia, use la fórmula (2.16) y la fórmula de inclusión
exclusión para la unión de tres eventos.
7. Suponga que P(X = i,Y = j) = λ1+i+ j , para i, j = 0, 1, 2. Pruebe que
E[XY ] = λ3 + 4λ4 + 4λ5
8. Sean X,Y v.a. i.i.d. con P(X = k) = pqk , k ≥ 0. Demuestre que para k =
0, . . . n
1
P(X = k|X +Y = n) =
n+1
Sugerencia: Use la fórmula de Bayes y la fórmula de convolución.
9. Existen c diferentes tipos de cromos y cada uno tiene el mismo chance de ser
adquirido en una compra (los cromos se venden por separado en un sobre).
Sea Yi el número adicional de cromos coleccionados después de obtener i
tipos de cromos antes de obtener un nuevo tipo. Demuestre que Yi tiene dis-
tribución geométrica con parámetro (c − i)/c. Calcule el número esperado
de cromos que necesitas adquirir hasta completar la colección.
10. Sean X ∼Geo(p) y , Y ∼Geo(r) variables independientes. Pruebe que mı́n{X,Y }

tiene distribución geométrica con parámetro p + r − pr.
11. Sean X,Y variables aleatorias independientes con distribución de Poisson

de parámetro λ y µ respectivamente. Use el hecho de que X +Y es Poisson
para calcular P(X = k|X +Y = n) para k = 0, . . . , n. Demuestre que
E[X|X +Y = n] = nλ/(λ + µ)
Sugerencia: Use la fórmula de Bayes para la primera parte.
12. Sea N el número de lanzamientos de una moneda hasta que se repita el

resultado del primer lanzamiento. Condicionando en el primer lanzamiento,
calcule E[N].
2.7. PROBLEMARIO II 39
13. La función generatriz de probabilidades de una variable aleatoria discreta X

está definida por la serie de potencias
∞
g(s) = E sX = ∑ sk P(X = k),

|s| < 1.
k=0
Calcule la funciones generatrices de probabilidades de las siguientes distri-

buciones Bernoulli, Binomial y Poisson.
14. A cada fmp le corresponde una única función generatriz de probabilidades.

Use la identificación de las funciones generatrices para probar los siguientes
resultados:
Sumas de Bernoulli i.i.d es Binomial.

La suma de Binomiales independientes con el mismo parámetros p es
también binomial.
Sumas de Poisson independientes es Poisson.
15. Considere que el número de veces que una moneda es lanzada es una v.a.
Poisson. Sea X el número de caras y Y el número de sellos. Verifique que
X,Y son independientes. Sugerencia: Use la fórmula de particionamiento
para calcular la masa de probabilidad de X.
16. Se lanza un dado n veces. Sea Un el mı́nimo valor observado y Vn el máximo

valor observado. Calcular P(Un = 1), P(Vn = 6).
17. Una lı́nea aérea cubre la ruta CCS-MAD, con un avión que tiene 280 plazas.
La polı́tica de la aerolı́nea es aceptar 300 reservaciones para este vuelo.
Se supone que todos los pasajeros actúan en forma independiente y que la
probabilidad de que un pasajero se presente es p. El precio del pasaje es G,
pero si un pasajero se presenta y no puede ser embarcado, se le reintegra su
dinero más una compensación de H.
Calcule la esperanza del número de pasajeros que se presentan a abor-

dar.
De una expresión para la esperanza del número de pasajeros que acu-
den y no pueden ser embarcados.
De una expresión para la ganancia esperada por la aereolı́nea.
18. El costo de producción en euros de cierta máquina que se fabrica por encar-
go es de 4300 por máquina, cuando se producen menos de cinco unidades.
Si se producen de cinco a nueve unidades el costo por máquina baja a 4000.
Y cuando se producen diez o más unidades el costo por unidad baja a 3500.
La demanda de estas máquinas fluctúa según una distribución de Poisson
con valor esperado igual a 8. Hallar el precio de venta unitario, para que la
ganancia neta esperada por máquina sea de 5000. Si vendemos a ese precio,
¿cuál es la probabilidad de que la empresa pierda dinero?
Capı́tulo 3
Variables aleatorias continuas
La condición de que la variable tome valores exclusivamente en un conjunto

numerable de R puede resultar muy restrictiva a la hora de modelar determina-
dos fenómenos de naturaleza continua (tiempos, precios, volúmenes, pesos). Es
por ello que requerimos generalizar la definición de variable aleatoria vista hasta
ahora.
Una variable aleatoria (a veces va, por comodidad tipográfica) X sobre un
espacio de probabilidades (Ω, F , P) es una función X : Ω → R que cumple
{ω ∈ Ω : X(ω) ≤ x} ∈ F para todo x ∈ R. (3.1)
La razón por la cual requerimos que X satisfaga (3.1) es la misma por la cual re-
querimos la condición (2.1) cuando introducimos el concepto de variables aleato-
rias discretas. Tal y como ya hemos mencionado, estamos interesados en calcular
probabilidades del tipo P(X ∈ A), con A ⊂ R, las cuales están definidas si
{X ∈ A} = {ω ∈ Ω : X(ω) ∈ A} ∈ F (3.2)
La condición (3.1) asegura que (3.2) se satisface para cualquier A ⊂ R que puedan
escribirse como un resultado de operaciones numerables (finitas o infinitas) de
intervalos. Esta es una importante colección de conjuntos de números reales que
se conoce como la σ-álgebra de Borel. En todo lo sucesivo se sobreentiende que
si A ⊂ R entonces A pertenece a la σ-álgebra de Borel. Elementos simples de la
σ-álgebra de Borel son los intervalos (cerrados, abiertos, finitos, infinitos, etc) y
los conjuntos numerables.
El concepto de función de distribución que introducimos en (2.4) vale para
41
42 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS
cualquier variable aleatoria, sea discreta o no. La función de distribución
FX (x) = P(X ≤ x)
de una variable X tiene varias propiedades elementales que son consecuencia de

propiedades que hemos visto de la medida de probabilidad P y que resumimos en
la siguiente proposición.
Proposición 5. Sea F la función de distribución de una variable aleatoria, enton-
ces
1. F es no decreciente.
2. F(x) → 0 cuando x → −∞ y F(x) → 1 cuando x → +∞.
3. F es continua por la derecha.

Usando la proposición anterior, podemos establecer algunas fórmulas útiles
para el cálculo de probabilidades de eventos asociados a una variable aleatoria a
partir de su función de distribución. En particular se tiene que
P(a < X ≤ b) = FX (b) − FX (a) para todo a < b.
Otra identidad que vale la pena reseñar es
P(X = x) = FX (x) − lı́m FX (y) para todo x ∈ R. (3.3)

y↑x
Es decir, P(X = x) es el salto de la discontinuidad de F en x, si es que la hubiera.
3.1. Variables aleatorias continuas

Aparte de la caracterı́sticas comunes que puedan tener distintas funciones de
distribución, algunas ya mencionadas en la Proposición 5, a distintas distribu-
ciones le pueden corresponder distintos tipos de curva. Hay dos clases que son
particularmente importantes:
Funciones de distribución escalonadas, correspondientes a variables aleato-
rias discretas. Note que si X es discreta a valores en {x1 , x2 , . . .} entonces
para cualquier xi ≤ x < xi+1 , la función es constante. De hecho,
FX (x) = FX (xi ).
3.1. VARIABLES ALEATORIAS CONTINUAS 43
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
1 2 3 4 5 6 −4 −3 −2 −1 0 1 2 3 4
Figura 3.1: Funciones de distribución de probabilidad de variables aleatorias dis-

creta (izquierda) y continua (derecha).
Funciones con una curva suave, asociadas a variables aleatorias que llama-
remos continuas y que definimos a continuación.
Definición. Una variable aleatoria es continua si su función de distribución F
puede representarse como
Z x
F(x) = f (u)du para todo x ∈ R,
−∞
para alguna función f que satisfaga

1. f (x) ≥ 0, para todo x ∈ R,
R∞
2. −∞ f (x)dx = 1,
En ese caso decimos que X tiene densidad de probabilidad f .
Para interpretar la función de densidad de probabilidad (fdp) de una variable
aleatoria continua, observe que
P(x − δ/2 < X ≤ x + δ/2) = FX (x + δ/2) − FX (x − δ/2)

Z x+δ/2
= fX (u)du ≈ f (x)δ,
x−δ/2
ası́ que f (x) está relacionado con la probabilidad de que la variable tome
un valor cercano a x. Sin embargo, es importante recalcar que f (x) no es una
probabilidad, en particular no tiene por que ser menor o igual a 1. Note además
que, acorde a la definición dada, la función de distribución de una va continua es
una función continua. Es decir, si X es continua, para todo x ∈ R,
lı́m F(y) = F(x).
y→x
Sustituyendo en (3.3), demostramos que si X es continua
P(X = x) = 0 para todo x ∈ R
y en consecuencia, para todo a < b
P(a < X ≤ b) = P(a ≤ X ≤ b) = P(a ≤ X < b) = P(a < X < b).
Esta es una significativa diferencia con la variables aleatorias discretas. Veamos
algunos ejemplos de fdp comunes en el modelaje.
Distribución Uniforme. Decimos que X se distribuye uniformemente sobre el
intervalo (a, b), y escribimos X ∼ U(a, b), si tiene fdp

 1 si x ∈ (a, b)
f (x) = b − a
0 en caso contrario
Distribución Exponencial y Gamma. Decimos que X tiene distribución expo-

nencial de parámetro β > 0, y escribimos X ∼ exp(β), si tiene fdp
(
e−βx si x > 0
f (x) =
0 en caso contrario
Este es un importante caso particular (α = 1)de la distribución gamma. En gene-
ral, decimos que X tiene distribución gamma de parámetros α, β > 0, y escribimos
X ∼ Γ(α, β), si tiene fdp
 α
 β xα−1 e−βx si x > 0
f (x) = Γ(α)
0 en caso contrario

R ∞ α−1 −x
siendo Γ(α) = 0 x e la función gamma, con Γ(n) = n!, para cualquier n ∈ N.
Distribución Normal. Decimos que X tiene distribución normal, o Gaussiana, de
parámetros µ y σ2 > 0, y escribimos X ∼ N(µ, σ2 ), si tiene fdp
(x − µ)2

1
f (x) = √ exp − para todo x ∈ R
2πσ2 2σ2
3.1. VARIABLES ALEATORIAS CONTINUAS 45
Figura 3.2: Funciones de densidad de probabilidad de gammas con parámetros

(α, β) = (1,1) (sólida gruesa), (1,2) (pespunteada fina), (2, 1) (pespunteada grue-
sa), (2, 2) (sólida fina). El valor que maximiza la función se desplaza con α y la
cola de la función decae con β.
Figura 3.3: Funciones de densidad de probabilidad de variables Normales. La fun-

ción es simétrica respecto de µ y el máximo de la función densidad decrece con
σ
3.2. Esperanza y funciones de variables aleatorias

El valor esperado de una variable aleatoria continua X viene definido por
Z ∞
E[X] = x fX (x) dx,
−∞
siempre y cuando la integral esté bien definida. Esto es, si

Z ∞
|x| fX (x) dx < ∞.
−∞
El valor esperado de X puede interpretarse como el centro de gravedad del eje

x cuando se han distribuı́do pesos según fX . El concepto es el mismo que el del
caso discreto, sólo que hemos sustituı́do funciones de masa por densidades de
probabilidad y sumatorias por integrales. Ası́ que es natural que las propiedades
del valor esperado de variables continuas sean las mismas que las de las discretas.
Después de todo la integral no es más que el lı́mite de sumatorias.
Si X es una variable aleatoria continua, cualquier función de X es una variable
aleatoria pero puede ser continua o no. Por ejemplo, Y = X 2 también será continua
si X lo es pero Y = signo(X) es una variable discreta. Sin importar cual sea el caso,
el valor esperado de g(X) puede calcularse mediante la fórmula de transferencia
Z ∞
E[g(X)] = g(x) fX (x) dx, (3.4)
−∞
similar a la que demostramos para variables discretas (Teorema de transferencia

del Capı́tulo 2). Aunque su demostración general usa herramientas avanzadas de
análisis matemático, podemos dar una prueba sencilla cuando g es una función
invertible y derivable. En ese caso se tiene
Z g−1 (b)
dg−1 (y)
Z b
fX (x)dx = fX (g−1 (y)) dy
g−1 (a) a dy
Ası́ que, para todo a < b,

Z b −1
dg (y)
P(a < g(X) < b) = fX (g−1 (y)) dy,
a dy
En otras palabras,
3.3. DENSIDAD CONJUNTA Y DENSIDADES MARGINALES 47
Proposición 6. Si X es una variable aleatoria continua y g es invertible y deriva-

ble, la densidad de probabilidad de la variable Y = g(Y ) es
−1
−1
dg (y)
fY (y) = fX (g (y))
dy
Usando esta proposición y la fórmula de cambio de variable obtenemos que

−1
Z ∞
−1
dg (y)
E[g(X)] = y fX (g (y)) dy
−∞ dy
Z ∞
= g(x) fX (x)dx, (3.5)
−∞
con lo cual probamos la fórmula (3.4) para el caso particular en que g es invertible
y derivable. Esta es una potente fórmula con numerosas aplicaciones y consecuen-
cias, a continuación, sumarizamos algunas importantes.
Proposición 7. Para todo a, b ∈ R,
E[aX + b] = aE[X] + b
La varianza de una variable continua X es
Var(X) = E[(X − E[X])2 ] = E[X 2 ] − (E[X])2
3.3. Densidad conjunta y densidades marginales

Un par ordenado (X,Y ) de variables continuas es un punto aleatorio en el
plano. Experimentos aleatorios tales como el lanzamiento de un proyectil u obser-
vaciones multivariadas de muestreo aleatorio pueden ser modelados por conjuntos
ordenados de variables aleatorias.
Extendiendo el concepto de densidad de probabilidad que introducimos para
una variable a un punto aleatorio en el plano; diremos que el vector aleatorio
(X,Y ) es continuo si existe una función f : R2 → (0, ∞) tal que para cualquier
evento D ⊂ R2 se cumple
Z Z
P((X,Y ) ∈ D) = f (x, y)dydx (3.6)
D
Por supuesto, supondremos también que

Z Z
2
P((X,Y ) ∈ R ) = f (x, y)dydx = 1.
R2
La función f es llamada densidad de probabilidad conjunta del vector aleatorio

(X,Y ).
A efecto de identificar la densidad conjunta de (X,Y ), es suficiente verificar la
ecuación (3.6) para conjuntos D ∈ R2 que sean de la forma A × B, es decir, f es la
densidad conjunta de(X,Y ) sı́ y sólo sı́
Z Z
P(X ∈ A,Y ∈ B) = f (x, y)dydx
A B
para cualquier par de eventos A, B ⊂ R.

Denotemos por fX la densidad de probabilidad de X. Si f es la densidad con-
junta de (X,Y ), la identidad
P(X ∈ A) = P(X ∈ A,Y ∈ R)
puede reescribirse por

Z Z Z ∞
fX (x)dx = f (x, y)dydx
A A −∞
es decir, Z ∞
fX (x) = f (x, y)dy.
−∞
∞ R
En este contexto, fX (x) = −∞ f (x, y)dy es llamada densidad marginal de X.
De manera simétrica definimos la densidad marginal de Y por
Z ∞
fY (y) = f (x, y)dx.
−∞
3.4. Independencia de v.a. continuas

Anteriormente vimos que las v.a. X,Y son independientes sı́ y sólo sı́ para
cualquier par de eventos A, B de la recta real
P(X ∈ A,Y ∈ B) = P(X ∈ A)P(Y ∈ B)

3.4. INDEPENDENCIA DE V.A. CONTINUAS 49
Para el caso continuo que estamos considerando, la ecuación anterior se escribe

Z Z Z Z
f (x, y)dydx = fX (x)dx fY (y)dy,
A B A B
lo que permite probar el siguiente

Teorema de factorización. X,Y son independientes sı́ y sólo sı́ la densidad con-
junta es el producto de las densidades marginales ( f = fX fY ).
Del teorema anterior se desprende que si la densidad conjunta admite la facto-
rización
f (x, y) = g(x)h(y), (3.7)
aun cuando g, h no sean las marginales de X,Y respectivamente, es suficiente para
probar que X,Y son independientes.
Ejemplo: Consideremos el punto (X,Y ) con distribución uniforme en el disco de
radio r, Dr = {(x, y) : x2 + y2 ≤ r2 }, el cual modela el resultado de lanzar un dardo
a una diana de radio r por un lanzador sin punterı́a. Si A ⊂ Dr , entonces
area(A) 1
Z Z
P((X,Y ) ∈ A) = = 2 dydx (3.8)
area(Dr ) πr A
Luego, la densidad conjunta de (X,Y ) es

1
f (x, y) = si (x, y) ∈ Dr
πr2
= 0 si no
¿Son X,Y independientes?. Hay que tener cuidado en no usar incorrectamente el

criterio de factorización (3.7), y siempre tomar en cuenta que las regiones en las
que la densidad conjunta es positiva deben ser productos cartesianos de subcon-
juntos de R. A veces ayuda usar en estos casos la función indicatriz de un conjunto
A, la cual definida por
IA (ω) = 1 si ω ∈ A
= 0 si no
Continuando con el ejemplo, podemos escribir f (x, y) = πr12 IDr (x, y) sin la posi-
bilidad de incurrir en el error de creer que f (x, y) puede ser factorizada como en
(3.7).
3.5. Cambio de variable y aplicaciones

Para el punto (X,Y) distribuı́do √uniformemente en el disco Dr , consideremos
ahora las coordenadas polares R = X 2 +Y 2 y Θ el ángulo entre el vector (X,Y)
y el eje x. Usando la fórmula para el área de una rebanada del disco, (3.8) implica
ρ2 θ 2x 1
Z ρZ θ
P(0 < R < ρ, 0 < Θ < θ) = 2 = dvdu
r 2π 0 0 r2 2π
De donde
ρ1
fR,Θ (ρ, θ) = I (ρ)I(0,2π) (θ)
r2 π (0,r)
y usando (3.7) vemos que R, Θ si son independientes. ¿Cuáles son las densidades
marginales?.
El cambio a coordenas polares anterior, ejemplifica un problema general:
Dado un vector aleatorio (X,Y ) con densidad conjunta f (x, y) y una transfor-
mación T (X,Y ) = (U,V ), ¿cuál es la densidad conjunta del nuevo v.a. (U,V )?. Si
la transformación es invertible
P((X,Y ) ∈ A) = P((U,V ) ∈ T (A))
Usando la fórmula de cambio de variable, la ecuación anterior se reescribe

Z Z Z Z
f (x, y)dxdy = f (x(u, v), y(u, v))|J(u, v)|dudv
A T (A)
donde (x(u, v), y(u, v)) = T −1 (u, v) y J es el jacobiano de T −1 . Estas identidades

permiten probar el siguiente
Teorema de cambio de variable: Sea (X,Y ) un v.a. con densidad conjunta f (x, y),
D = {(x, y) : f (x, y) > 0} y T : D → S invertible, entonces la densidad conjunta
del v.a. (U,V ) es
f(U,V ) (u, v) = f (x(u, v), y(u, v))|J(u, v)|IS (u, v)
Marginalizando, esta fórmula es de mucha utilidad para calcular densidades

de v.a. que son funciones de puntos aleatorios.
Ejemplo: Sean X,Y i.i.d con distribución exponencial de parámetro 1. ¿Cómo se
distribuye X/(X +Y )?.
3.6. PROPIEDADES DE LA ESPERANZA 51
Consideremos las v.a. V = X/(X +Y ) y U = X +Y . La variable U es auxiliar

a fin de poder invertir la transformación T (x, y) = (x + y, x/(x + y)). Usando el
teorema anterior, podemos calcular la densidad conjunta de (U,V )
f(U,V ) (u, v) = e−u |J(u, v)|IR+ (u)I(0,1) (v) = ue−u IR+ (u)I(0,1) (v)
Marginalizando Z ∞
fV (v) = f(U,V ) (u, v)du = 1
0
para v ∈ (0, 1). es decir X/(X +Y ) es uniforme en (0,1).
3.6. Propiedades de la esperanza

Para g : RR × RR → RR, probamos que si X,Y son discretas
E[g(X,Y )] = ∑ ∑ g(x, y)P(X = x,Y = y). (3.9)
x y
También hemos visto como la esperanza para

R
el caso univariado discreto, ∑x xP(X =
x) tiene su versión para el caso continuo x f (x)dx. La intuición sugiere dar como
versión continua de (3.9) a
Z Z
E[g(X,Y )] = g(x, y) fX,Y (x, y)dxdy,
aunque la prueba formal de este resultado se escapa de los alcances del curso.
De manera idéntica a como lo hicimos para el caso discreto, usando las den-
sidades conjuntas y marginales, puede probarse la linealidad del valor esperado,
fórmulas para la covarianza y varianza de la suma de variables continuas, obte-
niendo el siguiente resultado general:
Proposición 8. Para cualquier par de variables aleatorias X, Y y par de números
a, b, se tiene
1. E[aX + bY ] = aE[X] + bE[Y ]
2. Cov(X,Y ) = E[(X − EX)(Y − EY )] = E[XY ] − E[X]E[Y ]
3. Var(aX + bY ) = a2Var(X) + b2Var(Y ) + 2abCov(X,Y )
4. Si X,Y son independientes E[XY ] = E[X]E[Y ] y en consecuencia
Var(X +Y ) = Var(X) +Var(Y ).
3.7. Densidad y esperanza condicional

Para el caso X,Y discretas, la probabilidad condicional de X dado Y = y viene
dada directamente por la fórmula de la probabilidad condicional
P(X ∈ A,Y = y) P(X = x,Y = y)

P(X ∈ A|Y = y) = =∑
P(Y = y) x∈A P(Y = y)
Para extender esta idea al caso continuo debemos proceder con cuidado, ya
que si Y es continua P(Y = y) = 0 para todo y. La idea es considerar eventos del
tipo {y ≤ Y ≤ y + δ} para δ > 0 y hacer luego δ → 0. Para lo que sigue f (x, y)
denota la densidad conjunta de (X,Y ).
P(a ≤ X ≤ b, y ≤ Y ≤ y + δ)
P(a ≤ X ≤ b|y ≤ Y ≤ y + δ) =
P(y ≤ Y ≤ y + δ)
R b R y+δ
a y f (x, v)dv dx
= R y+δ
y fY (v)dv
Dividiendo y multiplicando por δ y luego haciendo δ → 0+ , observamos que

Z y+δ
1
f (x, v)dv → f (x, y)
δ y
y
Z y+δ
1
fY (v)dv → fY (y).
δ y
Ası́ podemos verificar que

Z b
f (x, y)
P(a ≤ X ≤ b|y ≤ Y ≤ y + δ) → dx
a fY (y)
cuando δ → 0+ . Usando la definición de densidad de probabilidad, el integrando,

es decir f (x, y)/ fY (y), es la densidad condicional de X dado {y ≤ Y ≤ y + δ}
cuando δ → 0, es decir dado {Y = y}. A la densidad condicional de X dado Y = y
la denotaremos por
f (x, y)
fX|Y (x|y) = .
fY (y)
3.7. DENSIDAD Y ESPERANZA CONDICIONAL 53
Teniendo una fórmula para la densidad condicional, la esperanza condicional

de X dado Y = y puede ser definida como la esperanza respecto a la densidad
condicional, i.e. Z
E[X|Y = y] = x fX|Y (x|y)dx
En el caso discreto vimos la utilidad de la esperanza condicional para el cálcu-

lo de valores esperados vı́a formula de particionamiento
E[X] = ∑ E[X|Y = y]P(Y = y)

y
Con las definiciones anteriores es fácil probar la versión continua de esta impor-
tante fórmula:
Z
E[X] = E[X|Y = y] fY (y)dy
Un distribución que sirve para ilustrar buena parte de lo visto en las secciones
anteriores es la normal bivariada. Sea

1 1 2 2
f (x, y) = p exp − (x − 2ρxy + y )
2π 1 − ρ2 2(1 − ρ2 )
donde x, y son números reales y |ρ| ≤ 1, la densidad conjunta de (X,Y ). Verifique

que
X se distribuye N(0, 1)
X dado Y = y se distribuye N(ρy, 1 − ρ2 )
E[X|Y = y] = ρy
X,Y son independientes sı́ y sólo sı́ son incorrelacionados. Recuerde que
incorrelación no implica independencia, lo cual hace a la normal bivariada
una distribución muy especial.
Si X,Y son independientes, X/Y tiene distribución de Cauchy, es decir, su

densidad es 1/π(1 + x2 ).
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
3
2 3
1 2
0 1
0
−1
−1
−2 −2
−3
Figura 3.4: Normal Bivariada con ρ = 0.
0.4
0.3
0.2
0.1
2
3
2
0 1
0
−2 −1
−2
−3
Figura 3.5: Normal Bivariada con ρ = 0,6.

3.8. EXTREMOS Y SUMAS DE VARIABLES INDEPENDIENTES 55
3.8. Extremos y sumas de variables independientes

Sean X1 , X2 , . . . , Xn variables aleatorias independientes. Denotemos el mı́nimo
y el máximo por Un y Vn respectivamente. Es decir,
Un = mı́n{X1 , X2 , . . . , Xn } y Vn = máx{X1 , X2 , . . . , Xn }.
Vimos en la sección 2.4 como calcular las distribuciones de estas variables. Usan-
do la independencia, demostramos que
P(Un > k) = P(X1 > k)P(X2 > k) . . . P(Xn > k).
Adicionalmente, si X1 , X2 , . . . , Xn son idénticamente distribuı́das,
P(Un > k) = P(X1 > k)n ,
de donde la función de distribución de Un (k) resulta
FUn (k) = P(Un ≤ k) = 1 − P(Un > k) = 1 − P(X1 > k)n = 1 − [1 − FX (k)]n
con función de densidad

fUn (k) = n[1 − FX (k)]n−1 fX (k)
Para determinar la función de densidad del máximo se procede de manera similar.

P(Vn ≤ k) = P(X1 ≤ k)P(X2 ≤ k) . . . P(Xn ≤ k)
y si X1 , X2 , . . . , Xn son idénticamente distribuı́das,

P(Vn ≤ k) = P(X1 ≤ k)n
Ası́ que
FVn (k) = P(Vn ≤ k) = FX (k)n
con función de densidad
fVn (k) = n[FX (k)]n−1 fX (k)
Ejemplo. Sean X1 , X2 , . . . , Xn v.a. i.i.d. exponenciales de parámetro λ = 1. La fun-

ción de densidad del mı́nimo viene dada por
fUn (u) = n[1 − FX (u)]n−1 fX (u)
por tanto,
fUn (u) = n[1 − (1 − e−u ]n−1 e−u = ne−nu .
Es decir, el mı́nimo Un se distribuye según una exponencial de parámetro λ = n.
Breve comentario sobre la confiabiliad de sistemas. El mı́nimo y el máximo de
variables independientes es la base de la teorı́a de confiabilidad de sistemas. La
confiabilidad de un sistema a tiempo t, R(t), se define como la probabilidad de
que el sistema no falle hasta ese instante. Si T es el instante en el que el sistema
falla, entonces
R(t) = P(T > t).
El tiempo de falla de los sistemas con n componentes en lı́nea se modela con
una variable que representa el mı́nimo de n variables independientes. El tiempo
de falla de los sistemas paralelos con n componentes se modela como el máximo
de n variables independientes. Usando estas dos simples observaciones podemos
calcular la confiabilidad de sistemas más complejos.
Ejemplo. Calculemos la confiabilidad del sistema representado por el siguiente
diagrama:
C3
C1
C4
C2 C5
Denotemos por Ti la variable aleatoria que representa el instante en el que el

componente Ci falla, i = 1, 2, 3, 4, 5. Observamos que C3 y C4 trabajan en para-
lelo por lo que la variable V 1 = máx{T3 , T4 } representa el tiempo de falla de ese
subsistema. Entonces tenemos que,
P(V 1 < t) = P(T3 < t)P(T4 < t)

3.8. EXTREMOS Y SUMAS DE VARIABLES INDEPENDIENTES 57
por lo que,
P(V1 > t) = 1 − P(T3 < t)P(T4 < t)
Adicionalmente, C1 trabaja en serie con {C3,C4} por lo que la variable U1 =
mı́n{T1 ,V 1} representa el tiempo de falla para ese subsistema. Por lo cual,
P(U1 > t) = P(T1 > t)P(V 1 > t)
Por otro lado, C2 y C5 trabajan en serie. Ası́, la variable U2 = mı́n{T2 , T5 } repre-

senta el tiempo de falla para ese subsistema teniendo que
P(U2 > t) = P(T2 > t)P(T5 > t)
Finalmente, observamos que U1 representa el instante de falla del subsistema su-

perior y U2 del inferior. Por lo que la variable V 2 = máx{U1,U2} representa el
tiempo de falla del sistema completo. Ası́,
P(V 2 < t) = P(U1 < t)P(U2 < t)

Luego la confiabilidad del sistema RS (t) viene dada por P(V 2 > t), por lo cual
RS (t) = 1 − (P(U1 < t)P(U2 < t))

= 1 − [1 − P(T1 > t)(1 − P(T3 < t)P(T4 < t)][1 − P(T2 > t)P(T5 > t)]
Fórmula de convolución: caso continuo. Para variables continuas X,Y , vamos

a determinar ahora la función de distribución y la densidad de probabilidad de la
variables Z = X +Y .
P(Z ≤ z) = P(X +Y ≤ z)
Z Z
= fX,Y (x, y)dydx
{x+y≤z}
Z +∞ Z z−x
= fX,Y (x, y)dydx
−∞ −∞
haciendo un cambio de variables u = x y v = x + y donde |J| = 1, tenemos

Z +∞ Z z
= fX,Y (u, v − u)dvdu
−∞ −∞
Z z Z +∞
= fX,Y (u, v − u)dudv
−∞ −∞
observando que
Z z
P(Z ≤ z) = fZ (v)dv
−∞
tenemos Z +∞
fZ (v) = fX,Y (u, v − u)du ∀v ∈ R
−∞
Teorema: Si X,Y v.a. independientes entonces Z = X +Y tiene función de densi-

dad: Z +∞
fZ (z) = fX (x) fY (z − x)dx
−∞
Se dice que la función de densidad X + Y es la convolución de las funciones de
densidad de X y Y .
Ejemplo: Sean X,Y v.a. independientes con distribuciones Gamma(s, λ) y Gamma(t, λ)
respectivamente. Encontraremos la distribución de Z = X +Y .
En general, Z +∞
fZ (z) = fX (x) fY (z − x)dx
−∞
Pero en nuestro ejemplo, x sólo puede tomar valores en el intervalo [0, z]. Ası́,
Z z s t
λ s−1 −λx λ t−1 −λ(z−x)
fZ (z) = x e (z − x) e dx
0 Γ(s) Γ(t)
reagrupando,
λs+t
Z z
fZ (z) = xs−1 (z − x)t−1 e−λz dx
0 Γ(s)Γ(t)
λs+t s+t−1 −λz z Γ(s + t) xs−1 (z − x)t−1
Z
= z e dx
Γ(s + t) 0 Γ(s)Γ(t) zs+t−1
λs+t s+t−1 −λz 1 Γ(s + t) s−1
Z
= z e u (1 − u)t−1 du
Γ(s + t) 0 Γ(s)Γ(t)
R 1 Γ(s+t) s−1
Usando el hecho de que 0 Γ(s)Γ(t) u (1 − u)t−1 du = 1, tenemos que
λs+t s+t−1 −λz

fZ (z) = z e
Γ(s + t)
Por lo que Z = X +Y ∼ Gamma(s + t, λ).
3.9. PROBLEMARIO III 59
3.9. Problemario III
1. Halle valor esperado y varianza de una variable aleatoria continua con dis-
tribución
Uniforme(a, b)
Exponencial(λ)
Normal(µ, σ)
Gamma(α, β)
2. Suponga que X,Y son independientes y obtenga las siguientes fórmulas:

R
fX+Y (z) = fX (u) fY (z − u)du
fX (x) fY (u/x)|x|−1 dx
R
fXY (u) =
R
fX/Y (v) = fX (vy) fY (y)|y|dy
3. Demuestre que si X,Y son exponenciales independientes con parámetros

µ, λ respectivamente, entonces la distribución del mı́nimo es también expo-
nencial y determine su parámetro.
4. Sean X1 , . . . Xn v.a.i.i.d con función de densidad común f (x). Sean U,V el

mı́nimo y el máximo de la muestra. Pruebe que la densidad conjunta de
(U,V ) es
n(n − 1) f (u) f (v)(F(v) − F(u))n−2 , para u < v
y calcule las marginales (aquı́ F 0 = f )
5. Considere el punto aleatorio (X,Y ) con distribución normal bivariada y

coordenadas independientes. Sean (R, Θ) las coordenadas polares del punto
aleatorio. Identifique la distribución marginal de R2 y Θ.
6. Un juego se llama justo cuando la esperanza de la ganancia de los partici-

pantes es cero.
La flecha lanzada por un experto arquero, caerá a una distancia de R pies del
centro de un blanco. Se pagan 5$ como entrada para participar en un juego
cuyas reglas son las siguientes: Si R < 0,2 pies, el participante recibe 50$.
Si 0,2 ≤ R < 0,5 pies, el participante recibe 10$. Si 0,5 ≤ R < 1 pie, el par-
ticipante no recibe ningún pago y, finalmente, si R ≥ 1 pies el participante
debe pagar x dólares a la casa (adicionales a los cancelados a la entrada, por
supuesto). Si R tiene densidad f (r) = r exp(− 21 r2 ) , r > 0, ¿Cuánto debe
valer x para que el juego sea justo?
7. (X,Y ) tienen densidad conjunta
f (x, y) = e−y para 0 < x < y
= 0 en otro caso
encuentre E[X|Y = y] y E[Y |X = x]
8. Sean X,Y v.a. independientes con distribución Gamma de parámetros (n, β)
y (m, β) respectivamente. Considere las variables
X
U = X +Y V=
X +Y
Demuestre que U,V son independientes y calcule sus distribuciones. De-
duzca la curiosa identidad válida para este caso

X E[X]
E =
X +Y E[X] + E[Y ]
9. La variable aleatoria X tiene f.d.a. F(x) = xr , 0 ≤ x ≤ 1, siendo r un número

natural. Dado X = x, la variable Y tiene distribución Bin(n, x).
(a) Hallar E(Y ).
(b) Hallar la f.d.p. de Y . Sugerencias: para esto puede necesitar la integral
conocida como función β: Si i y j son números naturales, se tiene
Z 1
i! j!
xi (1 − x) j dx = .
0 (i + j + 1)!
10. Se toma un punto (X,Y ) al azar en el triángulo de vértices (0,0), (0,2) y

(1,1). Probar que E(Y | X = x) no depende de x. ¿Son X e Y independientes?
11. Debido a la variabilidad en el proceso de producción, la tasa de vida Γ,
de los amplificadores producidos por una fábrica, tiene una distribución
N(µ, σ2 ) con µ = 1,07 × 104 seg1/2 , σ2 = 1,1 × 106 seg. A su vez, el tiempo
de vida T , de un amplificador con tasa de vida Γ, tiene distribución expo-
nencial de parámetro λ = Γ12 seg−1 . Hallar el tiempo de vida promedio (en
meses) de los amplificadores producidos por esta fábrica.
3.9. PROBLEMARIO III 61
12. Sea X v.a. con media µ, varianza σ2 y cuarto momento central

µ4 = E((X − µ)4 ). Pruebe que µ4 ≥ σ4 .
Ayuda: calcule la esperanza y la varianza de Z = (X − µ)2 .
Capı́tulo 4
Convergencia y funciones
generatrices
Para modelar un fenómeno aleatorio que depende del tiempo, podemos consi-
derar sucesiones de variables X1 , X2 , . . . donde Xi modela el estado del fenómeno a
tiempo i. El conjunto de ı́ndices puede representar unidades de tiempo, iteraciones
de un proceso, etc. Es natural que en este tipo de situaciones, si queremos tener
una información que no dependa del tiempo, nos preguntemos acerca del com-
portamiento de Xn cuando n → ∞. Antes de formalizar esta idea consideremos el
siguiente ejemplo.
Ejemplo. Supongamos que lanzamos un dado n veces, n un número muy grande,
y observamos que el promedio de los números observados es an = 3,500867. Al
comparar este valor con el valor esperado de la variable aleatoria que modela el
número observado al lanzar un dado al azar, 16 (1 + 2 + . . . + 6) = 3,5, podemos ver
que están muy cerca. Es natural conjeturar que
an → 3,5 cuando n→∞
4.1. Desigualdad de Chebyshev y Ley de Grandes

Números
Varios resultados de la teorı́a de probabilidad establecen condiciones para pro-
bar conjeturas del tipo ”si repetimos un experimento muchas veces entonces el
promedio de los resultados se aproxima al valor esperado”.
63
64 CAPÍTULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES
Teorema (Desigualdad de Markov). Sea X una variable aleatoria y g una función

positiva entonces, para todo ε > 0,
E(g(X))
P(g(X) ≥ ε) ≤
ε
Prueba. Supongamos que X es continua, el caso discreto es similar.

Z Z
E(g(X)) = g(x) f (x)dx + g(x) f (x)dx
{x:g(x)≥ε} {x:g(x)<ε}
Z
≥ g(x) f (x)dx
{x:g(x)≥ε}
Z
≥ ε f (x)dx
{x:g(x)≥ε}
= εP(g(X) ≥ ε)
Un caso particular de la desigualdad de Markov es la súper conocida Desi-

gualdad de Chebyshev.
Corolario. Si X es una variable aleatoria con E(X) = µ entonces
1
P(|X − µ| ≥ ε) ≤ Var(X)
ε2
Prueba
1 1
P(|X − µ| ≥ ε) = P(|X − µ|2 ≥ ε2 ) ≤ 2
E((X − µ)2 ) = 2 Var(X)
ε ε
Esta desigualdad es muy útil para aproximar cuán concentrada está una varia-
ble alrededor de su valor esperado.
Sean X1 , X2 , . . . , Xn variables i.i.d. con E(Xi ) = µ y Var(Xi ) = σ2 . Denotemos
el promedio muestral por
Sn X1 + X2 + . . . + Xn
Xn = = .
n n
Ya que
4.1. DESIGUALDAD DE CHEBYSHEV Y LEY DE GRANDES NÚMEROS65

X1 + X2 + . . . + Xn 1
E(X n ) = E = nµ
n n
y
1 σ2
Var(X n ) = Var(X1 + X2 + . . . + Xn ) = ,
n2 n
usando la desigualdad de Chebyshev se tiene que
1 σ2
P(|X n − µ| ≥ ε) ≤
ε2 n
Decimos que Xn converge en probabilidad a X si para todo ε > 0,
P(|Xn − X| ≥ ε) −→ 0 cuando n −→ ∞.
Teorema (Ley Débil de Grande Números). Sean X1 , X2 , . . . , Xn variables i.i.d.

con E(Xi ) < ∞, entonces el promedio muestral X n converge en probabilidad a µ.
0.6
0.5
0.4
0.3
0.2
0 100 200
Figura 4.1: Convergencia de la proporción de caras con el número de lanzamientos

de una moneda.
La Ley Débil de Grandes Números ofrece un potente método de estimación

conocido como el Método de Monte Carlo. El siguiente ejemplo ilustra la idea
básica del método.
3.5
2,5
0 100 200
Figura 4.2: Convergencia del promedio de observaciones con el número de lanza-

mientos de un dado.
Ejemplo. Sea (X,Y ) un vector aleatorio distribuı́do uniformemente en el rectángu-

lo B = [0, a] × [0, b]. Sea A un área contenida en B, ası́,
|A|
p = P((X,Y ) ∈ A) =
ab
Para estimar p, generamos puntos (X1 ,Y1 ), . . . , (Xn ,Yn ) i.i.d. U[0, a] × [0, b] y con-
sideramos la v.a. Bernoulli
Zi = 1 si (Xi ,Yi ) ∈ A
= 0 en caso contrario
Es fácil verificar el promedio Z n converge en probabilidad a p.
4.2. Función generatriz de momentos

Hemos visto que la esperanza y la varianza dan información acerca de la v.a.
Para obtener esta información necesitamos calcular E[X] y E[X 2 ]. El momento de
orden k no es más que la extensión de esta idea para tener más información acerca
de la variable.
4.2. FUNCIÓN GENERATRIZ DE MOMENTOS 67
Definición. El momento de k-ésimo orden de una v.a. X es E[X k ] siempre y cuan-

do E[|X|k ] < ∞.
Ejemplo: Si X tiene distribución Gamma(n, β) entonces el momento de orden k es
βn −βx n(n + 1) . . . (n + k − 1)
Z ∞
E[X k ] = xk e dx =
0 Γ(n) βk
Ejemplo: Si X tiene distribución Cauchy entonces

1
Z ∞
k
E[X ] = xk dx
−∞ π(1 + x2 )
En vista de que la integral no converge en valor absoluto para ningún k ≥ 1 deci-
mos que la distribución de Cauchy no tiene momentos.
Un criterio útil para garantizar la existencia de momentos es:
E[|X|k ] < ∞ implica E[|X|r ] < ∞ para 1 ≤ r ≤ k

En particular, cuando digamos que Var(X) < ∞, estaremos diciendo que los mo-
mentos de primer y segundo orden existen.
Si lo que estamos buscando es obtener información de una variable; formal-
mente de la distribución de probabilidad; a través de sus momentos, parece natural
construir una función que reproduzca el valor de todos los momentos si es que
existen.
Definición. La función generatriz de momentos de una v.a. X es la función
MX (t) = E[e−tX ] para todo t para el cual la esperanza existe
Ejemplo: Si X tiene distribución Gamma(n, β) entonces

n
β
MX (t) = para t ≤ β
β−t
Ejemplo: Si X tiene distribución Cauchy entonces MX (t) sólo está definida para
t = 0.
Ejemplo: Si X tiene distribución Normal(µ, σ2 ) entonces
2 t 2 /2
MX (t) = eµt+σ para todo t ∈ R
Ejemplo: Si X tiene distribución Poisson(λ) entonces

t
MX (t) = e−λ(1−e ) para todo t ∈ R.
Volviendo a nuestro problema, ¿cómo reproducir los momentos de una v.a. a

partir de su función generatriz?. El siguiente teorema responde la pregunta.
Teorema. Si MX existe en un entorno de 0, entonces para cualquier k ≥ 1
dk
E[X k ] = MX (0)
dt k
La prueba formal de este teorema se escapa del alcance de estas notas. La idea
básica es la siguiente:
La esperanza es una sumatoria o una integral dependiendo cual sea el caso
que estemos estudiando. Estos operadores (sumatoria e integral) conmutan, bajo
condiciones de regularidad, con el operador derivada (¿puede el lector construir
ejemplos concretos donde esto ocurre?). Ası́ resulta que
dk dk tX d k tX
M X (t) = E[e ] = E[ e ] = E[X k etX ]
dt k dt k dt k
evaluando la identidad anterior en t = 0 obtenemos el resultado del teorema.
Más que reproducir los momentos de una distribución, la función generatriz
provee una manera de caracterizar distribuciones de probabilidad, tal y como lo
expresa el siguiente teorema.
Teorema. Si MX existe en un entorno de 0, entonces hay una única distribución
con función generatriz MX . Además, bajo esta condición todos los momentos exis-
ten, no importa el orden, y el desarrollo de Taylor de la función generatriz es
∞
tk
MX (t) = ∑ E[X k ] k!
k=0
Del teorema anterior podemos observar que no basta conocer todos los mo-
mentos para caracterizar una distribución, es necesario que la serie
∞
tk
∑ E[X k ] k!
k=0
converja en un entorno de cero, tal como aparece en la hipótesis del teorema.

4.2. FUNCIÓN GENERATRIZ DE MOMENTOS 69
La prueba de este teorema se basa en propiedades de la transformada de La-

place y la omitiremos, sin embargo, su aplicación es de gran utilidad al conectarla
con las siguientes propiedades:
Para números a, b se tiene

MaX+b (t) = E[e(aX+b)t ] = ebt E[eatX ] = etb MX (at)
Si X,Y son independientes entonces

MX+Y (t) = E[et(X+Y ) ] = E[etX etY ] = E[etX ]E[etY ] = MX (t)MY (t)
Usando recursivamente la propiedad anterior, si X1 , . . . , Xn son independien-

tes, entonces MX1 +...+Xn = MX1 . . . MXn
Ejemplo: Sean X1 , . . . , Xn v.a.i.i.d. Exponenciales(β). ¿Cuál es la distribución de la

suma Sn = X1 + . . . + Xn ?. Sabiendo que la función generatriz de una exponencial
es
β
MX1 (t) = para t ≤ β
β−t
podemos usar las propiedades enunciadas y verificar que
n
β
MSn (t) = para t ≤ β
β−t
que corresponde a la función generatriz de una Gamma(n, β). Usando el teorema

anterior podemos concluir que la suma de n exponenciales i.i.d de parámetro β
tiene distribución Gamma(n, β).
El lector puede usar esta técnica para probar los siguientes resultados:
sumas de normales independientes es normal
sumas de Poisson independientes es Poisson
En general, pruebe que si (MX (t))1/n es la función generatriz de una v.a. Z,

entonces sumas de n réplicas independientes de Z se distribuye como X.
4.3. Función caracterı́stica

Como vimos, la función generatriz ofrece un poderoso método para identificar
distribuciones de probabilidad. El problema es que la función generatriz no siem-
pre existe, como es el caso de la Cauchy. La clase de distribuciones para la cual
no existe es suficientemente grande como para necesitar una alternativa. Usando
la fórmula de Moivre
√
eiω = cosω + isenω, con i = −1
es fácil ver que

MX (iω) = E[cos(ωX)] + iE[sen(ωX)]
Ya que las funciones coseno y seno son acotadas, la función
φX (ω) = MX (iω)
siempre existe y tiene propiedades equivalentes a las de la función generatriz. Por

lo cual conviene introducir la siguiente definición
Definición. La función caracterı́stica de una v.a. X es la función
φX (ω) = E[eiωX ]
En estas notas, suponemos que el lector no está familiarizado con el cálculo en

variable compleja. Para calcular φX (ω) = E[eiωX ], se puede usar la identidad
φX (ω) = MX (t) para t = iω
cuando MX (t) existe.

Ejemplo: Si X tiene distribución Gamma(n, β) entonces
n
β
φX (ω) =
β − iω
Cuando MX (t) no existe, por ejemplo para el caso Cauchy, el uso de tablas para
la transformada de fourier puede ser muy útil. Casi cualquier función caracterı́stica
ya ha sido tabulada. En particular, si X es Cauchy,
1
φX (ω) = e−|ω|
2
4.4. CONVERGENCIA EN DISTRIBUCIÓN Y TEOREMA CENTRAL DEL LÍMITE71
El hecho de que la función caracterı́stica siempre exista simplifica el criterio

de caracterización análogo al que estudiamos para la función generatriz de mo-
mentos.
Teorema. Las v.a. X,Y tienen la misma distribución sı́ y sólo sı́ φX (ω) = φY (ω)
para todo ω. Aún más, si X es continua con densidad de probabilidad f , la siguien-
te fórmula puede ser usada para recobrar f a partir de la función caracterı́stica
Z +∞
1
f (x) = e−iωx φX (ω)dω
2π −∞
Esta fórmula no es más que la inversa de la transformada de fourier, observando

que la función caracterı́stica
Z +∞
φX (ω) = e−iωx f (x)dx
−∞
es la transformada de fourier de f .
Para terminar, enunciamos algunas propiedades que el lector puede probar sin
dificultad, siguiendo las pruebas análogas para la función generatriz.
Para números a, b se tiene

φaX+b (ω) = eiωb φX (aω)
Si X,Y son independientes entonces
φX+Y (ω) = φX (t)φY (ω)
Usando recursivamente la propiedad anterior, si X1 , . . . , Xn son independien-
tes, entonces φX1 +...+Xn = φX1 . . . φXn
4.4. Convergencia en distribución y Teorema Cen-

tral del Lı́mite
Cuando consideramos sucesiones de variables aleatorias X1 , X2 , . . . es natural
preguntarse acerca del comportamiento de Xn cuando n → ∞. En particular, sobre
la distribución de probabilidades de Xn cuando n → ∞. Antes de formalizar esta
idea observemos el siguiente ejemplo:
Consideremos la sucesión de variables aleatorias X1 , X2 , . . . con P(Xn = n1 ) = 1.
Es decir, con probabilidad 1, Xn = 1n . Lo natural serı́a que {Xn } converja a una v.a.
X que tiene probabilidad 1 de valer 0. Veamos que pasa con las funciones de
distribución de estas v.a.
1
Fn (x) = P(Xn ≤ x) = 0 si x <
n
1
= 1 si x ≥
n
F(x) = P(X ≤ x) = 0 si x < 0

= 1 si x ≥ 0
Por otro lado
lı́m Fn (x) = 0 si x ≤ 0
n→∞
= 1 si x > 0
Es decir, con la excepción de 0, que es un punto de discontinuidad de F,
lı́m Fn (x) = F(X).
n→∞
Este ejemplo muestra que los puntos de discontinuidad de la distribución lı́mite

deben ser ignorados, lo cual nos lleva a la siguiente definición.
Definición. Consideremos la sucesión de v.a. X1 , X2 , . . . con funciones de distri-
bución F1 , F2 , . . . respectivamente. Sea X una v.a. con función de distribución F.
Diremos que Xn converge en distribución a X, o que Xn → X en distribución, si
lı́m Fn (x) = F(X)

n→∞
para todo x donde F sea continua.
Ejemplo: Considere el mı́nimo Un de n variables i.i.d. uniformes en (0,1). Es fácil
intuir que pasa con Un cuando n → ∞. Ahora bien, ¿qué pasa con nUn cuando
n → ∞?. Primero que nada, como Un ∈ (0, 1), entonces nUn ∈ (0, n) y
x
P(nUn ≤ x) = P Un ≤ para x ∈ (0, n)
n
Usando la definición del mı́nimo y la independencia, la probabilidad anterior pue-
de escribirse como
x h x in
1 − P(nUn > x) = 1 − P Un > = 1− P X >
n n
4.4. CONVERGENCIA EN DISTRIBUCIÓN Y TEOREMA CENTRAL DEL LÍMITE73
con X uniforme en (0,1). Sustituyendo,

x n
P(nUn ≤ x) = 1 − 1 − para x ∈ (0, n)
n
Usando el hecho de que si nan → a entonces
lı́m(1 − an )n = ea (4.1)
se obtiene
x n
lı́m P(nUn ≤ x) = lı́m 1 − 1 − = 1 − e−x para x ∈ (0, ∞)
n
que corresponde a la distribución de una variable exponencial de parámetro 1. Es
decir, si X1 , X2 , . . . son v.a.i.i.d. uniformes sobre (0,1), entonces
nUn → exp(1) en distribución.
Cuando las variables toman valores enteros la convergencia en distribución se

reduce a la convergencia de la funciones de masa. El lector no tendrá dificultad en
probar la siguiente proposición.
Proposición 9. Si X, X1 , X2 , . . . toman valores enteros y para todo k
lı́m P(Xn = k) = P(X = k)
entonces Xn → X en distribución.
Ejemplo. Considere la sucesión de v.a. {Xn } con Xn binomial(n, pn ). Suponga-

mos que pn → 0 con npn → λ > 0. Es decir, para n grande, Xn es una binomial
con muchas repeticiones de un experimento que tiene muy poco chance de éxito.
Podemos probar
lı́m P(Xn = 0) = e−λ
y que
P(Xn = k + 1)
lı́m = λ(k + 1)
P(Xn = k)
Usando recurrencia, vemos que
λk
lı́m P(Xn = k) = e−λ
k!
que es la función de masa de una Poisson(λ). Es decir,

Xn → Poisson(λ) en distribución.
Los dos ejemplos anteriores muestran la dificultad de probar convergencia en
distribución por definición. El siguiente teorema ofrece un método sencillo de
hacerlo
Teorema de continuidad: Sean X1 , X2 , . . . v.a. y φ1 , φ2 , . . . sus respectivas funcio-
nes caracterı́sticas. Si
lı́m φn (ω) =: φ(ω) para todo ω ∈ R
y φ(ω) es continua en ω = 0, entonces φ es la función caracterı́stica de una v.a. X
tal que Xn → X en distribución.
La prueba de este teorema exige de conocimientos avanzados de análisis ma-
temático, sin embargo el teorema en sı́ es fácilmente intuible, a excepto de la
condición técnica φ continua en cero.
Ejemplo: Usar el teorema para probar la convergencia a Poisson del ejemplo an-
terior. Debemos probar que
lı́m φn (ω) =: φ(ω) para todo ω ∈ R

Para el ejemplo anterior
n iω )
φn (ω) = qn + pn eiω y φ(ω) = e−λ(1−e
Ası́,
n
lı́m φn (ω) = lı́m qn + pn eiω
n
= lı́m 1 − pn (1 − eiω )
n
λ iω
= lı́m 1 − (1 − e )
n
iω )
= e−λ(1−e
La aplicación por excelencia del teorema de continuidad es el muy famoso

Teorema del Lı́mite Central. Sean X1 , X2 , . . . v.a.i.i.d. con varianza finita σ2 . De-
notemos por µ la esperanza común de las variables. Entonces
X1 + . . . + Xn − nµ
√ → N(0, σ2 ) en distribución
n
4.5. PROBLEMARIO IV 75
4.5. Problemario IV
1. El número de llamadas que llegan a la central telefónica de Sartenejas en
un minuto, es, en promedio, 102 . La central puede manejar un máximo de
103 llamadas, colapsando si recibe más de este número de llamadas en un
minuto. Usar la desigualdad de Chebyshev para estimar la probabilidad de
que la central colapse en un minuto dado.
2. En el problema de la fábrica del capı́tulo anterior, supóngase que los ampli-

ficadores con Γ < 7,5 × 103 seg−1/2 son rechazados por control de calidad.
(a) Use la desigualdad de Chebyshev para estimar el % de amplificadores
rechazados.
(b) Calcule la misma probabilidad de la parte (a) usando la tabla de la dis-
tribución normal. Explique la discrepancia de los resultados.
3. A través de una encuesta se quiere estimar la fracción p de adultos de la

población que se interesarı́a en un nuevo producto. Se interroga a n perso-
nas de la población, y se estima p como p̃ = X/n, siendo X el número de
personas encuestadas que manifiestan interés en el producto. Utilizando el
Teorema del Lı́mite Central, y suponiendo que el verdadero valor de p es
0.35, encuentre, aproximadamente, el menor valor de n para el cual p̃ y p di-
fieren en menos de 0.02, con probabilidad mayor que 0,9. ¿Como resolverı́a
el problema en el caso (realista) en que p es desconocido?
4. Tomamos 50 números al azar (uniformemente) en el intervalo (1,3).
Utilize la desigualdad de Chebyshev para estimar la probabilidad de

que el promedio X de estos números se encuentre entre 1,9 y 2,1.
Utilize el Teorema del Lı́mite Central para aproximar la misma pro-
babilidad de la parte (a) Según la aproximación que nos dá el T.L.C.,
¿Cuánto debe ser ε para que X se encuentre en el intervalo (1−ε, 1+ε)
con probabilidad 0,95.
5. Use la función generatriz para calcular el momento de tercer orden de una

Normal(µ, σ2 ).
2.- Sean {Xn } v.a.i.i.d. y N una v.a. a valores enteros positivos independiente
de {Xn }. Calcule la función generatriz de momentos de X1 + . . . + XN y
deduzca la esperanza y varianza de esta v.a.
6. {Xn } v.a. con

k 1
P Xn = = para k = 1, . . . n
n+1 n
Pruebe que Xn → U(0,1) en distribución.
7. Suponga que Xn tiene distribución Gamma(n,

√ 1). Calcule la función genera-
triz de momentos de Zn = (Xn − n)/ n y demuestre que
2 /2
lı́m MZn (t) = et
¿Qué concluye?.

Libro

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Libro

Încărcat de

Drepturi de autor:

Formate disponibile

CURSO INTRODUCTORIO DE

Raúl Jiménez y Haydée Lugo

Universidad Carlos III de Madrid

2. Variables aleatorias discretas 23

3. Variables aleatorias continuas 41

4. Convergencia y funciones generatrices 63

Estas notas no pretenden sustituir los excelentes libros de introducción a la

Los conceptos y resultados más importantes están resaltados en negro en el

1. Grimmett, G. y D. J. A. Welsh. Probability: An introduction. Oxford Uni-

2. Durrett R. Essentials of Probability. Duxbury Press, Belmont CA (1993,

Muchos de los eventos que estamos acostumbrados a observar no pueden ser

1.1. Espacios de probabilidad

Conjunto numerable, infinito numerable y no numerable.

Unión, intersección y diferencia de conjuntos.

Complemento y partición de un conjunto.

Leyes distributivas y leyes de Morgan.

Dado un experimento aleatorio, la clase F de todos los eventos o conjuntos de

(I) El espacio muestral es un conjunto de interés,

(II) Si un conjunto es de interés su complemento también lo es,

(III) La unión de una colección contable de eventos es un evento de interés,

si A1 , A2 , . . . son eventos de F entonces ∪n≥1 An ∈ F .

(III’) Si A1 , A2 , . . . son eventos de F entonces ∩n≥1 An ∈ F .

Aún más general, se puede demostrar que F es cerrada bajo operaciones

de probabilidad es una función P : F → [0, 1] que debe satisfacer las siguientes

Si A1 , A2 , . . . son eventos disjuntos de F , es decir si Ai ∩ A j = 0/ para todo i 6= j,

Esta última propiedad es conocida como σ-aditividad y es natural exigı́rsela a

P2. Aditividad: Si A1 , A2 , . . . , An son eventos disjuntos, entonces

P3. P(Ac ) = 1 − P(A)

P4. P(B − A) = P(B) − P(B ∩ A)

P5. Si A ⊂ B entonces P(B − A) = P(B) − P(A)

P6. Monotonı́a: Si A ⊂ B entonces P(A) ≤ P(B)

P7. P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

P8. Subaditividad: P(∪n≥1 An ) ≤ ∑ni=1 P(Ai )

P9. Fórmula de inclusión exclusión:

Note que el caso n = 2 corresponde a P7. El caso n = 3 se requiere para

P10. σ-subaditividad: Para cualquier sucesión de eventos, no necesariamente dis-

P11. Continuidad por la izquierda: Si A1 , A2 , . . . es una sucesión creciente de

P(∪n≥1 An ) = lı́m P(An )

P12. Continuidad por la derecha: Si A1 , A2 , . . . es una sucesión decreciente de

P(∩n≥1 An ) = lı́m P(An )

Dado un espacio muestral Ω, una σ-álgebra F de subconjuntos de Ω y una

1.2. Probabilidad condicional

Proposición 1. Sea B un evento con P(B) > 0, entonces

(i) Para todo evento A, 0 ≤ P(A|B) ≤ 1

(iii) Si A1 , A2 , . . . son eventos disjuntos entonces

P(∪n≥1 An |B) = ∑ P(An|B)

Fórmula de probabilidad total. Sea B1 , B2 , . . . una partición del espacio mues-

P(A) = ∑ P(A|Bi )P(Bi ). (1.3)

La aplicación de esta fórmula se basa en la apropiada escogencia de la partición,

P(∩ni=1 Ai ) = P(A1 )P(A2 |A1 ) · · · P(An | ∩n−1

De esta última ecuación podemos observar que:

La condición P(B) o P(A) > 0 no es requerida.

P(∩i∈J Ai ) = Πi∈J P(Ai ) (1.7)

Ejemplo. Considere Ω = {1, 2, 3, 4} y P({ω}) = 1/4 para todo ω ∈ Ω. Sean A =

Proposición 3. Sean A y B son eventos mutuamente excluyentes, asociados a un

Para probar esta proposición observemos que

P(A ocurra antes que B) = ∑ P(A ocurre antes que B en el experimento k)

Una elegante aplicación de la conjunción de este resultado con la fórmula

1.4. Espacios equiprobables

ocurrencia decimos que el espacio es equiprobable. En ese caso, la probabilidad

A continuación, vamos a presentar dos esquemas elementales de conteo.

Números Combinatorios. Sea F un conjunto con n elementos, a continuación

De la fórmula del binomio de Newton y de los cálculos anteriores podemos