Documente Academic
Documente Profesional
Documente Cultură
PROBABILIDAD
Septiembre 2009
2
Índice general
Prefacio 5
1. Conceptos básicos 7
1.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . 10
1.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4. Espacios equiprobables . . . . . . . . . . . . . . . . . . . . . . . 15
1.5. Problemario I . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3
4 ÍNDICE GENERAL
Las notas están organizadas en cuatro capı́tulos, cada uno puede cubrirse apro-
ximadamente en tres semanas de clases, con dos sesiones por semana (incluyendo
sesiones de prácticas). Si el curso es de un trimestre (12 semanas) las secciones
4.2 y 4.3 deberı́an omitirse y emplear el tiempo que se les hubiera dedicado para
evaluaciones y pequeños repasos. Si el curso es de un cuatrimestre (14 semanas)
se puede cubrir todo el contenido. Mi recomendación es hacer una evaluación
rápida (quiz) al finalizar el Captulo 1 y dos exámenes, uno sobre los dos prime-
ros capı́tulos y otro sobre los dos últimos. La experiencia me ha demostrado que
separar el tema discreto del continuo ayuda al desarrollo y evaluación del curso.
5
6 ÍNDICE GENERAL
material ligero y manipulable, ası́ que se requiere que el profesor demuestre y que
el estudiante complete lo que hagan falta.
Me comprometo con los lectores en ir llenando poco a poco las notas con la
intención de hacerlas aún más autocontenidas, sin que esto modifique la inteción
original que tienen. En particular, espero pronto ofrecer soluciones y actualizacio-
nes de algunos ejercicios propuestos ası́ cómo ampliar la gama de ejemplos. Mi
premura en ofrecer esta vesión beta es para remplazar unas notas excesivamente
rudimentarias e incompletas que yo usaba para mis clases y que se han ido repro-
duciendo espontáneamente por algunos estudiantes. Estas notas tienen los tı́picos
errores de cut and paste que siempre corregı́a al pizarrón y me avergüenza que
sigan circulando por ahı́ con mi nombre. Las actualizaciones de las notas pueden
obtenerse en forma libre en mi página web www.est.uc3m.es/rjjimene
Raúl Jiménez
Madrid, 2009
Referencias
Conceptos básicos
Conjunto vacı́o.
7
8 CAPÍTULO 1. CONCEPTOS BÁSICOS
Diagramas de Venn.
Ω∈F.
si A ∈ F entonces Ac ∈ F .
Una clase de eventos que satisface las tres propiedades anteriores se denomina
σ-álgebra. Es fácil comprobar que si F es una σ-álgebra entonces cumple pro-
piedades tales como:
(I’) 0/ ∈ F .
(II’) Si A, B ∈ F entonces A − B ∈ F .
P(Ω) = 1, (1.1)
/ =0
P1. P(0)
Otras propiedades que se demuestran con un poco más de trabajo (el profesor
puede escoger un par de ellas, recomendamos P10 y P11) son:
10 CAPÍTULO 1. CONCEPTOS BÁSICOS
− · · · + (−1)n+1 P(∩ni=1 Ai )
que A y B son eventos que ocurren con probabilidad P(A) y P(B). Si sabemos
que B ha ocurrido la probabilidad de que A ocurra no tiene por que seguir siendo
P(A), ya que A ocurrirá sı́ y sólo sı́ A ∩ B ocurre. Lo anterior sugiere que, dado
que B ocurre, la probabilidad de A es proporcional a P(A ∩ B). Ya que, dado que B
ocurre, B en un evento seguro, la constante de proporcionalidad a la que hacemos
referencia debe ser 1/P(B). La siguiente definición pone orden al trabalenguas
anterior.
Definición (Probabilidad Condicional). Sean A, B eventos con P(B) > 0, en-
tonces la probabilidad condicional de A dado B se denota por P(A|B) y se define
por
P(A ∩ B)
P(A|B) = .
P(B)
Para cada evento A, P(A|B) es un número positivo, es decir, la probabilidad con-
dicional establece un correspondencia entre los eventos y los números reales po-
sitivos. Más especı́ficamente, la probabilidad condicional es una medida de pro-
babilidad.
(ii) P(Ω|B) = 1
Por la proposición anterior, todas las propiedades que satisfacen las medidas
probabilidad también las satisface la probabilidad condicional. Por ejemplo, la
probabilidad condicional es monótona, subaditiva, continua por la derecha y por
la izquierda.
La probabilidad condicional brinda una importante fórmula para el cálculo de
probabilidades, cuando se tiene una partición apropiada del espacio muestral. Una
partición de un conjunto A es una sucesión de eventos disjuntos B1 , B2 , . . . cuya
unión sea A.
12 CAPÍTULO 1. CONCEPTOS BÁSICOS
P(A|B)P(B)
P(B|A) = (1.4)
P(A)
Ejemplo. Continuando con el ejemplo anterior, use la fórmula de Bayes para cal-
cular la probabilidad de haber pasado una bola roja de la primera caja a la segunda
caja cuando la que se extrajo de la segunda caja fue blanca.
Otra fórmula de mucha utilidad para cálculo de probabilidades, cuando se con-
sideran experimentos secuenciales que son modelados a través de árboles de
decisión, es la llamada fórmula de multiplicación:
Fórmula de multiplicación. Sean A1 , A2 , . . . , An eventos con probabilidad no nu-
la. Entonces, para n ≥ 2,
1.3. Independencia
La noción de independencia en teorı́a de probabilidades está tomada de su
significado cotidiano. En general, decimos que un par es independiente cuando el
resultado de las acciones de uno no afecta en el resultado las acciones del otro.
En términos probabilı́sticos, diremos que dos eventos son independientes si la
ocurrencia de uno de ellos no afecta la probabilidad de ocurrecia del otro. Es
decir, A es independiente de B si
P(A|B) = P(A)
Para que la ecuación anterior esté bien definida, es necesario que P(B) > 0, en
cuyo caso, podemos reescribir la ecuación como
P(A ∩ B) = P(A)P(B)
eventos es 1/2 y por tanto cada par de eventos son independientes. Por ejemplo, A
y B son independientes ya que
P(A ∩ B) = 1/4 = P(A)P(B).
Sin embargo, P(A ∩ B ∩ C) = 1/4 6= P(A)P(B)P(C), y por tanto A, B y C no son
independientes.
Para determinar la no independencia (dependencia) de una familia de eventos
basta verificar que la ecuación (1.7) no se cumple para un subgrupo particular (pa-
ra algún J). Sin embargo, la independencia de una colección de eventos puede ser
una propiedad dura de comprobar. Por ejemplo, para verificar por definición la in-
dependencia de apenas 10 eventos habrı́a que verificar más de 1000 ecuaciones!.
Afortunadamente, consideraremos muchos casos en que la independencia de una
familia de eventos es una consecuencia directa de la manera en que son obser-
vados. El caso que queremos destacar trata de eventos asociados a repeticiones
independientes de experimentos aleatorios, tales como lanzamientos sucesivos
de un dado o una moneda. Si se tienen n experimentos independientes, en el senti-
do de que los resultados de unos no afectan los resultados de los otros, y A1 , A2 , . . .
son eventos asociados al primer experimento, al segundo, etc., entonces A1 , A2 , . . .
son independientes.
Los siguientes dos resultados conciernen con sucesiones de eventos asociados
a experimentos independientes.
Proposición 2. Si A es un evento con probabilidad no nula de que ocurra aso-
ciado a un experimento. Si repetimos el experimento infinitas veces, entonces A
ocurre alguna vez con probabilidad 1.
Para demostrar este resultado aplicamos varias propiedades que hemos apren-
dido. Llamando An el evento A ocurre en el nésimo experimento y p = P(An ),
usando P2, las leyes de Morgan, P12 y la independencia de A1 , A2 . . . , Am , obtene-
mos
P(A ocurre alguna vez) = P(∪n≥1 An )
= 1 − P ([∪n≥1 An ]c )
= 1 − P(∩n≥1 Acn )
= 1 − lı́m P(∩mn≥1 An )
c
m→∞
= 1 − lı́m (1 − p)m = 1
m→∞
1.4. ESPACIOS EQUIPROBABLES 15
P(A)
P(A ocurra antes que B) = .
P(A) + P(B)
En el juego tiras los dados en una primera ronda. Si sale 7 o 11 ganas. Si sale 2,
3 o 12 pierdes. Si tiras 4, 5, 6, 8, 9 o 10 hay que seguir lanzando hasta que o bien
repitas el número que lanzaste en la primera ronda o bien salga un 7. En el primer
caso ganas, en el segundo pierdes.
P(A) = |A|/|Ω|.
n!
Inp = n(n − 1) . . . (n − p + 1) = ,
(n − p)!
siendo n! el factorial de n, definido por
n! = 1 · 2 · 3 · · · n (1.8)
para n ≥ 1 y 0! = 1.
Varios problemas de conteo se reducen a calcular el número de funciones in-
yectivas entre dos conjuntos. Por ejemplo, ¿de cuántas maneras podemos colocar
p bolas enumeradas en n cajas?. Otro problema tı́pico es: ¿cuántos arreglos, o
conjuntos ordenados, pueden construirse extrayendo sin reposición p elementos
p
de un conjuntos con n elementos. La respuesta a ambas preguntas es In .
El caso especial Inn = Pn = n! es comunmente interpretado como el total de
permutaciones de n elementos, lo cual no es más que el número de funciones
biyectivas sobre un conjunto de n elementos.
1.4. ESPACIOS EQUIPROBABLES 17
1.5. Problemario I
1. Supongamos que Ω = A ∪ B y P(A ∩ B) = 0,2. Hallar:
a) P(Ac ∩ Bc ∩C)
b) P((A ∩ B ∩C)c )
c) P(A ∪ (Bc ∩Cc ))
1.5. PROBLEMARIO I 19
3. Se sientan 4 personas, al azar, en 4 sillas que llevan sus nombres (una silla
con cada nombre). ¿Qué probabilidad hay de que alguna de las personas
quede en la silla con su nombre?
B Bc
A 0.4 0.2
Ac 0.15 0.25
a) Hallar P(A | B)
b) Hallar P(B | A)
c) Hallar P(Ac | B)
d) Hallar P(Bc | A)
8. Las barajas de poker constan de 52 cartas (no incluimos los comodines), dis-
tribuidas como sigue: se tienen 4 pintas: corazón (♥), diamante (♦), trébol
(♣) y pica (♠). De cada pinta hay 13 cartas denominadas 1,2,...,10, J, Q y
K. Se reparten al azar 5 cartas (una mano) a cada jugador. Hallar la proba-
bilidad de que en una mano el jugador I reciba:
a) ninguna pica,
b) al menos 2 picas,
20 CAPÍTULO 1. CONCEPTOS BÁSICOS
c) 3 cartas del mismo número (un trı́o) y otras dos cartas con números
distintos al del trı́o y distintos entre sı́. Por ejemplo,
{3♥, 3♠, 3♣, 5♣, Q♦} es una mano incluı́da en el evento que nos in-
teresa.
9. La urna I contiene r bolas rojas y b blancas. La urna II contiene, inicial-
mente, una bola roja y una blanca. Se toma una bola al azar de la urna I y
se pasa a la II, luego se extrae una bola al azar de la urna II y resulta ser
blanca. ¿Cúal es la probabilidad de que la bola pasada de la urna I a la II
haya sido blanca?
10. Las llamadas telefónicas a una empresa son recibidas por tres recepcionistas
A, B y C, de tal manera que de las 200 llamadas recibidas en un dı́a, 60
son atendidas por la recepcionista A, 80 por B y las restantes por C. La
recepcionista A se equivoca al pasar la llamada en un 2 % de las veces,
la recepcionista B en un 5 % y la C en un 3 %. Hallar la probabilidad de
que al pasar una llamada recibida en la empresa, ésta sea pasada al lugar
equivocado
11. Una urna contiene inicialmente r bolas rojas y b blancas. Se extraen 5 bolas,
una por una, al azar, sin remplazo.
a) Hallar la probabilidad de que la secuencia sea RBRBR (Primera Roja,
Segunda Blanca,...).
b) Hallar la probabilidad de que la secuencia sea RRRBB. Compare con
(a). Generalize.
c) Ahora se extraen al azar, una por una y sin remplazo, todas las bolas
de la urna. Diga porque todas las secuencias de extracción tienen la
misma probabilidad.
d) ¿Cuál es la probabilidad de que la última bola extraı́da sea roja?
12. Un virus peligroso está presente en el 0.01 % de la población nacional. Se
tiene una prueba clı́nica para detectar la presencia del virus, y esta prueba es
correcta en el 99 % de los casos (es decir, entre los portadores del virus, la
prueba dá positivo el 99 % de las veces y entre los no portadores dá negativo
el 99 % de las veces). Un individuo tomado al azar en la población es some-
tido a la prueba y el resultado de ésta es positivo. Al conocer el resultado de
la prueba, ¿cuál es la probabilidad de que este individuo sea realmente un
portador del virus?. Comente sobre el valor de esta probabilidad.
1.5. PROBLEMARIO I 21
14. Se recibe un lote de 1000 artefactos, de los cuales 60 están dañados. Para
decidir si aceptamos o no el lote se seleccionan 200 artefactos al azar, sin
remplazo, rechazando el lote si más de 2 están dañados. Hallar la probabili-
dad de aceptar el lote.
16. Una unidad de mantenimiento sabe que cada falla reportada tiene probabi-
lidad 0.15 de ser falsa alarma. Si la unidad acepta 25 solicitudes de man-
tenimiento por dı́a y sólo dispone del tiempo para atender 20 fallas reales,
determine: ¿Cuál es la probabilidad de que todas las fallas reales sean aten-
didas?
17. Un estanque contiene 500 peces de los cuales 300 están marcados. Un pes-
cador logra sacar 50 peces. Hallar la probabilidad de que:
18. Un lector óptico falla en la lectura del código de barras, con una probabili-
dad de 0.01.
a) ¿Cuál es la probabilidad de que el lector falle solo una vez en las pri-
meras 10 lecturas?
b) ¿Cuál es la probabilidad de que el lector no falle en las primeras 20
lecturas dado que en las primeras 10 lecturas, el lector no falló.
22 CAPÍTULO 1. CONCEPTOS BÁSICOS
19. Un depósito guarda 1000 artı́culos, 100 de los cuales son defectuosos. Un
inspector toma uno de los artı́culos al azar, y si no es defectuoso lo devuelve
al lote. Sea N el número de inspecciones de objetos no defectuosos, que se
realizan antes de encontrar el primer objeto defectuoso. Calcular la proba-
bilidad de tener 25 ≤ N ≤ 60.
23
24 CAPÍTULO 2. VARIABLES ALEATORIAS DISCRETAS
{ω ∈ Ω : X(ω) = x} ∈ F . (2.1)
{ω ∈ Ω : X(ω) = x} = {x} si x ∈ N
= 0/ en caso contrario
Ası́ que no podemos decir con que probabilidad la variable toma el valor 2 o 4,
sólo sabemos que es par con probabilidad 1/2 y un número natural con probabili-
dad 1. Como mencionamos, nos interesa la probabilidad de que la variable tome
cualquiera de sus posible valores. A eso apunta la siguiente definición.
Función de masa de probabilidad. La función de masa de probabilidad (fmp) de
la variable aleatoria discreta X es la función pX : R → [0, 1] definida por
En general, basta determinar una de estas dos funciones para calcular probabili-
dades de los eventos asociados a una variable aleatoria, que en general son del
tipo
P(X ∈ A) = P({ω ∈ Ω : X(w) ∈ A}) = ∑ P(X = xi )
xi ∈A
Para demostrar que la función definida en (2.5) satisface (2.3) es necesario usar la
fórmula del binomio de Newton. Ası́,
n n
∑ pk qn−k = (p + q)n = 1
k=0 k
Note que
∞ ∞
1
∑ pqk−1 = p ∑ qk = p =1
k=1 k=0 1−q
1 k −λ
P(X = k) = λ e , para k = 0, 1, 2, . . . . (2.8)
k!
Haciendo uso del desarrollo en serie de Taylor de la función exponencial, es senci-
llo comprobar que la función definida en (2.8) satisface (2.3). Cuando n es grande
y p pequeño, haciendo λ = np, la aproximación
n 1 k −λ
pk qn−k ≈ λe
k k!
es buena. De manera que el modelo Poisson puede entenderse como un caso lı́mite
del Binomial, cuando el número de experimentos es grande y la probabilidad de
éxito de cada experimento es pequeña. Al final del curso formalizamos esta idea.
0.3
0.25
0.2
0.15
0.1
0.05
0
0 2 4 6 8 10 12 14 16 18
Ejemplo. Sea X una variable que toman valores 1, 2, 3 y Y una que toma valores
1, 2, 3, 4. Suponga que la probabilidad de que el par (X,Y ) tome el valor (x, y)
viene dada por la entrada x, y de la siguiente tabla.
1 2 3 4
1 0,10 0,05 0,05 0,00
2 0,15 0,10 0,05 0,00
3 0,20 0,15 0,10 0,05
λx
y
µ −(λ+µ)
P(X = x,Y = y) = e
x! y!
= f (x)g(y),
con f (x) = λx /x! y g(y) = µy e−(λ+µ) /y!, de manera que X e Y son independientes.
Sin embargo, las funciones f y g no son funciones de masa de probabilidad. De
hecho, las marginales de X,Y son
1 k −λ 1
P(X = k) = λe y P(Y = k) = µk e−µ para k = 0, 1, . . .
k! k!
Un = mı́n{X1 , X2 , . . . , Xn }.
Vn = máx{X1 , X2 , . . . , Xn }
{Vn ≤ k} = {X1 ≤ k, X2 ≤ k, . . . , Xn ≤ k}
y si son i.i.d.
FVn (k) = [P(X1 ≤ k)]n . (2.13)
z
1 x −λ 1
P(X +Y = z) = ∑ λe µz−x e−µ
x=0 x! (z − x)!
1
= (λ + µ)z e−(λ+µ)
z!
2.5. Esperanza
Consideremos un dado justo. Si este es lanzado un número grande de veces,
cada posible resultado aparecerá alrededor de un sexto de las veces y el promedio
del número observado será aproximadamente
E[X] = ∑ x P(X = x)
x
Prueba
E[Y ] = ∑ y P(Y = y)
y
" #
= ∑y ∑ P(X = x)
y {x:g(x)=y}
= ∑ ∑ y P(X = x)
y {x:g(x)=y}
= ∑ g(x)P(X = x)
x
Prueba
E(XY ) = E(X)E(Y )
Var(X +Y ) = Var(X) +Var(Y )
Esto es,
E[X|B] = ∑ x P(X = x|B)
x
Prueba de la fórmula
E[X] = ∑ E[X|Bi]P(Bi)
i≥1
= ∑ ∑ x P(X = x|B) P(Bi )
i≥1 x
= ∑ ∑ x P({X = x} ∩ Bi)
i≥1 x
= ∑ x P({X = x} ∩ (∪i≥1Bi))
x
= ∑ x P(X = x)
x
2.7. Problemario II
1. Calcule e interprete el valor esperado de X cuando tiene distribución:
binomial de parámetros n y p
geométrica de parámetro p
hipergeométrica
Poisson de parámetro λ
binomial de parámetros n y p
geométrica de parámetro p
Poisson de parámetro λ
6. Un dado tiene dos cara azules, dos rojas y dos verdes. Se lanza repetidamen-
te. Encuentre la probabilidad de que no todos los colores aparezcan en los
primeros k lanzamientos. Deduzca que si N es la v.a. que toma el valor n si
el tercer color aparece en el n-ésimo lanzamiento por primera vez, entonces
E[N] = 11/2. Sugerencia, use la fórmula (2.16) y la fórmula de inclusión
exclusión para la unión de tres eventos.
8. Sean X,Y v.a. i.i.d. con P(X = k) = pqk , k ≥ 0. Demuestre que para k =
0, . . . n
1
P(X = k|X +Y = n) =
n+1
Sugerencia: Use la fórmula de Bayes y la fórmula de convolución.
9. Existen c diferentes tipos de cromos y cada uno tiene el mismo chance de ser
adquirido en una compra (los cromos se venden por separado en un sobre).
Sea Yi el número adicional de cromos coleccionados después de obtener i
tipos de cromos antes de obtener un nuevo tipo. Demuestre que Yi tiene dis-
tribución geométrica con parámetro (c − i)/c. Calcule el número esperado
de cromos que necesitas adquirir hasta completar la colección.
E[X|X +Y = n] = nλ/(λ + µ)
15. Considere que el número de veces que una moneda es lanzada es una v.a.
Poisson. Sea X el número de caras y Y el número de sellos. Verifique que
X,Y son independientes. Sugerencia: Use la fórmula de particionamiento
para calcular la masa de probabilidad de X.
17. Una lı́nea aérea cubre la ruta CCS-MAD, con un avión que tiene 280 plazas.
La polı́tica de la aerolı́nea es aceptar 300 reservaciones para este vuelo.
Se supone que todos los pasajeros actúan en forma independiente y que la
probabilidad de que un pasajero se presente es p. El precio del pasaje es G,
pero si un pasajero se presenta y no puede ser embarcado, se le reintegra su
dinero más una compensación de H.
18. El costo de producción en euros de cierta máquina que se fabrica por encar-
go es de 4300 por máquina, cuando se producen menos de cinco unidades.
Si se producen de cinco a nueve unidades el costo por máquina baja a 4000.
Y cuando se producen diez o más unidades el costo por unidad baja a 3500.
La demanda de estas máquinas fluctúa según una distribución de Poisson
con valor esperado igual a 8. Hallar el precio de venta unitario, para que la
ganancia neta esperada por máquina sea de 5000. Si vendemos a ese precio,
¿cuál es la probabilidad de que la empresa pierda dinero?
Capı́tulo 3
La razón por la cual requerimos que X satisfaga (3.1) es la misma por la cual re-
querimos la condición (2.1) cuando introducimos el concepto de variables aleato-
rias discretas. Tal y como ya hemos mencionado, estamos interesados en calcular
probabilidades del tipo P(X ∈ A), con A ⊂ R, las cuales están definidas si
{X ∈ A} = {ω ∈ Ω : X(ω) ∈ A} ∈ F (3.2)
La condición (3.1) asegura que (3.2) se satisface para cualquier A ⊂ R que puedan
escribirse como un resultado de operaciones numerables (finitas o infinitas) de
intervalos. Esta es una importante colección de conjuntos de números reales que
se conoce como la σ-álgebra de Borel. En todo lo sucesivo se sobreentiende que
si A ⊂ R entonces A pertenece a la σ-álgebra de Borel. Elementos simples de la
σ-álgebra de Borel son los intervalos (cerrados, abiertos, finitos, infinitos, etc) y
los conjuntos numerables.
El concepto de función de distribución que introducimos en (2.4) vale para
41
42 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS
FX (x) = P(X ≤ x)
FX (x) = FX (xi ).
3.1. VARIABLES ALEATORIAS CONTINUAS 43
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
1 2 3 4 5 6 −4 −3 −2 −1 0 1 2 3 4
Funciones con una curva suave, asociadas a variables aleatorias que llama-
remos continuas y que definimos a continuación.
Definición. Una variable aleatoria es continua si su función de distribución F
puede representarse como
Z x
F(x) = f (u)du para todo x ∈ R,
−∞
ası́ que f (x) está relacionado con la probabilidad de que la variable tome
un valor cercano a x. Sin embargo, es importante recalcar que f (x) no es una
44 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS
probabilidad, en particular no tiene por que ser menor o igual a 1. Note además
que, acorde a la definición dada, la función de distribución de una va continua es
una función continua. Es decir, si X es continua, para todo x ∈ R,
lı́m F(y) = F(x).
y→x
Sustituyendo en (3.3), demostramos que si X es continua
P(X = x) = 0 para todo x ∈ R
y en consecuencia, para todo a < b
P(a < X ≤ b) = P(a ≤ X ≤ b) = P(a ≤ X < b) = P(a < X < b).
Esta es una significativa diferencia con la variables aleatorias discretas. Veamos
algunos ejemplos de fdp comunes en el modelaje.
Distribución Uniforme. Decimos que X se distribuye uniformemente sobre el
intervalo (a, b), y escribimos X ∼ U(a, b), si tiene fdp
1 si x ∈ (a, b)
f (x) = b − a
0 en caso contrario
En otras palabras,
3.3. DENSIDAD CONJUNTA Y DENSIDADES MARGINALES 47
con lo cual probamos la fórmula (3.4) para el caso particular en que g es invertible
y derivable. Esta es una potente fórmula con numerosas aplicaciones y consecuen-
cias, a continuación, sumarizamos algunas importantes.
E[aX + b] = aE[X] + b
es decir, Z ∞
fX (x) = f (x, y)dy.
−∞
∞ R
En este contexto, fX (x) = −∞ f (x, y)dy es llamada densidad marginal de X.
De manera simétrica definimos la densidad marginal de Y por
Z ∞
fY (y) = f (x, y)dx.
−∞
area(A) 1
Z Z
P((X,Y ) ∈ A) = = 2 dydx (3.8)
area(Dr ) πr A
IA (ω) = 1 si ω ∈ A
= 0 si no
Continuando con el ejemplo, podemos escribir f (x, y) = πr12 IDr (x, y) sin la posi-
bilidad de incurrir en el error de creer que f (x, y) puede ser factorizada como en
(3.7).
50 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS
ρ2 θ 2x 1
Z ρZ θ
P(0 < R < ρ, 0 < Θ < θ) = 2 = dvdu
r 2π 0 0 r2 2π
De donde
ρ1
fR,Θ (ρ, θ) = I (ρ)I(0,2π) (θ)
r2 π (0,r)
y usando (3.7) vemos que R, Θ si son independientes. ¿Cuáles son las densidades
marginales?.
El cambio a coordenas polares anterior, ejemplifica un problema general:
Dado un vector aleatorio (X,Y ) con densidad conjunta f (x, y) y una transfor-
mación T (X,Y ) = (U,V ), ¿cuál es la densidad conjunta del nuevo v.a. (U,V )?. Si
la transformación es invertible
aunque la prueba formal de este resultado se escapa de los alcances del curso.
De manera idéntica a como lo hicimos para el caso discreto, usando las den-
sidades conjuntas y marginales, puede probarse la linealidad del valor esperado,
fórmulas para la covarianza y varianza de la suma de variables continuas, obte-
niendo el siguiente resultado general:
Proposición 8. Para cualquier par de variables aleatorias X, Y y par de números
a, b, se tiene
1. E[aX + bY ] = aE[X] + bE[Y ]
2. Cov(X,Y ) = E[(X − EX)(Y − EY )] = E[XY ] − E[X]E[Y ]
3. Var(aX + bY ) = a2Var(X) + b2Var(Y ) + 2abCov(X,Y )
4. Si X,Y son independientes E[XY ] = E[X]E[Y ] y en consecuencia
Var(X +Y ) = Var(X) +Var(Y ).
52 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS
P(a ≤ X ≤ b, y ≤ Y ≤ y + δ)
P(a ≤ X ≤ b|y ≤ Y ≤ y + δ) =
P(y ≤ Y ≤ y + δ)
R b R y+δ
a y f (x, v)dv dx
= R y+δ
y fY (v)dv
y
Z y+δ
1
fY (v)dv → fY (y).
δ y
Con las definiciones anteriores es fácil probar la versión continua de esta impor-
tante fórmula:
Z
E[X] = E[X|Y = y] fY (y)dy
Un distribución que sirve para ilustrar buena parte de lo visto en las secciones
anteriores es la normal bivariada. Sea
1 1 2 2
f (x, y) = p exp − (x − 2ρxy + y )
2π 1 − ρ2 2(1 − ρ2 )
X se distribuye N(0, 1)
E[X|Y = y] = ρy
X,Y son independientes sı́ y sólo sı́ son incorrelacionados. Recuerde que
incorrelación no implica independencia, lo cual hace a la normal bivariada
una distribución muy especial.
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
3
2 3
1 2
0 1
0
−1
−1
−2 −2
−3
0.4
0.3
0.2
0.1
2
3
2
0 1
0
−2 −1
−2
−3
por tanto,
fUn (u) = n[1 − (1 − e−u ]n−1 e−u = ne−nu .
Es decir, el mı́nimo Un se distribuye según una exponencial de parámetro λ = n.
Breve comentario sobre la confiabiliad de sistemas. El mı́nimo y el máximo de
variables independientes es la base de la teorı́a de confiabilidad de sistemas. La
confiabilidad de un sistema a tiempo t, R(t), se define como la probabilidad de
que el sistema no falle hasta ese instante. Si T es el instante en el que el sistema
falla, entonces
R(t) = P(T > t).
El tiempo de falla de los sistemas con n componentes en lı́nea se modela con
una variable que representa el mı́nimo de n variables independientes. El tiempo
de falla de los sistemas paralelos con n componentes se modela como el máximo
de n variables independientes. Usando estas dos simples observaciones podemos
calcular la confiabilidad de sistemas más complejos.
Ejemplo. Calculemos la confiabilidad del sistema representado por el siguiente
diagrama:
C3
C1
C4
C2 C5
por lo que,
P(V1 > t) = 1 − P(T3 < t)P(T4 < t)
Adicionalmente, C1 trabaja en serie con {C3,C4} por lo que la variable U1 =
mı́n{T1 ,V 1} representa el tiempo de falla para ese subsistema. Por lo cual,
P(Z ≤ z) = P(X +Y ≤ z)
Z Z
= fX,Y (x, y)dydx
{x+y≤z}
Z +∞ Z z−x
= fX,Y (x, y)dydx
−∞ −∞
observando que
Z z
P(Z ≤ z) = fZ (v)dv
−∞
tenemos Z +∞
fZ (v) = fX,Y (u, v − u)du ∀v ∈ R
−∞
λs+t
Z z
fZ (z) = xs−1 (z − x)t−1 e−λz dx
0 Γ(s)Γ(t)
λs+t s+t−1 −λz z Γ(s + t) xs−1 (z − x)t−1
Z
= z e dx
Γ(s + t) 0 Γ(s)Γ(t) zs+t−1
λs+t s+t−1 −λz 1 Γ(s + t) s−1
Z
= z e u (1 − u)t−1 du
Γ(s + t) 0 Γ(s)Γ(t)
R 1 Γ(s+t) s−1
Usando el hecho de que 0 Γ(s)Γ(t) u (1 − u)t−1 du = 1, tenemos que
1. Halle valor esperado y varianza de una variable aleatoria continua con dis-
tribución
Uniforme(a, b)
Exponencial(λ)
Normal(µ, σ)
Gamma(α, β)
Si 0,2 ≤ R < 0,5 pies, el participante recibe 10$. Si 0,5 ≤ R < 1 pie, el par-
ticipante no recibe ningún pago y, finalmente, si R ≥ 1 pies el participante
debe pagar x dólares a la casa (adicionales a los cancelados a la entrada, por
supuesto). Si R tiene densidad f (r) = r exp(− 21 r2 ) , r > 0, ¿Cuánto debe
valer x para que el juego sea justo?
7. (X,Y ) tienen densidad conjunta
f (x, y) = e−y para 0 < x < y
= 0 en otro caso
encuentre E[X|Y = y] y E[Y |X = x]
8. Sean X,Y v.a. independientes con distribución Gamma de parámetros (n, β)
y (m, β) respectivamente. Considere las variables
X
U = X +Y V=
X +Y
Demuestre que U,V son independientes y calcule sus distribuciones. De-
duzca la curiosa identidad válida para este caso
X E[X]
E =
X +Y E[X] + E[Y ]
Convergencia y funciones
generatrices
Para modelar un fenómeno aleatorio que depende del tiempo, podemos consi-
derar sucesiones de variables X1 , X2 , . . . donde Xi modela el estado del fenómeno a
tiempo i. El conjunto de ı́ndices puede representar unidades de tiempo, iteraciones
de un proceso, etc. Es natural que en este tipo de situaciones, si queremos tener
una información que no dependa del tiempo, nos preguntemos acerca del com-
portamiento de Xn cuando n → ∞. Antes de formalizar esta idea consideremos el
siguiente ejemplo.
Ejemplo. Supongamos que lanzamos un dado n veces, n un número muy grande,
y observamos que el promedio de los números observados es an = 3,500867. Al
comparar este valor con el valor esperado de la variable aleatoria que modela el
número observado al lanzar un dado al azar, 16 (1 + 2 + . . . + 6) = 3,5, podemos ver
que están muy cerca. Es natural conjeturar que
63
64 CAPÍTULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES
E(g(X))
P(g(X) ≥ ε) ≤
ε
1
P(|X − µ| ≥ ε) ≤ Var(X)
ε2
Prueba
1 1
P(|X − µ| ≥ ε) = P(|X − µ|2 ≥ ε2 ) ≤ 2
E((X − µ)2 ) = 2 Var(X)
ε ε
Esta desigualdad es muy útil para aproximar cuán concentrada está una varia-
ble alrededor de su valor esperado.
Sean X1 , X2 , . . . , Xn variables i.i.d. con E(Xi ) = µ y Var(Xi ) = σ2 . Denotemos
el promedio muestral por
Sn X1 + X2 + . . . + Xn
Xn = = .
n n
Ya que
4.1. DESIGUALDAD DE CHEBYSHEV Y LEY DE GRANDES NÚMEROS65
X1 + X2 + . . . + Xn 1
E(X n ) = E = nµ
n n
y
1 σ2
Var(X n ) = Var(X1 + X2 + . . . + Xn ) = ,
n2 n
usando la desigualdad de Chebyshev se tiene que
1 σ2
P(|X n − µ| ≥ ε) ≤
ε2 n
Decimos que Xn converge en probabilidad a X si para todo ε > 0,
P(|Xn − X| ≥ ε) −→ 0 cuando n −→ ∞.
0.6
0.5
0.4
0.3
0.2
0 100 200
3.5
2,5
0 100 200
Zi = 1 si (Xi ,Yi ) ∈ A
= 0 en caso contrario
Ejemplo: Si X tiene distribución Cauchy entonces MX (t) sólo está definida para
t = 0.
Ejemplo: Si X tiene distribución Normal(µ, σ2 ) entonces
2 t 2 /2
MX (t) = eµt+σ para todo t ∈ R
68 CAPÍTULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES
dk
E[X k ] = MX (0)
dt k
La prueba formal de este teorema se escapa del alcance de estas notas. La idea
básica es la siguiente:
La esperanza es una sumatoria o una integral dependiendo cual sea el caso
que estemos estudiando. Estos operadores (sumatoria e integral) conmutan, bajo
condiciones de regularidad, con el operador derivada (¿puede el lector construir
ejemplos concretos donde esto ocurre?). Ası́ resulta que
dk dk tX d k tX
M X (t) = E[e ] = E[ e ] = E[X k etX ]
dt k dt k dt k
evaluando la identidad anterior en t = 0 obtenemos el resultado del teorema.
Más que reproducir los momentos de una distribución, la función generatriz
provee una manera de caracterizar distribuciones de probabilidad, tal y como lo
expresa el siguiente teorema.
Teorema. Si MX existe en un entorno de 0, entonces hay una única distribución
con función generatriz MX . Además, bajo esta condición todos los momentos exis-
ten, no importa el orden, y el desarrollo de Taylor de la función generatriz es
∞
tk
MX (t) = ∑ E[X k ] k!
k=0
Del teorema anterior podemos observar que no basta conocer todos los mo-
mentos para caracterizar una distribución, es necesario que la serie
∞
tk
∑ E[X k ] k!
k=0
φX (ω) = MX (iω)
φX (ω) = E[eiωX ]
Cuando MX (t) no existe, por ejemplo para el caso Cauchy, el uso de tablas para
la transformada de fourier puede ser muy útil. Casi cualquier función caracterı́stica
ya ha sido tabulada. En particular, si X es Cauchy,
1
φX (ω) = e−|ω|
2
4.4. CONVERGENCIA EN DISTRIBUCIÓN Y TEOREMA CENTRAL DEL LÍMITE71
es la transformada de fourier de f .
Para terminar, enunciamos algunas propiedades que el lector puede probar sin
dificultad, siguiendo las pruebas análogas para la función generatriz.
X que tiene probabilidad 1 de valer 0. Veamos que pasa con las funciones de
distribución de estas v.a.
1
Fn (x) = P(Xn ≤ x) = 0 si x <
n
1
= 1 si x ≥
n
lı́m Fn (x) = 0 si x ≤ 0
n→∞
= 1 si x > 0
Es decir, con la excepción de 0, que es un punto de discontinuidad de F,
lı́m Fn (x) = F(X).
n→∞
lı́m(1 − an )n = ea (4.1)
se obtiene
x n
lı́m P(nUn ≤ x) = lı́m 1 − 1 − = 1 − e−x para x ∈ (0, ∞)
n
que corresponde a la distribución de una variable exponencial de parámetro 1. Es
decir, si X1 , X2 , . . . son v.a.i.i.d. uniformes sobre (0,1), entonces
entonces Xn → X en distribución.
λk
lı́m P(Xn = k) = e−λ
k!
74 CAPÍTULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES
4.5. Problemario IV
1. El número de llamadas que llegan a la central telefónica de Sartenejas en
un minuto, es, en promedio, 102 . La central puede manejar un máximo de
103 llamadas, colapsando si recibe más de este número de llamadas en un
minuto. Usar la desigualdad de Chebyshev para estimar la probabilidad de
que la central colapse en un minuto dado.
2.- Sean {Xn } v.a.i.i.d. y N una v.a. a valores enteros positivos independiente
de {Xn }. Calcule la función generatriz de momentos de X1 + . . . + XN y
deduzca la esperanza y varianza de esta v.a.
76 CAPÍTULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES
¿Qué concluye?.