Sunteți pe pagina 1din 108

Las siguientes son notas del curso de Introduccin a la Probabilidad y Estadstica que he dictado en 2010, para licenciatura en matemtica.

Por correccin de erratas y comentarios, se agradece comunicarse a mi correo electrnico: jkalem@cmat.edu.uy Juan Kalemkerian

ndice general
1. Espacio de probabilidad. 1.1. -lgebra de conjuntos. . . . 1.2. Espacio de probabilidad. . . 1.3. Apndice y notas histricas.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 6 10

2. Probabilidad condicional e independencia. 2.1. Probabilidad condicional. . . . . . . . 2.2. Independencia. . . . . . . . . . . . . . . 2.3. Notas histricas. . . . . . . . . . . . . .

14

14 17 19

3. Variable Aleatoria. 3.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Funcin de distribucin de una variable aleatoria. 3.3. Variables Aleatorias Discretas. . . . . . . . . . . . . 3.4. Ejemplos de Variables discretas. . . . . . . . . . . . 3.5. Variables aleatorias absolutamente continuas. . . . 3.6. Ejemplos de variables absolutamente continuas. . 3.7. Variables aleatorias mixtas. . . . . . . . . . . . . . . 4. Distribucin conjunta. 4.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . 4.2. Vectores aleatorios discretos. . . . . . . . . . . 4.3. Vectores aleatorios absolutamente continuos. 4.3.1. Propiedades. . . . . . . . . . . . . . . . . 4.4. Independencia de variables aleatorias. . . . . . 4.5. Mtodo del Jacobiano. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .

21

21 23 25 25 30 31 32

33

33 35 37 37 40 45

5. Integral de Riemann-Stieltjes. 5.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Mtodos de integracin. . . . . . . . . . . . . . . . . . . . . 5.3. Extensin a funciones complejas e integrales impropias. 5.4. Aplicaciones a la teora de la probabilidad. . . . . . . . . 5.5. Integrales de Riemann-Stieltjes mltiples. . . . . . . . . . 5.5.1. Aplicaciones a la teora de la probabilidad. . . . .
2

47

50 53 54 54 56 57

ndice general 5.5.2.

Integrales mltiples impropias.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

6. Valor esperado. 6.1. Denicin. . . . . . . . . . . . . . . . . . . . . . 6.2. Ejemplos. . . . . . . . . . . . . . . . . . . . . . 6.3. Propiedades. . . . . . . . . . . . . . . . . . . . . 6.4. Teoremas de convergencia. . . . . . . . . . . . 6.4.1. Teorema de convergencia montona. 6.4.2. Teorema de convergencia dominada. . 6.4.3. Aplicaciones. . . . . . . . . . . . . . . . 7. Espacios Lp . 7.1. Denicin y propiedades. . . . . . . . . . . 7.2. Varianza de una variable aleatoria. . . . 7.3. Covarianza y coeciente de correlacin. . 7.4. Variables i.i.d. . . . . . . . . . . . . . . . . .
. . . . . . . .

58

58 59 60 64 64 65 66 68 69 72 74

68

8. Convergencia en probabilidad, casi segura y en distribucin. 8.1. Convergencia en probabilidad y casi segura. . . . . . . . . 8.2. Leyes de los grandes nmeros. . . . . . . . . . . . . . . . . 8.2.1. Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . . 8.3. Convergencia en distribucin. . . . . . . . . . . . . . . . . . 9. Funciones caractersticas. 9.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . 9.2. Frmula de inversin. . . . . . . . . . . . . . . . . . . . 9.3. Caracterizacin de la convergencia en distribucin. 9.4. Teorema Central del Lmite. . . . . . . . . . . . . . . . 10.Estimacin puntual. 10.1. Estadsticos y estimadores. . . . . . . . . . 10.2. Mtodos de estimacin. . . . . . . . . . . . 10.2.1. Mtodo de los momentos. . . . . . 10.2.2. Mtodo de mxima verosimilitud.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

76 79 82 84 88 90 92 96

87

. 99 . 100 . 101 . 101

99

11.Intervalos de conanza. 104 11.1. Denicin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 11.2. Construccin de intervalos de conanza en algunos casos particulares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 11.3. Resumen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Captulo 1 Espacio de probabilidad.


1.1. -lgebra de conjuntos.
Denicin 1.1.
-lgebra de subconjuntos de . Dado un conjunto = , diremos que A 2 es una -lgebra de subconjuntos de si cumple los siguientes axiomas: i) A. ii) Si A A entonces Ac A. iii) Si {An }nN A, entonces + An A. n=1
En todos los teoremas que siguen a continuacin se considera dada A una -lgebra de subconjuntos de .

Teorema 1.2.
A.
Demostracin.

Como A entonces por ii) = c A.

Teorema 1.3.

A1 , A2 , ..., An A

entonces

n Ai A. i=1

Basta usar el axioma iii) en el caso en que An+1 = An+2 = ... = A, entonces en este caso se tiene que + An = n Ai A. n=1 i=1

Demostracin.

Teorema 1.4.

Si

{An }nN A,

entonces

+ An A. n=1

Demostracin.

Como An A cualquiera sea n, entonces por ii) Ac) A para todo n. Entonces por n ( c + iii) n=1 Ac A, y por lo tanto + An = + Ac A. n=1 n=1 n n

Teorema 1.5.

Si

A, B A,

entonces

A B A.

Captulo 1. Espacio de probabilidad.


Demostracin.

Basta observar que A B = A B c A ya que A, B c A, e interseccin nita de elementos de A, pertenece a A.

Teorema 1.6.
.

Si

es

-lgebra

de conjuntos sobre

una familia cualquiera de ndices, entonces

I A

es

para todo I , siendo I -lgebra de conjuntos sobre

Deno A = I A . i) A para todo I, entonces A. ii) Si A A, entonces A A para todo I, entonces Ac A para todo I , luego Ac A. iii) Si {An }nN A, entonces {An }nN A para todo I, entonces + An A n=1 para todo I, entonces + An A. n=1

Demostracin.

Ejemplo 1.7.
.

{, } es -lgebra de conjuntos sobre , cualquiera sea el conjunto 2 es -lgebra de conjuntos sobre , cualquiera sea el conjunto .

Ejemplo 1.8. Ejemplo 1.9.

Si A es tal que A , entonces {, , A, Ac } es -lgebra de conjuntos sobre , cualquiera sea el conjunto .

Denicin 1.10.

-lgebra generada por una familia de subconjuntos de . Dada F una familia de subconjuntos de , al conjunto A AF A le llamaremos -lgebra engendrada por F y la notaremos por (F) .
:

La -lgebra generada por una familia de subconjuntos de , siempre existe y adems es la menor -lgebra generada por una familia de subconjuntos de que contiene aF .

Denicin 1.11. -lgebra de Borel en R. Consideramos F = {A R : A es abierto} .


Llamaremos -lgebra de Borel en R a (F) .

Teorema 1.12.

I1 = {(a, b) R : a < b} ; I2 = {[a, b) R : a < b} ; I3 = {(a, b] R : a < b} ; I4 = {(a, +) R : a R} ; I5 = {[a, +) R : a R} ; I6 = {(, a) R : a R} ; I7 = {(, a] R : a R} . Entonces
Si denimos

(I) = (I1 ) = (I2 ) = (I3 ) = (I4 ) = (I5 ) = (I6 ) = (I7 ) .


Demostracin.

Probaremos a modo de ejemplo que (I1 ) = (I2 ), para lo cual basta ver que I1 (I2 ) y que I2 1 ). (I Efectivamente, (a, b) = n:a+1/n<b [a + 1/n, b), lo cual prueba que (I1 ) (I2 ). Adems, [a, b) = + (a 1/n, b), lo cual prueba la otra inclusin. n=1 Se deja como ejercicio vericar las dems igualdades. Para trabajar con (I), tener en cuenta que todo abierto en R se puede escribir como una unin numerable de 5

Captulo 1. Espacio de probabilidad. intervalos abiertos. De manera similar se dene la -lgebra de Borel en Rk , como la -lgebra generada por los abiertos de Rk , o sea como la menor -lgebra que contiene a todos los abiertos de Rk . A los conjuntos de esta -lgebra, se les llama borelianos.

1.2. Espacio de probabilidad.


Dado = , diremos que la terna (, A, P ) es un espacio de probabilidad sobre si y slo A es una -lgebra de conjuntos sobre , y P es una funcin P : A [0, 1] que cumple los siguientes axiomas: i) P () = 1, ii) si la familia de sucesos {An }nN son disjuntos dos a dos (Ai Aj = para A ( + ) todos i = j ), entonces P n=1 An = + P (An ) . n=1 En todos los teoremas que siguen se considera dado el espacio de probabilidad (, A, P ).

Denicin 1.13. Espacio de probabilidad.

Teorema 1.14.
P () = 0.
Demostracin.

Consideramos la familia de sucesos disjuntos A1 = , A2 = A3 = ... = , luego aplicamos el axioma ii) y obtenemos

P +

+ An n=1

= P () = P () +

+ n=2

P ()

por lo tanto n=2 P () = 0. Si fuera P () = 0, se tendra que la serie sera divergente y no podra ser cierta la igualdad anterior. Entonces P () = 0.

Teorema 1.15. Si A1 , A2 , ..., An A y son disjuntos dos a dos, entonces P (n Ai ) = i=1


n i=1

P (Ai ) .

Demostracin.

Se aplica el axioma ii) teniendo en cuenta que si se agregan los conjuntos An+1 = An+2 = ... = , se obtiene que

+ An n=1

n i=1

P (Ai ) +

+ i=n+1

P (Ai ) =

n i=1

P (Ai )

) ( pero P + An = P (n Ai ) de donde se deduce el resultado. n=1 i=1

Teorema 1.16.
Demostracin.

Si

A, B A,

entonces

P (B A) = P (B) P (A B) .

Escribimos la unin disjunta (B A) (A B) = B . Luego, aplicando el axioma ii) obtenemos que P (B A) + P (A B) = P (B), de donde se deduce el resultado. 6

Captulo 1. Espacio de probabilidad.

Corolario 1.17.
1. 2.

Si

A, B A

son tales que

A B,

entonces

P (B A) = P (B) P (A). P (A) P (B) .

Demostracin.

1. Es inmediato a partir de la propiedad anterior, si se observa que A B = A. 2. Es inmediato ya que P (B) P (A) = P (B A) 0.

Teorema 1.18.
Demostracin.

Si

A, B A,

entonces

P (A B) = P (A) + P (B) P (A B) .

Escribimos A B = (A B) (B A) (A B), unin disjunta, entonces

P (A B) = P (A B) + P (B A) + P (A B) = P (A) P (A B) + P (B) P (A B) + P (A B)
de donde se deduce el resultado.

Teorema 1.19.
P

Si

A1 , A2 , ..., An A =
n k=1

entonces

(n Ai ) i=1

(1)k1

1i1 <i2 <...<ik n

P (Ai1 Ai2 ... Aik ) .

Demostracin.

Se deja como ejercicio.

Teorema 1.20.
Demostracin.

Si

A1 , A2 , ..., An A,

entonces

P (n Ai ) i=1

n
i=1

P (Ai ) .

Se deja como ejercicio.

Teorema 1.21.

Propiedad de continuidad de las probabilidades.

1. Si la familia de sucesos

{An }nN A es tal que: A1 A2 A3 ... ) ( P + An = lmP (An ) . n=1 {An }nN A es tal que: A1 A2 A3 ... ) ( P + An = lmP (An ) . n=1

entonces

2. Si la familia de sucesos

entonces

Demostracin.

Captulo 1. Espacio de probabilidad. 1. Denimos la familia de sucesos Bn = An An1 para n = 1, 2, 3... Sobreentenderemos que A0 = . Como An1 An cualquiera sea n, entonces P (An An1 ) = P (An ) P (An1 ) . Por otro lado {Bn }nN A, es una familia disjunta de sucesos, por lo que aplicando el axioma iii) se obtiene que

+ Bn n=1

+ n=1

P (Bn ) =

+ n=1

P (An An1 ) =

+ n=1

[P (An ) P (An1 )]

= lmP (An ) .
2. Tomando complementos obtenemos que Ac ) Ac Ac ..., luego aplicando 1 2 3 ( la parte anterior, se obtiene que P + Ac = lmP (Ac ) . O sea que n=1 n n

([ + ]c ) ( ) n=1 An = 1 P + An = n=1
lm [1 P (An )] .

Entonces

( ) P + An = lmP (An ) . n=1


Si la familia de sucesos {An }nN A ( ) P + An = 1. n=1 es tal que

Teorema 1.22.
todo

P (An ) = 1

para

n,

entonces

([ ]c ) ( ) Debemos probar que P + An = P + Ac = 0. A partir del teorema 1.20 y n=1 n=1 n tomando lmite obtenemos P ( + Ac n=1 n )
+ n=1

Demostracin.

P (Ac ) = 0. n

Denicin 1.23. Lmites superior e inferior de una sucesin de conjuntos.


Dados (, A, P ) espacio de probabilidad y {An }nN A, se denen el lmite superior e inferior de la sucesin de sucesos como limsup An : = respectivamente. Se deja como ejercicio vericar las siguientes propiedades. 1. limsup An = {w : w An para innitos valores de n} (ocurren innitos An ). 2. liminf An = {w : w An para todo n, salvo a lo sumo para una cantidad nita de ndices} (ocurren An para todos los valores de n salvo a lo sumo una cantidad nita). 8
+ + n=1 k=n + + n=1 k=n

Ak y liminf An : =

Ak .

Captulo 1. Espacio de probabilidad. 3. liminf An limsup An .


+ 4. Como la sucesin Bn = Ak es decreciente, entonces P (limsup An ) = k=n ( + ) lim P Ak . k=n + k=n

5. Como la sucesin Bn =

Ak es creciente, entonces P (liminf An ) =lim P

( +
k=n

) Ak .

6. Si {An }nN es una sucesin creciente de sucesos, entonces liminf An = limsup + An . An =


n=1

7. Si {An }nN es una sucesin decreciente de sucesos, entonces liminf An = limsup + An = An .


n=1

Observacin 1.24. Teorema 1.25.


A,

La denicin de lmite superior e inferior de una familia de

conjuntos se dene de igual modo aunque no estemos en un espacio de probabilidad. Dados

(, A, P )
(1)

espacio de probabilidad y una sucesin

{An }nN

entonces se cumple que

P (liminf An )
Demostracin.

liminfP

( An )

(2)

limsupP

(An ) P (limsup An ) .
+ k=n

(3)

Para la desigualdad (3), vemos que para todo n se tiene que

Ak An , entonces

P (limsup An ) = limP

( +
k=n

) Ak

limsupP (An ) .

Un razonamiento anlogo prueba la desigualdad (1). La desigualdad (2) es evidente.

Ejemplo 1.26. Si es un conjunto innito numerable, es decir = {w1 , w2 , ..., wn , ...}


entonces si consideramos la sucesin {pn }nN tal que pn 0 para todo n N y + ( ) n=1 pn = 1, y denimos P : 2 [0, 1] tal que para todo A 2 , P (A) = n xn A pn , entonces se cumple que la terna , 2 , P es un espacio de probabilidad. Observamos que segn esta denicin se tiene que P ({wn }) = pn para todo n.
:

: 2 [0, 1] tal que P (A) = siendo n(A) la cantidad de elementos que tiene el conjunto A. Observamos que en este caso, se tiene que si = {w1 , w2 , ..., wn } entonces P ({wi }) = 1/n para todo i = 1, 2, 3, ..., n, lo cual signica que todo elemento de es igualmente probable.
n(A) n()

Ejemplo 1.27. Modelo de equiprobabilidad. Si es nito, denimos P

Captulo 1. Espacio de probabilidad. En general, cuando es nito o innito numerable, si no se aclara nada al respecto se sobreentiende que la -lgebra considerada es 2 . En numerosas ocasiones se est en presencia de un espacio muestral nito donde cada elemento tiene la misma probabilidad.

Ejemplo 1.28.

Se tiran 3 dados y se desea calcular la probabilidad de que salga al menos un 2 en las 3 tiradas. En este caso, = {(i, j, k) : i, j, k {1, 2, 3, 4, 5, 6}} . Para calcular n () observamos que para la terna (i, j, k) tenemos 6 valores posibles de i, por cada valor de i tenemos 6 valores posibles para j por lo que existen 62 = 36 pares (i, j) , y por cada uno de estos 36 pares tenemos 6 posibles valores de k , as obtenemos 63 = 216 ternas en . Por otro lado, para el suceso A = sale al menos un 2 en las 3 tiradas", podemos realizar la descomposicin A = B C D donde B = sale exactamente dos veces el 2 en las 3 tiradas", C = sale exactamente un 2 en las 3 tiradas", D = sale las 3 veces el 2 en las 3 tiradas". Esta unin es disjunta por lo que P (A) = P (B) + P (C) + P (D) . Para calcular P (B) observamos que si el 2 sale en el primer lugar, tenemos 52 ternas, pero el 2 puede salir en el segundo o en el tercer lugar, por lo que en total tendremos n (B) = 3 52 = 75 y entonces P (B) = 75/216. Razonando similarmente, obtenemos P (C) = 3 5/216 mientras que P (D) = 1/216, entonces P (A) = 91/216. Hubiera sido ms sencillo observar que Ac = no sale ningn 2 en las 3 tiradas", entonces tenemos 5 5 5 ternas donde esto ocurre, entonces P (Ac ) = 125/216 y por lo tanto P (A) = 1 125/216 = 91/216.

Ejemplo 1.29.
24 veces

Si se tiran 24 veces dos dados, es ms ventajoso apostar por la aparicin de al menos un doble 6, o no? En este caso, el total de casos posibles son 36 36 ... 36 = 3624 , mientras que si denimos el suceso A = no aparece ningn doble 6 en las 24 tiradas", tenemos que n (A) = 35 35 ... 35 = 3524 y por lo
24 veces

tanto P (A) = (35/36) = 0,508 por lo que es ms conveniente apostar a que no aparece ningn doble 6 en 24 tiradas.

24

1.3. Apndice y notas histricas.


Dado un conjunto = , se dice que A es un lgebra de subconjuntos de si y slo si cumple los siguientes axiomas: 1. A; 2. Si A A entonces Ac A; 3. Si A, B A entonces A B A.

Comentario sobre la necesidad de trabajar con sigmas lgebras sobre espacios muestrales no numerables.

10

Captulo 1. Espacio de probabilidad. En el caso en que = (0, 1), entonces se verica directamente que el conjunto I formado por uniones nitas de conjuntos de la forma: (a, b]; (0, b]; (a, 1) con a, b (0, 1) forman un lgebra de subconjuntos de (0, 1). Por otro lado, tambin se puede vericar directamente que la funcin P : I [0, 1] tal que P (A) = longitud de A, cualquiera sea A I, es una funcin que cumple ser nitamente aditiva, tal que P ((0, 1)) = 1. Un teorema importante de teora de la medida, el teorema de Carathodory nos dice que si tenemos una terna (, I; P ) donde P es una funcin P : I [0, 1] que cumple que P () = 1 y adems es nitamente aditiva ( o sea que P (A B) = P (A) + P (B) siempre que A, B I sean tales que A B = ), entonces existe una nica funcin P tal que (, (I) , P ) es un espacio de probabilidad, tal que P (A) = P (A) para todo A I. Dicho de otra manera, si tenemos una funcin de probabilidad nitamente aditiva, denida sobre un lgebra I de subconjuntos de , entonces puede ser extendida de manera nica sobre la -lgebra generada por I. Volviendo al ejemplo del espacio (0, 1) y el lgebra I , entonces sabemos que (I) = B(0,1) . Usando estas ideas veremos que existen conjuntos no borelianos. Denimos la relacin en (0, 1), xRy si y slo si x y Q. Se verica en forma inmediata que la misma dene una relacin de equivalencia en (0, 1) . Por lo tanto queda el conjunto (0, 1) particionado en clases de equivalencia. Elegimos un elemento de cada clase, y con ella formamos un conjunto que llamamos A. O sea que podemos escribir (0, 1) = I A , donde la unin es disjunta, y adems x, y A si y slo si x y Q. Para cada I elegimos a A de manera arbitraria (esto puede ser realizado gracias al axioma de eleccin), entonces denimos el conjunto A = I {a } . Veremos a partir del teorema de extensin de Carathodory que A no es boreliano. Para cada racional q Q (0, 1) denimos el conjunto Aq = {x + q : x A, x + q 1} {x + q 1 : x A, x + q > 1} . Observando que los Aq son los trasladados por q del conjunto A, deducimos que si A fuera boreliano, entonces tambin lo sera Aq para cada q Q (0, 1) . Observamos adems que para todo q Q (0, 1) se cumple que P (Aq ) = P (A). Por otro lado, se cumple que (0, 1) = qQ(0,1) Aq , adems la unin es disjunta. Por lo tanto, extendiendo por Carathodory la funcin P a la -lgebra generada por I que es la -lgebra de Borel en (0, 1), obtendramos que 1 = P ((0, 1)) = P (Aq ) = 0
qQ(0,1)

lo cual es absurdo.

Observacin 1.30.
nir una funcin de que la probabilidad

Este resultado adems de demostrar que existen conjuntos no

borelianos, nos permite demostrar tambin que cuando

= (0, 1) , es imposible deprobabilidad sobre todos los subconjuntos de (0, 1), de tal modo de de un intervalo incluido en (0, 1) sea la longitud del mismo. (0, 1),
de tal modo que la probabilidad de un intervalo

Por lo tanto si queremos trabajar con un espacio de probabilidad donde se elije un punto al azar en el intervalo incluido en

(0, 1)

sea la longitud del mismo, no nos quedar ms remedio que de-

11

Captulo 1. Espacio de probabilidad.


nirlo como la longitud sobre los intervalos, y luego va el teorema de Carathodory, extenderlo a la

-lgebra

de Borel sobre

(0, 1).

Un poco de historia.

Como fue visto en el ejemplo 1.29, la probabilidad de la aparicin de al menos un doble seis cuando se tira 24 veces un par de dados, es 0,492, por lo tanto es levemente desfavorable a apostar a que no sale ningn doble 6. Dada la proximidad de este valor a 1/2, sin saber realizar este clculo, difcilmente podramos prever si era favorable o desfavorable apostar a este evento, por el simple hecho de repetirlo muchas veces y contabilizar su frecuencia. Esta situacin se le present a Antoine de Gombaud (caballero de Mer), noble francs quien en 1654 interesado en resolver este problema, se lo plante a Blaise Pascal, quien comenz a cartearse con Pierre de Fermat, para discutir y llegar a la solucin del problema. Si bien los juegos de azar, son tan antiguos como la humanidad, y es natural pensar que los primeros matemticos babilnicos y griegos ya trabajaron y por lo tanto obtuvieron ciertos resultados probabilsticos, se considera que ste intercambio de correspondencia entre de Fermat y Pascal motiv el inicio de la teora de la probabilidad, o al menos el comienzo de la construccin de los principios de la misma. Christian Huygens (quien fuera maestro de Leibnitz), enterado de esta correspondencia, en 1657 public lo que es conocido como el primer libro de teora de probabilidades: De Ratiociniis in Ludo Aleae, que se trata de un libro de problemas de juegos de azar. Anterior en el tiempo a esta correspondencia y a Huygens, vale la pena destacar que el matemtico italiano Gerolamo Cardano en el siglo XVI ya haba resuelto algunos problemas de juegos de azar, e incluso escribi un tratado sobre probabilidad, Liber de ludo aleae , pero el mismo fue publicado casi un siglo despus de su muerte, en 1663. El primero en dar la denicin clsica de probabilidad (casos favorables sobre casos posibles) fue James Bernoulli (1654-1705), en una obra fundamental para el desarrollo de la teora de la probabilidad: Ars Conjectandi (El arte de conjeturar), esta obra fue publicada en 1713. En 1812, Pierre Simon de Laplace, en su libro Thorie analytique des probabilits, introduce numerosas ideas y tcnicas para resolver problemas de azar. De manera un tanto irregular, numerosos matemticos aportaron nuevas ideas a la teora, se plantearon nuevos problemas, y se desarrollaron nuevos conceptos, pero an quedaba una denicin que sea adecuada y satisfactoria a situaciones donde est presente el azar, pero que no tienen que ver con juegos de azar, ni pueden ser repetidos en idnticas condiciones muchas veces. Esta falta de una denicin precisa hizo que muchos matemticos se desencantaran y consideraran a la probabilidad no como una teora matemtica, y se alejaron de ella. Durante los tres siglos en que se busc una denicin adecuada y amplia para la probabilidad, hubieron distintas escuelas, como la clsica, la frecuencista y la subjetivista que tuvieron distintas controversias entre si, ya que todas daban deniciones que no eran totalmente satisfactorias. La escuela clsica es la que acotaba los problemas probabilsticos a los casos en que es nito con resultados equiprobables, por lo que denan probabilidad como el 12

Captulo 1. Espacio de probabilidad. nmero casos favorables sobre el nmero de casos posibles. Claramente esta denicin no es aplicable a muchas situaciones que se dan en la prctica, tanto porque a veces es innito, como cuando los elementos del mismo no son equiprobables. Otros denieron lo que se llama interpretacin frecuencista, que dice que para calcular la probabilidad de un evento se lo debe repetir n veces, y entonces es el lmite cuando n tiende a ininto del nmero de veces que ocurre el evento dividido el nmero de repeticiones del experimento (n). Nuevamente es claro que esta interpretacin tiene el defecto de que muchas veces el experimento no puede ser repetido en idnticas condiciones, y adems, no se pueden hacer innitos experimentos. Por otro lado, el lmite no es el lmite usual, hay que denir otro concepto de lmite, ya que el azar no permitira asegurarnos un n tal que a partir del mismo, la probabilidad del suceso diste de la frecuencia observada tan poco como se quiera. Esta escuela est basada en la ley de los grandes nmeros que veremos ms adelante. Por ltimo los subjetivistas, decan que la probabilidad estaba dado por un carcter subjetivo, en el sentido de que la probabilidad de un suceso, es el grado de conanza que se tiene de que el mismo ocurra. De esta manera dos personas distintas pueden tener probabilidades diferentes para un mismo suceso, puesto que sus grados de conanza de que el mismo ocurra son distintos. Incluso una misma persona, en otro momento puede llegar a tener una valoracin distinta de la ocurrencia de un suceso y por lo tanto cambiar su grado de conanza. Esta escuela tuvo por precursores a Bruno de Finetti y Leonard Savage. Hubo que esperar hasta 1933 cuando Andrei Nikolayevich Kolmogorov, en su monografa titulada Grundbegrie der Wahrscheinlichkeitsrechnung (Fundamentos de Probabilidad) planteara la denicin axiomtica de espacio de probabilidad, dndose cuenta a partir de la teora de la medida y de los trabajos de Borel y Lebesgue, que calcular probabilidades, es una forma de medir. Se puede decir que a partir de este trabajo, denitivamente y para todos los matemticos, la probabilidad pas a ser un tema de matemtica, y adems concluy con todas las discusiones sobre la denicin de probabilidad, ya que todas ellas quedaron como casos particulares de un espacio de probabilidad. Si bien un espacio de probabilidad es un caso particular de espacio de medida, tiene conceptos y formas intuitivas de pensar problemas probabilsticos (como la probabilidad condicional y el concepto de independencia, que sern vistos en el prximo captulo) que la independizan en muchos aspectos de la teora de la medida.

13

Captulo 2 Probabilidad condicional e independencia.


2.1. Probabilidad condicional.
Supongamos que participamos de un juego en el que se tira una moneda sucesivamente dos veces, y nosotros apostamos a que salen ambas caras. La probabilidad que tenemos de ganar la apuesta es 1/4. Ahora bien, si ya se lanz la primer moneda y sali cara, ahora nuestra probabilidad de ganar pas a ser 1/2. Se observa que en este caso, se agreg informacin sobre el experimento. En este ejemplo, = {(C, C); (N, C); (C, N ); (N, N )} y si le llamamos A = {(C, C)} (salen ambas caras) y B = {(C, C); (C, N )} (la primera sali cara), como dijimos P (A) = 1/4 pero la probabilidad de que ganemos la apuesta sabiendo que el primer lanzamiento sali cara, lo anotaremos como P (A/B) y vale P (A/B) = 1/2. Como se ve en este caso, al cambiar la informacin que tenemos sobre el experimento, observamos que cambi el espacio muestral. Al calcular P (A/B) pensamos el calcular la probabilidad de A, suponiendo que el espacio muestral es B . Si estamos en el modelo de equiprobabilidad, calcularamos P (A/B) = n(AB) ya que ahora nuestros casos posibles son el total de n(B) elementos de B , esto es n(B) y los casos favorables son aquellos en los que ocurre el suceso A (de entre los que ocurren B ), esto es n(A B), por lo tanto observamos que en el modelo de equiprobabilidad la manera general de calcular la probabilidad condicional sera as:

P (A/B) =

n(A B)/n() P (A B) = . n(B)/n() P (B)

Este clculo (y otros) motivan la siguiente denicin.

Denicin 2.1.

Si (, A, P ) es un espacio de probabilidad, dados A, B A donde (AB) P (B) > 0. Denimos P (A/B) = P P (B) . La notacin P (A/B), la leemos como la probabilidad de que ocurra A, sabiendo que ocurre B . En todos los teoremas que siguen se considera dado (, A, P ) un espacio de probabilidad. 14

Captulo 2. Probabilidad condicional e independencia.

Teorema 2.2.
P (B) > 0.

P (A B) = P (A/B) P (B)

cualesquiera sean

A, B A

tal que

Demostracin.

Evidente a partir de la denicin.

Teorema 2.3. P (A/B) =


y

P (B/A)P (A) cualesquiera sean P (B)

A, B A tales que P (A) > 0

P (B) > 0.

Demostracin.

P (A/B) =

P (A B) P (B/A) P (A) = . P (B) P (B)


es tal que

Teorema 2.4.
que 1.

Si la familia

{Bn }nN A

i) Bi Bj = para todos i = j (es decir que son sucesos disjuntos dos a dos), ii) + Bn = iii)P (Bn ) > 0 para todo n N. Entonces cualquiera sea A A se tiene n=1 Frmula de probabilidades totales.

P (A) =
Frmula de Bayes.

+ n=1

P (A/Bn ) P (Bn ) .

2.

Para

tal que

P (A) > 0,
para todo

P (A/Bk ) P (Bk ) P (Bk /A) = + n=1 P (A/Bn ) P (Bn )


Demostracin.

k N.

1. Dado A, de ii) deducimos que A = + (A Bn ) unin disjunta, entonces n=1

P (A) =

+ n=1

P (A Bn ) =

+ n=1

P (A/Bn ) P (Bn ) .

2. Dado cualquier k N, tenemos por aplicacin de la propiedad 2 que

P (Bk /A) =

P (A/Bk ) P (Bk ) P (A)

y luego usando la frmula de probabilidades totales se obtiene que

P (A/Bk ) P (Bk ) P (Bk /A) = + n=1 P (A/Bn ) P (Bn )


15

Captulo 2. Probabilidad condicional e independencia.

Observacin 2.5.
los

Este teorema sigue siendo vlido si la particin de

en unin de

Bn

es nita. Si

Teorema 2.6.
probabilidad.

PB : AB [0, 1],

BA
tal que

P (B) > 0. Denimos AB = {A B : A A } y PB (A) = P (A/B) . Entonces (B, AB , PB ) es un espacio de


es tal que

Demostracin. Se deja como ejercicio chequear que AB es una -lgebra de con-

juntos sobre B y que PB dene una probabilidad sobre B .

Teorema 2.7.
1. 2.

Si

A, B, C A

con

P (B) > 0,

entonces

P (Ac /B) = 1 P (A/B) . P (A C/B) = P (A/B) + P (C/B) P (A C/B) .

Demostracin. Ambas frmulas son consecuencias directas de la propiedad anterior.

Teorema 2.8.
tonces

Si

A1 , A2 , ..., An A

cumplen que

P (A1 A2 ... An1 ) > 0

en-

P (A1 A2 ... An ) = P (A1 ) P (A2 /A1 ) P (A3 /A1 A2 ) ...P (An /A1 A2 ... An1 ) .
Demostracin. Se deja como ejercicio.

Ejemplo 2.9.

Supongamos que se dispone de un bolillero con 44 bolillas numeradas del 1 al 44. Se extraen 5 sucesivamente sin reponerse cada bolilla exprada. Se supone que apostamos a que salen los nmeros 5,13,16,18,33. Deseamos calcular la probabilidad de que acertemos al menos 2 de los 5 extrados. En este caso, para calcular los casos posibles, se ve que para la primer bolilla hay 44 posibles nmeros, para la segunda 43 (todos menos el que sali en el primer lugar), para la siguiente 42, luego 41 y luego 40, as tenemos 44 43 42 41 40 casos posibles. Para los favorables, calculamos los del complemento. Observamos que si le llamamos A = salen al menos dos de los 5 apostados", entonces Ac = B C donde B =no sale ninguno de los 5 apostados C =sale exactamente uno de los 5 apostados". La unin es disjunta por lo que P (Ac ) = P (B) + P (C) . Los casos posibles para B son 39 38 37 36 35 mientras que para C tenemos que 5 39 38 37 36 son todas las posibilidades en que acertamos en la primera extraccin y no acertamos en las 4 restantes, a esos hay que sumarles los que acertamos en la segunda y erramos en las restantes, etc, etc, como cada uno de esos casos son 5 39 38 37 36 entonces el total de casos favorables para C son 5 39 38 37 36 5, de esta forma

P (A) = 1

Este mismo clculo podra haberse realizado mediante el uso de la propiedad anterior. Para calcular P (B) , llammosle A1 =no acierto la primer bolilla extrada", 16

39 38 37 36 35 + 5 39 38 37 36 5 = 0, 0911. 44 43 42 41 40

Captulo 2. Probabilidad condicional e independencia.

A2 =no acierto la primer bolilla extrada",...,A5 =no acierto la quinta bolilla extrada". Entonces P (A1 ) = 39/44, P (A2 /A1 ) = 38/43, P (A3 /A1 A2 ) = 37/42, P (A4 /A1 A2 A3 ) = 36/41 y P (A5 /A1 A2 A3 A4 ) = 35/40, as se tiene P (B) = P (A1 A2 A3 A4 A5 ) = 39 38 37 36 35 44 43 42 41 40

Para P (C) lo separamos como suma de acertar exactamente la primera, ms acertar exactamente la segunda, etc y denimos adecuadamente los conjuntos A1 , A2 , A3 , A4 , A5 y se procede de manera anloga.

Ejemplo 2.10.

Se tiene una urna compuesta por 3 bolillas azules, 2 blancas y una roja, y una segunda urna compuesta por 3 blancas y 3 azules. Se extrae una bolilla de la urna uno, se la deposita en la segunda y luego se extrae una bolilla de esta segunda urna. Calculemos las probabilidades de: A =la segunda bolilla extrada es azul", B =la primer bolilla extrada es azul, sabiendo que la segunda fue blanca". En este caso, aplicamos la propiedad de probabilidades totales quedando P (A) =

P (A/1a blanca) P (1a blanca)+P (A/1a azul) P (1a azul)+P (A/1a roja) P (1a roja) = 33 43 31 + + = 0, 571. 76 76 76 Para B, usamos el teorema de Bayes quedando P (B) = P (1a azul / 2a blanca) = P ( 2a b / 1a b) P (1a b) = P ( 2a b / 1a b) P (1a b) + P ( 2a b / 1a a) P (1a a) + P ( 2a b / 1a r) P (1a roja)
4 7 3 7 3 6 3 6

42 76

31 76

= 0, 6.

2.2. Independencia.
Denicin 2.11.
Dado (, A, P ) un espacio de probabilidad, se dice que la familia de sucesos {A }I donde I es una familia cualquiera de ndices, son sucesos independientes si y slo si, para todo F I nito, se cumple que ( ) P A = P (A ) .
F F

Observacin 2.12.
anterior nos dice que

Si la familia de sucesos se reduce a dos, entonces la denicin

AyB

son independientes si y slo si

P (A B) = P (A) P (B) ,

lo cual en el caso en que

P (B) > 0

es equivalente a pedir que se cumpla que

P (A/B) = P (A),

pero la ventaja que tiene la denicin dada es que no requiere

que los sucesos tengan probabilidad positiva.

17

Captulo 2. Probabilidad condicional e independencia.

Observacin 2.13.
condiciones: 1. 2. 3. 4.

Si la familia de sucesos se reduce a 3, digamos

A, B

C,

en-

tonces los mismos son independientes si y slo si se cumplen las siguientes cuatro

P (A B) = P (A)P (B) P (A C) = P (A)P (C) P (B C) = P (B)P (C) P (A B C) = P (A)P (B)P (C)


Observamos que en el caso anterior, para pedir que los tres

Observacin 2.14.
sucesos

A, B

sean independientes, se requiere que sean independientes de a pares,

que son las condiciones 1,2 y 3, pero a esto se le debe agregar la condicin 4 ya que las condiciones 1,2 y 3 (como se ver en el siguiente ejemplo) no aseguran que independiente del suceso que determinan la independencia de B C y la de A con B C c etc.

sea

B C . Se puede chequear sin dicultad que las 4 condiciones A, B y C aseguran la independencia de A con

Se deja como ejercicio vericar el siguiente ejemplo, donde se muestra que tres sucesos pueden ser independientes tomados de a dos, pero no ser independientes.

Ejemplo 2.15. Se tira un par de dados, uno azul y uno verde. Denimos A =en el dado azul sale el 5, B =en el dado verde sale el 3, C =la suma de los resultados de ambos dados es un nmero par. Entonces A, B y C son independientes tomados de a pares, pero A, B y C no son independientes. Teorema 2.16. Dado (, A, P ) un espacio de probabilidad, si una familia de sucesos {A }I son independientes, entonces tambin lo son la familia {B }I , donde para c cada I , se tiene que, o bien B = A , o bien B = A . Teorema 2.17.
y la sucesin 1. Si

{An }nN A,

Lema de Borel Cantelli.


entonces entonces

Dados

(, A, P )

espacio de probabilidad

+
n=1

P (An ) < +

P (limsup An ) = 0.
2. Si

+
n=1

P (An ) = +

y adems

{An }nN

son independientes, entonces

P (limsup An ) = 1.
Demostracin.

1. P (limsup An ) =lim P convergente.

( +
k=n

) Ak

+
k=n

P (An ) 0 puesto que la serie es

18

Captulo 2. Probabilidad condicional e independencia. 2. Como P (limsup An ) =lim P

( +
k=n

) Ak , basta probar que lim P

( +
k=n

) Ac k 0.

Para cada m > n tenemos que ( + ) (m ) m m c c c P Ak P Ak = P (Ak ) = [1 P (Ak )] .


k=n k=n k=n k=n

Ahora, usando que 1 x ex para todo x 0, se deduce que


m k=n

[1 P (Ak )]

m k=n

eP (Ak ) = e

Pm

k=n

P (Ak )

m+

0.

Ejemplo 2.18.

Supongamos que se elije al azar un nmero en el intervalo (0, 1) Cul es la probabilidad de que aparezcan innitos 4 en su expansin decimal? Y la probabilidad de que el 44 aprezca innitas veces? Para responder a la primer pregunta, denimos los sucesos An =el 4 aparece en el n-simo lugar en su expansin decimal, entonces la sucesin {An }nN est formada por sucesos independientes, adems, P (An ) = 1/10 cualquiera sea n, entonces + n=1 P (An ) = + y por lo tanto la probabilidad de que aparezca el 4 innitas veces es 1. Para responder la otra pregunta, procedemos de forma similar, denimos Bn =el 4 aparece en el n-simo lugar y en el siguiente en su expansin decimal, en este caso P (Bn ) = 1/100 para todo n, pero los Bn no son independientes. De todas formas si consideramos la subsucesin de sucesos {B2n }nN , ahora si, tenemos una sucesin de sucesos independientes y como + P (B2n ) = +, tenemos que n=1 la probabilidad de que aparezca el 44 inintas veces en un lugar par seguido de uno impar es 1, pero ste ltimo suceso est incluido en el suceso de que el 44 aparece inntas veces, se entonces la probabilidad de que el 44 aparezca innitas veces es 1 tambin.

2.3. Notas histricas.


El ejemplo anterior es conocido como el teorema de los innitos monos. Emil Borel en su trabajo Mcanique Statistique et Irrversibilit en 1913 armaba que si se pone a un milln de monos durante 10 horas a teclear una mquina de escribir (como una manera de decir que se eligen al azar letras del alfabeto, tantas como pueda teclear durante 10 horas un mono), es extremadamente improbable que sea posible encontrar una secuencia de letras tecleadas que sean el desarrollo de un libro por ms pequeo que sea. Ahora, de acuerdo al ejemplo que acabamos de desarrollar, hemos probado que si a un solo mono se le da tiempo innito, entonces hay probabilidad 1 de que en algn momento escriba la obra completa de Shakespeare, por ejemplo. Slo basta cambiar el conjunto de los 10 dgitos por los smbolos del alfabeto, y la tirada 44 por la de la obra completa de Shakespeare que es nita. Thomas Bayes naci en Inglaterra en 1702 y muri en 1761. Se sabe muy poco de su vida, ya que no se dedic activamente a la matemtica, no se vincul mayormente con 19

Captulo 2. Probabilidad condicional e independencia. otros matemticos de su poca, y por lo tanto no se destac tanto mientras estuvo con vida. Sus aportes a la teora de la probabilidad fueron enormes, ya que fue el primero que deni y trabaj el concepto de probabilidad condicional, en tiempos en que todos los clculos probabilsticos estaban restringidos a juegos de azar y los clculos eran realizados segn el modelo de equiprobabilidad. Tambin es esencial su aporte a la denicin que utiliza de probabilidad, que fue olvidada hasta el siglo XX, y que fue retomada recin en 1937 por Bruno De Finetti, uno de los primeros precursores de la teora subjetiva de la probabilidad. Todos estos aportes fueron publicados en un trabajo titulado An Essay Towards Solving a Problem in Doctrine of Chances publicado en 1763 (2 aos despus de su muerte), y el hoy llamado teorema de Bayes, fue publicado en 1764 en las Philosophical Transactions Vol 53, que es la base de la hoy llamada inferencia bayesiana. Es curioso que Bayes no haya intentado publicar sus trabajos, tanto su teorema como su trabajo publicado en 1763, fueron encontrados por amigos suyos luego de su muerte.

20

Captulo 3 Variable Aleatoria.


Denicin 3.1.
( ) Dado un espacio de probabilidad , A, P . Diremos que X : Rk es una variable aleatoria en Rk si y slo si, se cumple que para cada A boreliano se cumple que X 1 (A) A.
Cuando k > 1, tambin es llamado vector aleatorio.

Observacin 3.2.

Dado que la -lgebra de Borel est engendrada por los conjuntos 1 abiertos, basta vericar que X (A) A, para todo A abierto (o para todo A en algn generador de la

-lgebra

de Borel).

Observacin 3.3. Si es nito o innito numerable, cualquier funcin X : Rk


es vector aleatorio, ya que en estos casos, consideramos como

-lgebra a 2 . ( ) Observacin 3.4. Toda constante, es vector aleatorio, cualquiera sea , A, P es1 pacio de probabilidad, ya que el conjunto X (A) es si la constante est en A o 1 vaco si no, en ambos casos X (A) A.

En varias ocasiones, es conveniente trabajar con funciones a valores en R = R {+, }. Para dichos casos ser conveniente extender la -lgebra de Borel a BR . Por suerte es posible hacerlo de una forma sencilla. Si le llamamos B a la -lgebra de Borel en R, denimos BR =

B {A {+, } : A B} {A {+} : A B} {A {} : A B} .
Se deja como ejercicio probar que BR es una -lgebra de Borel sobre R. Frecuentemente para simplicar la notacin, se suele escribir el conjunto X 1 (A) = {w : X(w) A} mediante la simple escritura de {X A} . As, por ejemplo al conjunto X 1 ((, a]) lo denotaremos por {X a} .

3.1. Propiedades.
Teorema 3.5. Dado X = (X1 , X2 , ..., Xk ) : Rk . Entonces, X es vector aleatorio
si y slo si

X1 , X2 , ..., Xk

son variables aleatorias en

R.

21

Captulo 3. Variable Aleatoria.


Demostracin.

Comenzamos observando que cualesquiera sean los conjuntos A1 , A2 , ..., Ak , se tiene que k 1 X (A1 A2 ... Ak ) = Xi1 (Ai ) .
i=1

) Si A es un boreliano en R, entonces
i

Xi1 (A) = X 1 R R... R A R... R A.


lugar

Entonces Xi es variable aleatoria. ) Cualesquiera sean a1 , a2 , ..., ak R se tiene que

((, a1 ) (, a2 ) ... (, ak )) =

k i=1

Xi1 ((, ai )) A

ya que cada conjunto que intersectamos pertenece a A, entonces X es vector aleatorio en Rk .

Teorema 3.6. Si X : Rk es vector aleatorio y g : Rk Rn es continua, entonces


Y = g(X)
es vector aleatorio en

Rn .

Demostracin.

Dado un abierto A en Rn , entonces g 1 (A) es abierto por la continuidad de g , por lo que [ ] Y 1 (A) = (goX)1 (A) = X 1 g 1 (A) A.

Teorema 3.7.
X, X + Y
y

Si

X, Y : R

son variables aleatorias, entonces tambin lo son

XY.

Es consecuencia inmediata de la propiedad anterior, ya que (X, Y ) es vector aleatorio en R2 , y lo componemos con las funciones continuas g : R2 R denidas como g(x, y) = x, g(x, y) = x + y y g(x, y) = xy respectivamente.

Demostracin.

Xn : R es variable aleatoria para todo n N, entonces tambin lo son las variables Y : R {+} tal que Y =sup{X1 , X2 , ..., Xn , ...} y Z : R {} tal que Z =inf{X1 , X2 , ..., Xn , ...} .
Si

Teorema 3.8.

Demostracin.

Basta observar que si tenemos una sucesin de nmeros reales {xn }nN , entonces, cualesquiera sea a R {+} se tiene que

sup {x1 , x2 , ..., xn , ...} a xn a para todo n.


22

Captulo 3. Variable Aleatoria. Entonces


+ n=1

((, a]) =

1 Xn ((, a]) A.

Entonces Y es variable aleatoria. Por otro lado, como Z = sup{X1 , X2 , ..., Xn , ...}, se deduce de lo recin probado que Z tambin es variable aleatoria.

Teorema 3.9. Si Xn : R es variable aleatoria para todo n N, entonces tambin


lo son las variables limsupXn

: R {+}

y liminfXn

: R {}.

Demostracin.

Es consecuencia inmediata de la propiedad anterior ya que limsup Xn = inf supXk , y liminf Xn = sup inf Xk .
n kn n kn

3.2. Funcin de distribucin de una variable aleatoria.


Dados un espacio de probabilidad , A, P y X : R una variable aleatoria, denimos la funcin FX : R R como FX (x) = P (X x) para cada x R.

Denicin 3.10. Funcin de distribucin de una variable aleatoria. ( ) Observacin 3.11.


por ser Para todo

xR

se tiene que

{X x} = X 1 ((, x]) A,

variable aleatoria.

En todas las (propiedades que siguen se sobreentiende que tenemos un espacio de ) probabilidad , A, P y X : R una variable aleatoria.

Teorema 3.12.
Demostracin.

FX

es montona creciente.

Si a < b entonces {X a} {X b}, entonces P (X a) P (X b) , por lo que FX (a) FX (b).

Teorema 3.13.
Demostracin.

x+

lim

FX (x) = 1.

Como FX es montona creciente, basta restringirse a una sucesin particular que tienda a +, por ejemplo lim FX (n).
n+

Observamos que An = {X n} es una sucesin creciente de sucesos, tal que

+ n=1

An =

, entonces por la propiedad de continuidad de las probabilidades se tiene que ( + ) lim FX (n) = lim P (An ) = P An = P () = 1.
n+ n+ n=1

23

Captulo 3. Variable Aleatoria.

Teorema 3.14.
Demostracin.

lim

FX (x) = 0.

Razonamos anlogamente al caso anterior, por lo que basta considerar lim FX (n). Consideramos ahora An = {X n} decrece a An = , por lo que se deduce que n=1 (+ ) lim FX (n) = lim P (An ) = P n=1 An = P () = 0.
n+ + n+

n+

Teorema 3.15.
Demostracin.

FX

es continua por derecha.

Nuevamente, basta ver que lim FX (a+1/n) = FX (a). La sucesin An = {X a + 1/n} decrece a
+ n=1 n+

An = {X a}, de donde se obtiene el resultado.

Teorema 3.16.

Si denimos FX (x se tiene que FX (a ) = lim FX (x). xa

) = P (X < x),

entonces para cualquier

xR

Demostracin.

Similar a la anterior, se deja como ejercicio.

Observacin 3.17.
FX (x ),

Del teorema anterior se deduce que

P (X = x) = FX (x)

por lo que la probabilidad de que

tome un valor determinado, viene dado

por el salto de la funcin de distribucin en dicho

x.

Notas. 1. Dado un espacio de probabilidad sobre un conjunto , (, A, P ) y tenemos una variable aleatoria en l X : R, la misma nos permite denir naturalmente un espacio de probabilidad donde el espacio muestral sea R. El mismo sera (R, B, FX ). Aqu hay un detalle tcnico y es el hecho de que FX debe estar denido en cualquier boreliano de R, pero un teorema de teora de la medida nos asegura que al ser FX creciente y positiva, y estar denida en los conjuntos de la forma (, x] para todo x R que generan la -lgebra de Borel, existe una nica extensin de FX a dicha -lgebra. 2. Recprocamente, si tenemos una funcin F : R R, que cumple las siguientes condiciones: i) F es montona creciente, ii) lim F (x) = 1, iii) lim F (x) = 0,

iv) F

es continua por derecha entonces, un teorema de teora de la medida nos ( ) dice que existe un espacio de probabilidad , A, P y una variable aleatoria X denida sobre este espacio tal que FX = F.

x+

24

Captulo 3. Variable Aleatoria.

3.3. Variables Aleatorias Discretas.


Dado un espacio de probabilidad , A, P . Diremos que X : R es una variable aleatoria discreta si y slo si existe un subconjunto AX de R numerable, tal que P (X AX ) = 1.

Denicin 3.18. Variables aleatorias ) discretas. (

Denicin 3.19.

Si X es discreta y se considera AX tal que P (X = x) > 0 para todo x AX , al conjunto AX le llamaremos Rec(X) .

Observacin 3.20.
AX =

+ n=1 {xn } por lo que

{X AX } es un suceso ya que al ser AX numerable, entonces {X AX } = + {X = xn } A ya que los puntos n=1

aislados son borelianos.

Denicin 3.21. Funcin de probabilidad. Observacin 3.22.


de Cuando

Si X es discreta, denimos pX : R R tal que pX (x) = P (X = x) para cada x R.

son tales que

X es discreta, slo una cantidad numerable de valores P (X = x) > 0 por lo que alcanza denir pX (x) para los x
Cuando Cuando

Rec(X).

Observacin 3.23. Observacin 3.24.

X X

es discreta, se tiene que es discreta, entonces

xRec(X)

pX (x) = 1.

FX (x) =

tRec(X) : t[x]

pX (t).

3.4. Ejemplos de Variables discretas.


Ejemplo 3.25. Variable Bernoulli de parmetro p. Notacin:
( ) Si consideramos , A, P espacio de probabilidad cualquiera, A A tal que P (A) = { 1 si w A p (0, 1) y denimos X : R tal que X(w) = diremos que 0 si w A / en este caso X distribuye Ber(p) . La funcin de probabilidad queda en este caso { p si x = 1 pX (x) = . Se suele decir que si ocurre A es xito y si no fracaso, 1 p si x = 0 entonces p se interpreta como la probabilidad de xito. X Ber(p) .

Ejemplo 3.26. Variable Binomial de parmetros n y p. Notacin: X Bin(n, p) .


Si repetimos de manera independiente experimentos de Bernoulli con probabilidad de xito p en cada prueba y denimos para cada i = 1, 2, 3, , ..., n { 1 si hay xito en la i-sima prueba Xi = . 0 si no 25

Captulo 3. Variable Aleatoria. Entonces diremos que X = X1 + X2 + ... + Xn (cantidad de xitos en las n pruebas), distribuye Bin(n, p). En este caso es claro que Rec(X) = {0, 1, 2, ..., n} y para obtener la funcin de probabilidad, observamos que si x {0, 1, 2, ..., n}, entonces P (X = x) signica la probabilidad de obtener x xitos (y por lo tanto nx fracasos). En primer lugar calculamos la probabilidad de que salga xito las primeras x veces y fracaso las siguientes n x veces. Este suceso es A1 A2 ... Ax Ac ... Ac donde Ai = x+1 n sale xito la vez i-sima. Como las pruebas son independientes, la probabilidad de esta interseccin es igual al producto de las mismas. Siendo p la probabilidad de cada xito, se deduce que la probabilidad de obtener xito las primeras x veces y fracaso las restantes es igual a px (1 p)nx . Ahora, si consideramos los x xitos y n x fracasos en cualquier otro orden, la probabilidad ser tambin px (1 p)nx , por lo tanto la probabilidad de obtener x xitos y n x fracasos, ser px (1 p)nx multiplicado por la cantidad de maneras en que se pueden combinar los x xitos y n x fracasos, de todas las maneras posibles. Para obtener dicho nmero, debemos elegir x lugares de entre los n para ubicar los xitos (en los restantes lugares van los fracasos), por lo n que el total de formas posibles es Cx . Entonces se obtuvo que
n pX (x) = Cx px (1 p)nx para todo x {0, 1, 2, ..., n} .

Ejemplo 3.27. Variable Geomtrica de parmetro p. Notacin: X Geo(p) .


En este caso se realizan de manera independiente pruebas de Bernoulli hasta obtener el primer xito. Aqu se dene la variable X = cantidad de fracasos. En este caso, se tiene que Rec(X) = {0, 1, 2, ...} . Adems, si x {0, 1, 2, ...}, el suceso {X = x} signica que las primeras x veces hubo fracaso y luego hubo xito. La probabilidad en este caso es (nuevamente usando que las pruebas son independientes) (1 p)x p, por lo que pX (x) = (1 p)x p para todo x {0, 1, 2, ...} .

Observacin 3.28.

Para el mismo experimento, se puede denir la variable

X =

cantidad de pruebas, tambin llamada con distribucin geomtrica y para la que se obtiene con el mismo argumento su funcin de probabilidad como

pX (x) = (1 p)x1 p

para todo

x {1, 2, 3, ...} . r, p.

Ejemplo 3.29. Variable Binomial Negativa de parmetros X Bin Neg(r, p) .

Notacin:

En este caso se realizan de manera independiente pruebas de Bernoulli hasta obtener el r-simo xito. Aqu se dene la variable X = cantidad de fracasos. En este caso, se tiene que Rec(X) = {0, 1, 2, ...} . Adems, si x {0, 1, 2, ...}, el suceso {X = x} signica que las primeras x + r 1 veces, hubo r 1 xitos y x fracasos, y adems en la prueba x + r hubo xito. Entonces la probabilidad del suceso {X = x} es la probabilidad de que las primeras x + r 1 veces, hubo r 1 xitos y x fracasos, que x+r1 es (razonando como en la binomial) Cr1 pr1 (1 p)x multiplicado por p. Entonces
x+r1 pX (x) = Cr1 pr (1 p)x para todo x {0, 1, 2, ...} .

26

Captulo 3. Variable Aleatoria.

Observacin 3.30.
X =
probabilidad queda

Al igual que lo visto para la geomtrica, si denimos la variable

cantidad de pruebas, tambin se llama binomial negativa, y su funcin de

x1 pX (x) = Cr1 pr (1 p)xr

para todo

x {r, r + 1, r + 2, ...} .

Ejemplo 3.31. Variable Hipergeomtrica de parmetros N1 , N2 , n. Notacin: X Hiper(N1 , N2 , n) .


En este caso se considera una poblacin de N elementos, dividida en dos grupos, cuyos totales son N1 y N2 . N1 + N2 = N. Se realizan n extracciones sin reposicin de objetos de esta poblacin. Le llamaremos xito cda vez que una extraccin sea de entre entre el grupo de los N1 y fracaso en caso contrario. Denimos en este caso X = cantidad de xitos entre las n extracciones. Observamos que Rec(X) = {x N : max {0, N2 n} x min {n, N1 }} . El total de las formas posibles que hay de extraer n objetos de un total de N , sin reposicin y sin importar el orden, es N N Cn . Anlogamente, tenemos Cx 1 formas de elegir entre los N1 elementos x, y por cada N2 una de estas c ombinaciones tenemos Cnx formas de elegir entre los N2 elementos, N2 N los restantes n x, por lo tanto, tendremos Cx 1 Cnx casos favorables,entonces
N2 N Cx 1 Cnx para todo x Rec(X). pX (x) = N Cn

Ejemplo 3.32. Variable Poisson de parmetro . Notacin: X Poisson() .


Esta variable suele ser til para modelar diversos fenmenos, por ejemplo aquellos en los cuales se mide la cantidad de sucesos que ocurren en un intervalo de tiempo. Rec(X) = {0, 1, 2, ...} . Ejempos de estos fenmenos pueden ser dados por la cantidad de autos que pasan por un determinado puente en un intervalo de tiempo, rompimiento de cromosomas, desintegracin de partculas, etc. Bajo ciertas hiptesis sobre el x experimento es posible demostrar que existe un valor de > 0 tal que pX (x) = e x! . Veremos en lo que sigue la deduccin de la frmula que nos da la funcin de probabilidad, de una variable aleatoria Poisson con parmetro > 0. Para realizar la deduccin de la frmula, ser conveniente utilizar la siguiente denicin.

Denicin 3.33.
f es o(h ).

(h) Dado > 0, si f : (, ) R es tal que lim fh = 0 diremos que h0

Observacin 3.34.
mayor que

o(h ) es h cuando h 0.

una funcin que representa un innitsimo de orden

Se deja como ejercicio, vericar las siguientes propiedades concernientes al lgebra de funciones o(h ).

o(h ) o(h ) = o(h ).


Si f es una funcin acotada, entonces f (h)o(h ) = o(h ). 27

Captulo 3. Variable Aleatoria.

o(h ) = o(h ) para cualquier .


Consideramos una familia de variables aleatorias discretas {Xt }t>0 que toman valores en {0, 1, 2, 3, ...} . Le llamaremos pn (t) = P (Xt = n) . Supondremos las siguientes hiptesis sobre las variables Xt . 1. H1: Las funciones pn son derivables en todo punto 0 < p0 (1) < 1 p0 (0) = P (X0 = 0) = 0 (el proceso arranca en 0). 2. H2: La distribucin de Xt+h Xt es igual a la de Xh para todos t, h > 0 (el proceso tiene incrementos estacionarios). 3. H3: Las variables Xt2 Xt1 y Xt4 Xt3 son independientes cualesquiera sean 0 < t1 < t2 < t3 < t4 (el proceso tiene incrementos independientes). 4. H4: P (Xt 2) = o(t). H2 signica que la distribucin de Xt+h Xt , slo depende de h (no de t). Si Xt+h Xt cuenta la cantidad de sucesos que se observan en el intervalo [t, t + h], la distribucin de esta variable es igual a la de Xh que es la cantidad de sucesos que se observan en el intervalo [0, h] . H3 signica que la cantidad de sucesos que se observan en el intervalo [t1 , t2 ] es independiente de la cantidad de sucesos que se observan en [t3 , t4 ] siendo estos intervalos disjuntos entre si. H4 signica que para valores pequeos de t, la probabilidad de observar 2 o ms sucesos en un intervalo de longitud t es un innitsimo de mayor orden que la probabilidad de observar un slo suceso en el mismo intervalo.

Lema 3.35.
tal que

p0 (t) = e

Si se cumplen las condiciones H1, H2, H3 y H4 entonces existe t

>0

( ] Para cada t > 0, partimos el intervalo [0, t] en n subintervalos i1 t, it (i = 1, 2, 3, ..., n) n n t de longitud constante e igual a n . Entonces, decir que en el intervalo [0, t], no]se ob( servaron sucesos, es equivalente a decir que en todos los subintervalos i1 t, it no se n n observaron sucesos. ( ) H3 p0 (t) = P (Xt = 0) = P Xt/n = 0; X2t/n Xt/n = 0; ...; Xt X(n1)t/n = 0 = ( ) P Xt/n = 0)P (X2t/n Xt/n = 0)...P (Xt X(n1)t/n = 0 = [ ]n P Xt/n = 0) = [p0 (t/n)]n .
H2

Demostracin.

Entonces obtuvimos que p0 (t) = [p0 (t/n)]n para todo t > 0. Entonces, para todo m natural tenemos que p0 (mt) = [p0 (mt/n)]n , pero por otro lado como el intervalo [0, mt] lo podemos partir en m intervalos de igual longitud t, tambin se cumple que p0 (mt) = [p0 (t)]m . Entonces [p0 (t)]m = [p0 (mt/n)]n , por lo que [p0 (t)]m/n = p0 (mt/n) 28

Captulo 3. Variable Aleatoria. para todos t > 0, m y n naturales. Hacemos t = 1 y obtenemos [p0 (1)]m/n = p0 (m/n) para todos m y n naturales. Tomando lmites, se deduce que [p0 (1)]t = p0 (t) para todo t > 0. Asumiendo que 0 < p0 (1) < 1, existe > 0, tal que p0 (1) = e y entonces p0 (t) = et para todo t > 0.

Teorema 3.36.

Bajo las hiptesis H1, H2, H3 y H4, se cumple que

et (t)n pn (t) = n!
Demostracin.

para todo

t>0

n = 0, 1, 2, 3, ...

Sabemos que p0 (t) = et = 1 t + o(t). Como adems por H4 P (Xt 2) = o(t), se deduce que

p1 (t) = P (Xt = 1) = 1 p0 (t) P (Xt 2) = t + o(t).


Entonces para cada h > 0 tenemos que

pn (t + h) = P (Xt+h = n) = P (Xt = n; Xt+h Xt = 0) + P (Xt = n 1; Xt+h Xt = 1) +


n i=2

P (Xt = n i; Xt+h Xt = i) .

Ahora, observamos que


n i=2

P (Xt = n i; Xt+h Xt = i) P (Xt+h Xt 2) = 1 p0 (h) p1 (h) = o(h).

Entonces

pn (t + h) = P (Xt = n; Xt+h Xt = 0) + P (Xt = n 1; Xt+h Xt = 1) + o(h) = P (Xt = n)P (Xt+h Xt = 0) + P (Xt = n 1)P (Xt+h Xt = 1) + o(h) = pn (t)ph (0) + pn1 (t) p1 (t) + o(h) = pn (t) (1 h + o(h)) + pn1 (t) (h + o(h)) + o(h).
H2

H3

Y como pn1 (t) y pn (t) son probabilidades, son acotadas, por lo que multiplicadas por o(h) dan o(h) y por lo tanto podemos asegurar que

pn (t + h) = pn (t) (1 h) + pn1 (t) h + o(h).


Si restamos a ambos trminos pn (t) y dividimos entre h obtenemos

pn (t + h) pn (t) o(h) = pn1 (t) pn (t) + h h


29

Captulo 3. Variable Aleatoria. si ahora tomamos lmite cuando h 0 obtenemos la relacin

pn (t) = pn1 (t) pn (t) .


Observemos que conociendo la funcin pn1 (t), tenemos una ecuacin diferencial lineal de primer orden con condicin inicial pn (0) = 0. Como conocemos p0 (t) = et , podemos hallar p1 (t), luego p2 (t) y as sucesivamente. Se deja como ejercicio vericar t (t)n por induccin que la solucin es pn (t) = e n! .

Observacin 3.37.

pn (t) = pn1 (t) pn (t) en el caso n = 0 queda p0 (t) = p0 (t) que junto con la condicin inicial p0 (0) = 0 da por solucin p0 (t) = et . Por lo tanto si en H1 no pedimos que 0 < p0 (1) < 1 y a cambio pedimos que p1 (t) = t + o(t), obtenemos una demostracin del resultado, sin necesidad del lema
La ecuacin previo.

3.5. Variables aleatorias absolutamente continuas.


Dado un espacio de probabilidad , A, P . Diremos que X : R es una variable aleatoria absolutamente continua si y slo si existe una funcin fX : R R tal que x fX (x) 0 para todo x R y FX (x) = fX (t)dt. A la funcin fX se le denomina densidad de X.

Denicin 3.38. Variables aleatorias ) absolutamente continuas. (

Teorema 3.39.
entonces

Si

es absolutamente continua y

es un boreliano cualquiera,

P (X A) =
A

fX .

La demostracin del teorema surge de la teora de la medida, pero es evidente si consideramos como conjunto A a un intervalo (a, b] cualquiera, ya que sabemos que

P (X (a, b]) = FX (b) FX (a) =

fX

fX =
a

fX .

Como los conjuntos de la forma (a, b] generan la -lgebra de Borel, por un argumento de teora de medida se extiende la igualdad para todo A boreliano. Observacin 3.40. Cuando decimos A fX , nos estamos reriendo a la integral de
Lebesgue, ya que la integral de Riemann est denida nicamente sobre intervalos, de todas formas la integral de Lebesgue coincide con la de Riemann sobre intervalos.

Observacin 3.41.

Si

es absolutamente continua, entonces

fX = 1.

30

Captulo 3. Variable Aleatoria.

Observacin 3.42.

Si

es absolutamente continua entonces

P (X = a) = 0

cualquiera sea

a.
es continua ya que

Observacin 3.43. Si X es absolutamente continua entonces FX FX (x ) = FX (x) P (X = x) = FX (x). Observacin 3.44.


en

y adems

x es punto FX (x) = fX (x).


Si

de continuidad de

fX ,

entonces

FX

es derivable

Observacin 3.45.

Dada una funcin de densidad, si cambiamos la denicin de la

misma en un conjunto de puntos de medida nula, no cambia la funcin de distribucin, ya que la integral sobre este conjunto valdr cero.

Observacin 3.46. Si f : R R es tal que f (x) 0 para( todo x ) R y cumple + f (x)dx = 1, entonces existe un espacio de probabilidad , A, P y una varia ble aleatoria X absolutamente continua tal que fX = f . Lo anterior se debe a que x deniendo F : R R tal que F (x) = f (t)dt, entonces, F es montona creciente, continua en todo punto, con lmites 1 y 0 a + y respectivamente. Luego
aplicamos el teorema de existencia de un espacio de probabilidad para estos casos.

3.6. Ejemplos de variables absolutamente continuas.


Ejemplo 3.47. Variable uniforme en el intervalo [a, b] . Notacin: X U [a, b] .
si x (a, b) se dice que X tiene distribucin 0 si x (a, b) / xa 0 si xa si a x b y se uniforme en el intervalo [a, b] . En este caso FX (x) = ba 1 si xb observa que si elegimos c, d, e, f tales que a < c < d < b, a < e < f < b, con d c = f e, entonces Cuando X es tal que fX (x) =
1 ba

P (c < X < d) = FX (d) FX (c) =

dc f e = = P (e < X < f ) ba ba

por lo que intervalos incluidos en [a, b] de igual longitud tienen igual probabilidad.

Ejemplo 3.48. Variable Exponencial de parmetro > 0. Notacin: X Exp() .


0 si x < 0 se dice que X tiene distribucin x e si x 0 { 0 si x < 0 exponencial de parmetro . En este caso FX (x) = . 1 ex si x 0
Cuando X es tal que fX (x) =

Ejemplo 3.49. Variable Normal de parmetros


N (, 2 ) .

2 > 0.

Notacin:

X
31

Captulo 3. Variable Aleatoria.


1 x 1 Cuando X es tal que fX (x) = 22 e 22 ( ) se dice que X tiene distribucin normal con media y varianza 2 . Veremos que sta funcin es una densidad. Dado que es positiva, basta ver que integra uno. Observamos que haciendo el cam + 1 + 1 2 2 1 bio de variable t = x , obtenemos que 22 e 22 (x) dx = 1 e 2 t dt, 2 + 1 2 por lo que bastar con probar que es equivalente a probar que 1 e 2 t dt = 2 1 (x2 +y2 ) 2 1. Calculemos e dxdy. Dado que la integral es convergente, es igual a 2

n+ D

lim

1 2

R2 x2 +y 2 ) (

dxdy siendo Dn = {(x, y) R2 : x2 + y 2 n2 } .

Pasando a coordenadas polares, obtenemos que n 2 ( ) 1 2 2 (x2 +y2 ) dxdy = er /2 rdr = 2 1 en /2 2. d e2


Dn 0 0

Por lo tanto, tenemos que

2 =
R2

2 2 e (x +y ) dxdy =

1 2

x2 /2

dx

y 2 /2

( dy =

x2 /2

)2 dx

entonces,

ex

2 /2

dx =

2.

3.7. Variables aleatorias mixtas.


Existen variables aleatorias que no son discretas ni absolutamente continuas. A este tipo de variables se les suele llamar mixtas. Para construir un ejemplo de una variable de este tipo, basta considerar una funcin de R en R, con lmites 0 y 1 a menos y ms innito respectivamente, creciente y continua por derecha, tal que tenga un slo punto de discontinuidad, con un salto menor estricto que 1. Un ejemplo concreto de esta situacin se puede obtener en el siguiente ejemplo.

Ejemplo 3.50.

Dada X U (0, 1), denimos Y =max{X, 1/2} .

FY (y) = P (Y y) = P (max {X, 1/2} y) = P (X y, 1/2 y) = { { y < 1/2 0 si P (X y) si 1/2 y FX (y) si 1/2 y y si 1/2 y 1 = = P () si 1/2 > y 0 si 1/2 > y 1 si y>1
Por lo tanto, observando que P (Y = 1/2) = FY (1/2) FY (1/2 ) = 1/2 (lo cual nos asegura que Y no es absolutamente continua) y que P (Y = y) = 0 para todo y = 1/2 se deduce que Y tampoco puede ser discreta. 32

Captulo 4 Distribucin conjunta.


Denicin 4.1. Dadas X1 , X2 , ..., Xk variables aleatorias sobre un espacio de probabilidad (, A, P ) , se dene la distribucin del vector aleatorio (X1 , X2 , ..., Xk ) (o tambin la distribucin conjunta de las variables X1 , X2 , ..., Xk ) como la funcin
FX1 ,X2 ,...,Xk : Rk R tal que FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) := P (X1 x1 , X2 x2 , ..., Xk xk ) .
Como siempre, el suceso {X1 x1 , X2 x2 , ..., Xk xk } es la abreviacin de

{w : X1 (w) x1 ; X2 (w) x2 ; ....; Xk (w) xk } =

k i=1

Xi1 ((, xi ]) .

Veremos en lo que sigue diversas propiedades de las distribuciones conjuntas.

4.1. Propiedades.
Teorema 4.2.
la variable Fijado i, mirando

xi

(dejando las dems

FX1 ,X2 ,...,Xk : R R como funcin nicamente de jas), entonces FX1 ,X2 ,...,Xk es continua por derecha

y montona creciente.

Teorema 4.3. Teorema 4.4. Teorema 4.5.


cada variable

x1 ,x2 ,...,xk +

lim

FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = 1.

(x , x , ..., xk ) = 0. lim F algn xi X1 ,X2 ,...,Xk 1 2


x1 +

lim

FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX2 ,...,Xk (x2 , ..., xk ). k1


veces, obtenemos la distribucin de

Observacin 4.6.
Xi

Usando esta propiedad,

haciendo tender todas las dems a

+.

Teorema 4.7.
x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +

lim

FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FXi (xi )


33

para todo

i = 1, 2, 3, ..., k.

Captulo 4. Distribucin conjunta. Las demostraciones de estas propiedades se realizan de manera similar al caso univariado, haremos como ejemplo el teorema 1.3. Dado que FX1 ,X2 ,...,Xk es montona creciente como funcin de cada variable, basta hallar el lmite sobre alguna sucesin en particular en cada variable. Por ello, denik 1 mos los conjuntos An = Xi ((, n]) . Observamos que la sucesin de conjuntos

{An }nN crece a , luego por la propiedad de continuidad de las probabilidades se deduce que ( + ) lim FX1 ,X2 ,...,Xk (n, n, ..., n) = lim P (An ) = P An = P () = 1.
n+ n+ n=1

i=1

Teorema 4.8.

p Rk , i = 1, 2, 3, ..., k y h1 , h2 , ..., hk R+ denimos el (i) operador FX (p) = FX (p + hi ei ) FX (p), (donde e1 , e2 , ..., ek son los vectores de hi k la base cannica de R ) entonces
Si para cada

hk (k1) ...h1 FX (p) 0. h


k1

(k)

(1)

Observamos que en el caso bivariado, tenemos que

P (a < X b; c < Y d) = FX,Y (b, d) FX,Y (b, c) FX,Y (a, d) + FX,Y (a, c) .
Demostracin.

Se deja como ejercicio. Sugerencia, probar por induccin que

hk (k1) ...h1 FX (p) = h


k1

(k)

(1)

1 ,2 ,...,k {0,1}

(1)k

Pk

i=1 i

FX (p1 + 1 h1 , p2 + 2 h2 , ..., pk + k hk ) =

P (p1 < X1 p1 + h1 , p1 < X2 p2 + h2 , ..., pk < Xk pk + hk ) 0.


Como en el caso univariado, podramos preguntarnos cundo una funcin F : Rk R es la funcin de distribucin de un vector (X1 , X2 , ..., ) k ) en cierto espacio de X ( probabilidad. Nuevamente, deniramos la terna Rk , B, P deniendo P (A) de tal modo que P ((, x1 ] (, x2 ] ... (, xk ]) = F (x1 , x2 , ..., xk ). Para ello necesitamos nuevamente del teorema de extensin de medidas. Esto es posible cuando F cumple las siguientes propiedades: i) F es continua por derecha y montona creciente como funcin de cada una de sus variables, ii) lim F (x1 , x2 , ..., xk ) = 1, iii)

h1 , h2 , ..., hk R+ .

algn

lim

xi

F (x1 , x2 , ..., xk ) = 0,

iv)

x1 ,x2 ,...,xk + (k) (k1) (1) hk h ...h1 F (p) k1

0 para todo p Rk y

Observacin 4.9.
ser

En el caso en que

automticamente ya que queda

k = 1, se tiene que la condicin iv) se cumple F (b) F (a) para a < b condicin que se satisface al
34

montona creciente.

Captulo 4. Distribucin conjunta.

F : Rk R cumple existe un espacio de probabilidad (, A, P ) que FX1 ,X2 ,...,Xk = F.


Si

Teorema 4.10.

las propiedades i) ii) iii) y iv) entonces, y un vector aleatorio

(X1 , X2 , ..., Xk )

tales

4.2. Vectores aleatorios discretos.


Denicin 4.11. Vectores aleatorios discretos.
Dado un espacio de probabilidad (, A, P ), se dice que el vector aleatorio (X1 , X2 , ..., Xk ) : Rk es discreto si y slo si existe A Rk numerable tal que P ((X1 , X2 , ..., Xk ) A) = 1. Veremos ahora que un vector aleatorio es discreto si y slo si todas sus variables componentes son discretas.

Teorema 4.12.
torio

Dado un espacio de probabilidad es discreto si y slo si

(, A, P ),

entonces el vector alea-

(X1 , X2 , ..., Xk )

Xi

es discreta para todo

i = 1, 2, 3, ..., k.

) Existe A Rk numerable tal que P ((X1 , X2 , ..., Xk ) A) = 1. Entonces denimos A1 := 1 (A) , A2 := 2 (A) , ..., Ak := k (A) como las proyecciones sobre cada una de las componentes, es decir i : Rk R tal que i (x1 , x2 , ..., xk ) = xi para cada i = 1, 2, 3, ..., k. Observando que, para todo i = 1, 2, 3, ..., k, se tiene que {(X1 , X2 , ..., Xk ) A} {Xi Ai }, entonces 1 = P ((X1 , X2 , ..., Xk ) A) P (Xi Ai ) ,
entonces Xi es discreta. ) Como todas las Xi son discretas, entonces existen conjuntos A1 , A2 , ..., Ak R numerables tales que P (Xi Ai ) = 1 para todo i = 1, 2, 3, ..., k . Entonces denimos A = A1 A2 ... Ak es numerable (por ser producto cartesiano nito de conjuntos numerables) y adems, como interseccin nita de conjuntos de probabilidad 1 tiene probabilidad 1, nos queda (k ) P ((X1 , X2 , ...Xk ) A) = P {Xi Ai } = 1.
i=1

Demostracin.

Entonces (X1 , X2 , ...Xk ) es discreto. De manera anloga a las variables discretas, y dado que un vector discreto toma valores en un conjunto numerable con probabilidad 1, tiene sentido denir a funcin de probabilidad conjunta, como la probabilidad de tomar cada uno de los valores de su recorrido.

Denicin 4.13.

Si X = (X1 , X2 , ..., Xk ) es discreto, entonces le llamamos recorrido de X al conjunto Rec(X) = {x = (x1 , x2 , ..., xk ) Rk tales que P (X = x) > 0}. 35

Captulo 4. Distribucin conjunta.

discreto, denimos para cada x Rk ,

Denicin 4.14. Funcin de probabilidad conjunta. Si X = (X1 , X2 , ..., Xk ) es


pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = P (X1 = x1 , X2 = x2 , ..., Xk = xk ).

a la que le llamaremos funcin de probabilidad conjunta de las variables X1 , X2 , ..., Xk .

Observacin 4.15.

Si

es boreliano en

Rk ,

entonces

P (X A) =

xARec(X)

pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ).

Observacin 4.16.

xRec(X)

pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = 1.

Ejemplo 4.17. Vector multinomial.

Supongamos un experimento donde se repiten de forma independiente n pruebas, donde en cada una de ellas hay k resultados posibles, digamos E1 , E2 , ..., Ek . La probabilidad en cada prueba de que se observe el resultado Ei es pi , para i = 1, 2, 3, ..., k , donde p1 + p2 + ... + pk = 1. Se denen para este experimento las variables X1 , X2 , ..., Xk , como Xi = cantidad de pruebas entre las n en que se obtuvo el resultado Ei  para i = 1, 2, 3, ..., k. Se dice en estos casos que el vector (X1 , X2 , ..., Xk ) tiene distribucin multinomial con parmetros n, p1 , p2 , ..., pk . Notacin. (X1 , X2 , ..., Xk ) Mult(n, p1 , p2 , ..., pk ) . Vamos a deducir su funcin de probabilidad puntual. Fijemos x1 , x2 , ..., xk {0, 1, 2, ..., n} tales que x1 + x2 + ... + xk = n. El suceso {X1 = x1 , X2 = x2 , ..., Xk = xk } signica que de entre las n pruebas, x1 veces se obtuvo E1 como resultado, x2 veces se obtuvo E2 ,..., xk veces se obtuvo Ek . La probabilidad de que las primeras x1 veces se obtenga E1 , las siguientes x2 veces se obtenga E2 , y as sucesivamente hasta que las ltimas xk veces se obtenga Ek , es, debido a la independencia de cada prueba, igual a px1 px2 ...pxk . Si intercambiamos de lugar el 1 2 k orden donde salen las x1 veces E1 , x2 veces E2 , .... xk veces Ek , la probabilidad ser tambin px1 px2 ...pxk ya que x1 veces aparecer el factor p1 , x2 veces p2 , ..., xk veces 1 2 k pk . Por lo tanto la probabilidad de {X1 = x1 , X2 = x2 , ..., Xk = xk } ser px1 px2 ...pxk 1 2 k multiplicado por la cantidad de formas de elegir x1 lugares para ubicar las veces en que sale E1 , x2 lugares para ubicar las veces en que sale E2 ,..., xk lugares para ubicar las veces en que sale Ek . Para obtener este nmero, debemos primero elegir x1 lugares n entre los n para ubicar los E1 , esto se puede realizar de Cx1 formas, luego nos quedan n x1 lugares, disponibles, de los cuales debemos elegir x2 para ubicar los E2 , lo cual nx se puede realizar de Cx2 1 formas, luego quedan n x1 x2 lugares disponibles, de nx los cuales debemos elegir x3 para ubicar los E3 , lo que se puede realizar de Cx3 1 x2 formas, y as seguimos sucesivamente. n nx nx xk Al nal, el nmero de todas las combinaciones posibles es Cx1 Cx2 1 Cx3 1 x2 ....Cxk = n! . As obtuvimos que para todos x1 , x2 , ..., xk {0, 1, 2, ..., n} tales que x1 + x1 !x2 !...xk ! 36

Captulo 4. Distribucin conjunta.

x2 + ... + xk = n, P (X1 = x1 , X2 = x2 , ..., Xk = xk ) = n! px1 px2 ...pxk . k x1 !x2 !...xk ! 1 2

Observacin 4.18. Si (X1 , X2 , ..., Xk ) Mult(n, p1 , p2 , ..., pk ), entonces Xi Bin(n, pi )


para

i = 1, 2, 3, ..., k.

4.3. Vectores aleatorios absolutamente continuos.


Dado un espacio de probabilidad (, A, P ), se dice que el vector aleatorio (X1 , X2 , ..., Xk ) : Rk es absolutamente continuo, si y slo si existe fX1 ,X2 ,...,Xk : Rk R tal que: i) fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) 0 todo (x1 , x2 , ..., xk ) Rk , para xk x1 x2 ii) FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = ... fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...duk . A la funcin fX1 ,X2 ,...,Xk se la denomina densidad del vector (X1 , X2 , ..., Xk ), o tambin densidad conjunta de las variables X1 , X2 , ..., Xk . En R2 , se tiene que para todo (x, y) R2 (por aplicacin del teorema de Fubini), ) ) x ( y y ( x FX,Y (x, y) = fX,Y (u, v)dv du = fX,Y (u, v)du dv.

Denicin 4.19. Vectores aleatorios absolutamente continuos.

4.3.1.

Propiedades.
Dado un espacio de probabilidad

Teorema 4.20.

es absolutamente continuo con densidad k tonces, para todo boreliano A R se cumple que

(X1 , X2 , ..., Xk ) : Rk

(, A, P ).

Si el vector aleatorio

fX1 ,X2 ,...,Xk ,

en-

P ((X1 , X2 , ..., Xk ) A) =
Demostracin.

fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )dx1 dx2 ...dxk .

Nuevamente el resultado se sigue del teorema de existencia y unicidad de extensin de medidas, ya que la propiedad es vlida para todo boreliano de la forma

A = (, x1 ] (, x2 ] ... (, xk ]
y dado que los mismos generan la -lgebra de Borel en Rk se concluye la demostracin. Observacin 4.21. El signicado de . . . f es el de la integral de Lebesgue, que
en el caso en que el boreliano la de Riemann.

A es un producto cartesiano de intervalos o una unin

disjunta de productos cartesianos de intervalos, entonces dicha integral coincide con

37

Captulo 4. Distribucin conjunta.

Observacin 4.22.
P (X A) = 0.

Si el boreliano

tiene medida de Lebesgue nula, entonces

Teorema 4.23.
(X1 , X2 , ..., Xk ) :
tonces,

Dado un espacio de probabilidad (, A, P ). Si el vector aleatorio Rk es absolutamente continuo con densidad fX1 ,X2 ,...,Xk , en-

k FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) x1 x2 ...xk
igualdad vlida para todos los nula.

(x1 , x2 , ..., xk ) Rk

salvo en un conjunto de medida

Demostracin.

Basta derivar sucesivamente a la funcin x1 x2 FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = ...

xk

fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...duk

respecto a x1 , x2 , ..., xk en todo punto de continuidad de fX1 ,X2 ,...,Xk , el conjunto de puntos donde se puede realizar esta operacin es el de puntos de continuidad de fX1 ,X2 ,...,Xk que son todos salvo un conjunto de medida nula. En lo que sigue, responderemos a la siguiente pregunta: (X1 , X2 , ..., Xk ) es absolutamente continuo, es equivalente a decir que cada Xi es absolutamente continua para i = 1, 2, 3, ..., k ?

(, A, P ). Si el vector aleatorio (X1 , X2 , ..., Xk ) es absolutamente continuo, entonces Xi solutamente continua para todo i = 1, 2, 3, ..., k . Adems la densidad de Xi es fXi (ui ) = fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...dui1 dui+1 ...duk .
espacio de probabilidad
Rk1

Teorema 4.24.

Dado el vector aleatorio

(X1 , X2 , ..., Xk ) : Rk

denido sobre un es ab-

Demostracin.

Sabemos que

1, 2, 3, ..., k , entonces

x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +

lim

FX1 ,X2 ,...Xk (x1 , x2 , ..., xk ) = FXi (xi ) para todo i =

x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +

lim

FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) =


xk

x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +

lim

x1

x2

...

(aplicando Fubini)

xi

... fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...dui1 dui+1 ...duk dui
Rk1

fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ..duk =

38

Captulo 4. Distribucin conjunta. Entonces

FXi (xi ) =

xi

... fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...dui1 dui+1 ...duk dui
Rk1

de donde se deduce el resultado.

Observacin 4.25.
dice que si

En el caso particular en dimensin 2, el teorema anterior nos

(X, Y )

es absolutamente continuo con densidad

fX,Y ,

entonces

son

absolutamente continuas con densidades

fX (x) =

fX,Y (x, y)dy ,

fY (y) =

fX,Y (x, y)dx.

El recproco del teorema anterior no tiene por qu cumplirse, para ello consideremos el siguiente ejemplo. Denimos (X, Y ) vector en R2 , tal que (X, Y ) toma valores en la diagonal del cuadrado{[0, 1] [0, 1] con distribucin uniforme. Es decir, si denimos el conjunto } D = (x, y) [0, 1]2 : y = x , entonces para todo I D intervalo, se cumple que P ((X, Y ) A) = long(I)/ 2. Observamos en este caso que el vector (X, Y ) no es absolutamente continuo, ya que toma valores en un segmento con probabilidad uno. Como un segmento tiene medida nula, toda integral doble sobre dicho conjunto vale 0. Entonces, si (X, Y ) admitiera densidad, se tendra que 1 = P ((X, Y ) A) = fX,Y (x, y) = 0. Se deja como ejercicio, hallar la distribucin conjunta de (X, Y ) y deducir que tanto X como Y tienen distribucin uniforme en [0, 1] y por lo tanto X e Y son absolutamente continuas. Nuevamente, para que una funcin f : Rk R sea la funcin de densidad de un vector (X1 , X2 , ..., Xk ) en algn espacio de probabilidad, se debe cumplir que: i) f (x) 0 para todo x Rk (alcanza que sea para todo x salvo en un conjunto de medida nula) y + + + ii) ... fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )dx1 dx2 ...dxk = 1, ya que a partir de estas dos condiciones, deniendo x1 x2 xk ... fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...duk F (x1 , x2 , ..., xk ) =
A

se deducen de manera inmediata las 4 condiciones que requiere la funcin F para ser la distribucin de cierto vector aleatorio en cierto espacio de probabilidad.

Dados un vector (1 , 2 , ..., k ) Rk y una matriz de dimensiones k k, simtrica y denida positiva, se dice que el vector (X1 , X2 , ..., Xk ) tiene distribucin normal multivariada con parmetros (, ) si su densidad viene dada por la frmula fX (x) = fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = ( 2 1 )k e det ( )
P 1 (x) 1 (x)T 2

Ejemplo 4.26. Vector normal multivariado.

39

Captulo 4. Distribucin conjunta.

Observacin 4.27.
de parmetros

En el caso particular en que

k=1

queda la distribucin normal

(, 2 ) .

Para vericar que sta funcin integra 1, basta realizar en la misma el cambio de variable t = (x )A1 siendo A una matriz tal que A2 = (una raz cuadrada de ) y luego observar que 1 T 1 tt ... ( )k e 2 dt1 dt2 ...dtk = Rk 2 1 2 1 2 2 ... e 2 (t1 +t2 +...+tk ) dt1 dt2 ...dtk = ( )k Rk 2 + + + 1 2 1 2 1 2 1 t1 t2 e 2 dt1 e 2 dt2 ... e 2 tk dtk = 1 ( )k 2 ya que qued un producto de k integrales donde cada funcin integrando es la densidad normal (0, 1) que integra 1. Se puede probar que cuando X = (X1 , X2 , ..., Xk ) es normal multivariado, entonces 2 la distribucin de cada Xi es N (i , i ) para i = 1, 2, 3..., k . El caso particular en que k = 2, se llama tambin normal bivariada, y en este caso si ( 2 ) 1 1,2 = (1 , 2 ) y = , obtenemos la frmula 2 1,2 2

fX,Y (x, y) =

e (

1 2 2 2 2 1 2 1,2

2 2 2 2 2 2 (x2 2 +y2 1 +1 2 +2 2 2xy1,2 +2x2 1,2 +2y1 1,2 2x2 1 2y1 2 21 2 1,2 ) 2 1

2 2 2 1 2 1,2

4.4. Independencia de variables aleatorias.


Denicin 4.28.

( ) Dado , A, P espacio de probabilidad, se dice que las variables aleatorias X1 , X2 , ..., Xk son independientes si y slo si para todos A1 , A2 , ..., Ak borelianos, se cumple que P (X1 A1 , X2 A2 , ..., Xk Ak ) = P (X1 A1 ) P (X2 A2 ) ...P (Xk Ak ) .

Observacin 4.29.
X1
y

Se observa que slo sta igualdad ya implica que las variables

tomadas de a dos o de a tres, etc son indpendientes, ya que por ejemplo para ver que

A3 = A4 = ... = Ak = con lo que obtenemos P (X1 A1 , X2 A2 ) = P (X1 A1 ) P (X2 A2 ) . ( ) Teorema 4.30. Dado , A, P espacio de probabilidad, entonces las variables aleatorias X1 , X2 , ..., Xk son independientes si y slo si se cumple que
son independientes, basta considerar

X2

FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX1 (x1 ) FX2 (x2 ) ...FXk (xk )

para todo

(x1 , x2 , ..., xk ) Rk .
40

Captulo 4. Distribucin conjunta.


Demostracin.

) Basta considerar los borelianos A1 = (, x1 ] , A2 = (, x2 ] , ..., Ak = (, xk ], entonces P (X1 A1 , X2 A2 , ..., Xk Ak ) = FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )
mientras que

P (X1 A1 ) P (X2 A2 ) ...P (Xk Ak ) = FX1 (x1 ) FX2 (x2 ) ...FXk (xk )
y como las variables son independientes, se obtiene la igualdad buscada. ) La igualdad FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX1 (x1 ) FX2 (x2 ) ...FXk (xk ) para todo (x1 , x2 , ..., xk ) Rk implica que se cumple que P (X1 A1 , X2 A2 , ..., Xk Ak ) = P (X1 A1 ) P (X2 A2 ) ...P (Xk Ak ) para los borelianos en Rk de la forma A1 A2 ... Ak = (, x1 ] (, x2 ] ... (, xk ] . Luego, como esta familia de borelianos (al variar x1 , x2 , ..., xk ) generan la -lgebra de Borel en Rk , por extensin, se deduce que la propiedad es vlida para todos A1 , A2 , ..., Ak borelianos. Dado que en el caso discreto determinar la distribucin conjunta es equivalente a determinar la funcin de probabilidad conjunta, y en el caso absolutamente continuo, determinar la funcin de distribucin es equivalente a determinar la densidad conjunta (salvo conjuntos de medida nula), se tienen los siguientes corolarios.

Corolario 4.31. En el caso discreto, se tiene que las variables aleatorias X1 , X2 , ..., Xk
son independientes si y slo si se cumple que

pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = pX1 (x1 ) pX2 (x2 ) ...pXk (xk )
para todo

(x1 , x2 , ..., xk ) Rk .

Demostracin.

) Cualesquiera sean los reales x1 , x2 , ..., xk basta considerar los borelianos A1 = {x1 }, A2 = {x2 }, ..., Ak = {xk } y usar la denicin de independencia. ) Dados los reales x1 , x2 , ..., xk , se tiene que FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = pX1 ,X2 ,...,Xk (t1 , t2 , ..., tk ) = ...
t1 Rec(X1 ) : t1 x1 tk Rec(Xk ) : tk xk

t1 Rec(X1 ) : t1 x1

...

tk Rec(Xk ) : tk xk

pX1 (x1 ) pX2 (x2 ) ...pXk (xk ) =


tk Rec(Xk ) : tk xk

t1 Rec(X1 ) : t1 x1

pX1 (x1 )

t2 Rec(X2 ) : t2 x2

pX2 (x2 ) ...

pXk (xk ) =

FX1 (x1 )FX2 (x2 )...FXk (xk ).

41

Captulo 4. Distribucin conjunta.

Corolario 4.32.

En el caso absolutamente continuo, Si

absolutamente continuo, se tiene que las variables aleatorias pendientes si y slo si se cumple que

(X1 , X2 , ..., Xk ) X1 , X2 , ..., Xk

es vector son inde-

fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = fX1 (x1 ) fX2 (x2 ) ...fXk (xk )
para todo

(x1 , x2 , ..., xk ) Rk punto

de continuidad defX1 ,X2 ,...,Xk .

Demostracin.

) FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX1 (x1 )FX2 (x2 )...FXk (xk ), para todo (x1 , x2 , ..., xk ) Rk punto de continuidad de fX1 ,X2 ,...,Xk , si derivamos sucesivamente de ambos lados de la igualdad, primero respecto de x1 luego respecto de x2 ... y por ltimo respecto de xk , del lado izquierdo queda fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) y del derecho queda fX1 (x1 )fX2 (x2 )...fXk (xk ), por lo tanto la igualdad se obtiene en todo punto de Rk , salvo en un conjunto de medida nula. ) x1 x2 xk FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = ... fX1 (u1 )fX2 (u2 )...fXk (uk )du1 du2 ...duk =
x1

x2

xk

fX1 (u1 )du1

fX2 (u2 )du2 ...

fXk (uk )duk =

FX1 (x1 )FX2 (x2 )...FXk (xk ). ( ) Denicin 4.33. Dado , A, P espacio de probabilidad, se dice que la familia de variables aleatorias {Xt }tI donde I es una familia arbitraria de ndices si y slo si para todo F I nito, se cumple que {Xt }tF son independientes.
Si el vector X = (X1 , X2 , ..., Xk ) es normal multivariado, con par metros (, ), donde la matriz es diagonal, es decir cuando i,j = 0 para todos i = j , observamos que
1 k ( xi i )2 T (x ) (x ) = i i=1

Ejemplo 4.34.

por lo que la densidad conjunta queda


Pk 1 fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = e i=1 2 2 2 21 2 ...k k i=1
1 1 e2 2 2i

xi i i

xi i i

por lo que se deduce que X1 , X2 , ..., Xk son independientes cuyas distribuciones son 2 ) Xi N (i , i para i = 1, 2, 3, ..., k . Ms adelante se ver el signicado de los parmetros (, ) . 42

Captulo 4. Distribucin conjunta.

Teorema 4.35.
Entonces:

Convolucin de dos variables aleatorias.

Dadas dos variables aleatorias independientes cio de probabilidad

(, A, P ) .

Consideremos

X, Y : R denidas la variable Z = X + Y.

sobre un espa-

(i)

Si

son discretas, entonces

pZ (z) =
(ii)

Z es

discreta y adems

xRec(X) zxRec(Y )

pX (x)pY (z x).

Si

(X, Y )

es absolutamente continuo, entonces

es absolutamente continua y

adems

fZ (z) =

fX (x)fY (z x)dx.

Demostracin.

(i)
pZ (z) = P (Z = z) = P (X + Y = z) =
xRec(X)

xRec(X)

P (X + Y = z; X = x) = P (Y = z x) P (X = x) =

P (Y = z x; X = x) =
xRec(X) zxRec(Y )

xRec(X), zxRec(Y )

pX (x)pY (z x).

(ii)

Si le llamamos A = {(x, y) R2 : x + y z}, entonces FZ (z) = P (Z z) = P (X + Y z) = fX,Y (x, y)dxdy =


A

fX (x)fY (y)dxdy =
A

zx

) fX (x)fY (y)dy dx =

zx

) fY (y)dy fX (x)dx

ahora realizando en la integral en y el cambio de variable t = y + x y nos queda ) ) + ( z z ( + fY (t x)dt fX (x)dx = fX (x)fY (t x)dx dt.

Por lo tanto Z es absolutamente continua con densidad + fZ (z) = fX (x)fY (z x)dx.

43

Captulo 4. Distribucin conjunta. Si X N (1 , a2 ) , Y N (2 , b2 ) son independientes, entonces Z = X + Y N (1 + 2 , a2 + b2 ) . Basta probarlo para el caso 1 = 2 = 0, ya que si X N (, 2 ) ,entonces X = +T donde T N (0, 2 ) . Aplicamos entonces la frmula de la convolucin y obtenemos que + + 2 x2 (zx) 1 fZ (z) = fX (x)fY (z x)dx = fZ (z) = e 2a2 e 2b2 dx = 2ab

Ejemplo 4.36.

( ) 1 za2 Luego de hacer el cambio de variable t = ab x a2 + b2 a2 +b2 , obtenemos que la ltima integral es igual a + 2 z 2 z 2 t 1 1 2(a2 +b2 ) e 2 dx = e 2(a2 +b2 ) e 2 a2 + b2 2 (a2 + b2 )
que es la funcin de densidad correspondiente a una variable con distribucin N (0, a2 + b2 ) . Observamos que de esta propiedad, se deduce que toda combinacin lineal de variables normales independientes es normal.

1 2(az2 2 ) e 2 +b 2ab

1 2a2 b2

2 x a2 +b2 za 2

a +b2

dx.

Ejemplo 4.37.

Si X Bin(n, p), Y Bin(m, p) son independientes, entonces Z = X + Y Bin(n + m, p) . En este caso, pZ (z) = P (Z = z) = P (X + Y = z) =
n+m x=0

P (Y = z x) P (X = x) =
x
:

x
:

m n Czx pzx (1 p)mz+x Cx px (1 p)nx =

xn, zxm

m n Czx Cx pz (1 p)n+mz = pz (1 p)n+mz x


:

xn, zxm

m n Czx Cx

xn, zxm

Ahora, teniendo en cuenta el coeciente que multiplica al trmino tz cuando desarrollamos (1 + t)n (1 + t)m = (1 + t)n+m , obtenemos la igualdad m n n+m Czx Cx = Cx
x
:

xn, zxm

Por lo tanto

n+m pZ (z) = Cx pz (1 p)n+mz .

44

Captulo 4. Distribucin conjunta.

4.5. Mtodo del Jacobiano.


Frecuentemente, conocemos la distribucin de un vector aleatorio X y debemos trabajar con una funcin del mismo, digamos Y = g(X). Si el vector X es absolutamente continuo y la funcin g es diferenciable deseamos saber si Y es tambin absolutamente continuo, y si lo es, obtener una frmula que nos permita hallar la densidad de Y . El siguiente teorema apunta en esa direccin. ( ) Teorema 4.38. Dados , A, P espacio de probabilidad, X = (X1 , X2 , ..., Xk ) : Rk vector aleatorio y g : U V donde U, V son abiertos de Rk tales que P (X U ) = 1, g es biyectiva y diferenciable con detJg (x) = 0 para todo x U. Si X es absolutamente continuo entonces Y = g(X) es absolutamente continuo con
densidad conjunta dada por

( ) fY (y) = fX g 1 (y)
Demostracin.

1 1V (y). |detJg (g 1 (y))|

Basta ver que para todo boreliano B en Rk , se puede expresar P (Y B) como una integral sobre el conjunto B de cierta funcin, la cual ser necesariamente (salvo conjuntos de medida nula) la densidad del vector Y.

P (Y B) = P (g(X) B) = P X g

(B) =

fX (x)dx1 dx2 ...dxk .

g 1 (B)U

Ahora, realizando el cambio de variable y = g(x) en la integral nos queda 1 fX (g 1 (y)) dy1 dy2 ...dyk = |detJg (g 1 (y))|
BV

( ) fX g 1 (y)

1 1V (y)dy1 dy2 ...dyk . |detJg (g 1 (y))|

En el caso particular en que k = 1 tenemos el siguiente corolario. ( ) Corolario 4.39. Dados , A, P espacio de probabilidad, X : R variable aleatoria y g : U V donde U, V son abiertos de R tales que P (X U ) = 1, g es biyectiva y derivable, con g (x) = 0 para todo x U. Si X es absolutamente continua entonces Y = g(X) es absolutamente continua con
densidad dada por

( ) fY (y) = fX g 1 (y)

1 |g (g 1 (y))|

1V (y).

Ejemplo 4.40.

Como aplicacin veremos que si X, Z N (0, 1) independientes, y denimos Y = |Z| entonces probaremos que X 2 + Y 2 Exp( = 1/2) . 45

Captulo 4. Distribucin conjunta. En primer lugar observamos que, para y > 0, se tiene que FY (y) = P (|Z| y) = P (y Z y) = FZ (y)FZ (y) = 2FZ (y)1, por lo tanto fY (y) = 2fZ (y)1{y>0} = ( ) y 2 2 e 2 1{y>0} . Tambin vemos que P (X, Y ) R R+ = 1. 2 Consideramos la funcin g : R R+ V siendo V = {(u, v) R2 : v > u2 } tal que y) ) (x, x2 + y 2 ) . Esta funcin es invertible y su inversa es g 1 (w, t) = g(x, = ( 2 . detJ (x, y) = 2y. w, t w g Dado que X e Y son independientes, se tiene que su densidad conjunta es fX,Y (x, y) = 1 2 2 f (x)f (y) = 1 e 2 (x +y ) 1 . La densidad conjunta de (W, T ) = g (X, Y ) = (X, X 2 + Y 2 ) ser entonces
X Y {y>0}

fW,T (w, t) = fX,Y (g 1 (w, t))

1 1 t 1 1 (w, t) = e 2 1V (w, t). 1 (w, t))| V |detJg (g 2 t w2

Hallamos la densidad de T = X 2 + Y 2 a partir de la densidad conjunta como

fT (t) =

+
si

luego, realizando el cambio de variable u = tsen obtenemos fT (t) = 1 et/2 y, dado 2 que para t < 0, se tiene fT (t) = 0, se deduce que 1 fT (t) = et/2 1{t>0} 2
por lo que V = X 2 + Y 2 Exp( = 1/2) . Ejercicio. Si X e Y son independientes con distribucin exponencial de parmetro = 1. Hallar la densidad conjunta del vector (X + Y, X Y ) .

fW,T (w, t)du =

t>0

1 v 1 e2 dw 2 t w2

46

Captulo 5 Integral de Riemann-Stieltjes.


Dadas funciones g, F : [a, b] R que cumplan ciertos requisitos, deniremos la b expresin a g(x)dF (x) de tal manera que cuando consideremos el caso particular en que F (x) = x nos quede la denicin clsica de integral de Riemann. Denimos una particin del intervalo [a, b] como el conjunto nito P = {a = x0 , x1 , ...., xn = b} donde xi1 < xi para todo i = 1, 2, ..., n. Junto con la particin, elegimos para cada i = 1, 2, ..., n, puntos intermedios ci [xi1 , xi ] . Es decir que dar la particin P equivale a dar los puntos de subdivisin xi y los puntos intermedios ci .

Denicin 5.1.

Dadas g, F : [a, b] R y P particin (con sus correspondientes puntos intermedios ci ), denimos la suma parcial de Riemann-Stieltjes como

S (P, g, F ) =

n i=1

g (ci ) (F (xi ) F (xi1 )) .

Observamos que cuando F (x) = x, si le pedimos a g que sea integrable Riemann, b dichas sumas se acercarn indenidamente al valor a g(x)dx conforme anemos sucientemente la particin, en esa direccin apuntaremos.

Denicin 5.2. Dada P particin en [a, b] denimos


y le llamaremos norma de la particin.

P =mx{xi xi1 , i = 1, 2, ..., n}

Denicin 5.3.

Dadas g, F : [a, b] R , diremos que lim S (P, g, F ) = I si y slo


P 0

si dado > 0, existe > 0 tal que para toda P particin de [a, b] (con sus correspondientes puntos intermedios ci ) con P < , se cumple que |S (P, g, F ) I| < .

Denicin 5.4. Integral de Riemann-Stieltjes.

Notacin:
a

Dadas g, F : [a, b] R , si existe y es nito lim S (P, g, F ) = I , diremos que la integral de Riemann-Stieltjes de g respecto de F en el intervalo [a, b] existe y vale I.
b P 0

gdF =
a

g(x)dF (x).

47

Captulo 5. Integral de Riemann-Stieltjes.

Observacin 5.5.

En el caso particular en que

la denicin de funcin integrable Riemann en

F (x) = x, [a, b] .

la denicin coincide con

Se deja como ejercicio vericar el enunciado de los ejemplos que siguen.

Ejemplo 5.6.
b a

Si F (x) = k constante, entonces cualquiera sea g : [a, b] R existe b gdF y adems a gdF = 0. { [c, Ejemplo 5.7. Si g : [a, b] R es continua, F (x) = 1[c,b] = 1 si x no b] con 0 si b b c (a, b) existe a gdF y adems a gdF = g(c). { [a, Ejemplo 5.8. Si g(x) = F (x) = 1[a,c] = 0 si xsino c] con c (a, b) entonces 1 b no existe a gdF . Ejemplo 5.9. Si g(x) = k constante, entonces existe ab gdF para cualquier F y vale b kdF (x) = k (F (b) F (a)) . a b Veremos en lo que sigue un par de caracterizaciones para la existencia de a gdF.

Teorema 5.10.
(a) Existe lim

Los siguientes enunciados son equivalentes.

P 0

S (P, g, F )

y vale

(nito).

(b) Condicin de Cauchy. Dado

> 0, existe > 0 tal que si P y Q son dos particiones de [a, b] P < y Q < , se cumple que |S (P, g, F ) S (Q, g, F )| < . [a, b]
tales que

tales que

(c) Para toda sucesin{Pn } de particiones en que


n+

Pn 0

se cumple

lim

S (Pn , g, F ) = I.

Demostracin.

(a) (b) Dado > 0, existe > 0 tal que para toda P particin de [a, b] (con sus correspondientes puntos intermedios ci ) tal que P < , se cumple que |S (P, g, F ) I| < /2. Entonces si tomamos P y Q dos particiones de [a, b] tales que P < y Q < , se cumplir que |S (P, g, F ) S (Q, g, F )| |S (P, g, F ) I| + |S (Q, g, F ) I| < /2 + /2 = . (b) (c) Fijamos {Pn } sucesin de particiones en [a, b] tales que Pn 0. Dado > 0, tomamos el > 0 de la condicin de Cauchy, y por lo tanto existir un n0 tal que Pn < para todo n n0 . Entonces si consideramos n, m n0 , obtendremos que | S (Pn , g, F ) S (Pm , g, F )| < por lo que la sucesin {S (Pn , g, F )} es de Cauchy, entonces existir I R tal que lim S (Pn , g, F ) = I.
Observamos que el valor de I depende de la eleccin de la sucesin de particiones, faltara probar que el lmite es el mismo cualquiera sea la sucesin de particiones. 48
n+

Captulo 5. Integral de Riemann-Stieltjes. Consideremos entonces {Pn } otra sucesin de particiones en [a, b] tales que Pn 0 y sea I tal que lim S (Pn , g, F ) = I . Consideramos entonces la siguiente sucesin de particiones: P1 , P1 , P2 , P2 , ..., Pn , Pn , .... entonces es claro que esta nueva sucesin, llammosle {Qn } , cumple que Qn 0 y por lo tanto existe I tal que lim S (Qn , g, F ) = I . Pero {S (Pn , g, F )} y {S (Pn , g, F )}son subsucesiones de
n+

{S (Qn , g, F )} y por lo tanto I = I = I . (c) (a) Supongamos por absurdo que (a) no es cierto, entonces existe > 0 tal que para todo > 0, existe una particin P , tal que |S (P , g, F ) I| . Tomando = 1/n, encontramos una sucesin de particiones {Pn } tal que para todo n, |S (Pn , g, F ) I| entonces lim S (Pn , g, F ) = I .
n+

n+

existe

Teorema 5.11.
b a

Si

g : [a, b] R

es continua y

F : [a, b] R es montona, entonces

gdF.

Demostracin.

Probaremos que se cumple la condicin de Cauchy. Fijamos > 0. Como g es uniformemente continua en [a, b] existe > 0 tal que si |x y| < entonces |g(x) g(y)| < .Tomamos una particin P = {a, x1 , x2 , ..., xn1 , b} con puntos intermedios F (b)F (a)

ci [xi1 , xi ] i = 1, 2, ..., n y una particin Q = {a, y1 , y2 , ..., ym1 , b} con puntos intermedios di [yi1 , yi ] i = 1, 2, ..., m. S (P, g, F ) = n g(ci ) (F (xi ) F (xi1 )), i=1 S (Q, g, F ) = m g(di ) (F (yi ) F (yi1 )) . i=1 Unimos los puntos que forman la particin P con la de Q, a la que le llamamos {a, z1 , z2 , ..., zk1 , b} (k n + m 1 pues algunos puntos de P pueden coincidir con algunos de Q). Podemos escribir entonces S (P, g, F ) =
k i=1

g(ci ) (F (zi ) F (zi1 )) y S (Q, g, F ) =

k i=1

g(di ) (F (zi ) F (zi1 ))

donde los ci son los mismos que los ci (ms explcitamente, cuando [zj1 , zj ] [ci1 , ci ] entonces cj = ci ). Anlogamente, di son los mismos que los di . Observamos que|ci di | < si le pedimos a las particiones P y Q, P < /2 y Q < /2 . Entonces

|S (P, g, F ) S (Q, g, F )| =
k i=1 k i=1

k i=1

(g(ci ) g(di )) (F (zi ) F (zi1 ))

|g(ci ) g(di )| |F (zi ) F (zi1 )| =


k i=1

|g(ci ) g(di )| (F (zi ) F (zi1 ))

(F (zi ) F (zi1 )) = . F (b) F (a)

Nota.

Con la misma idea, se puede probar que si F es montona creciente y g es acotada y tiene una cantidad nita de discontinuidades, pero F y g no tienen b discontinuidades en comn, entonces existe a gdF. 49

Captulo 5. Integral de Riemann-Stieltjes.

Teorema 5.12.
derivable tal que

Si g : [a, b] R F (x) = f (x) para

es continua y todo

x [a, b],
b

siendo

F : [a, b] R es f integrable

montona y Riemann en

[a, b] ,

entonces

g(x)dF (x) =
a

g(x)f (x)dx.

Demostracin.

Dada una particin P de [a, b] , existen di [xi1 , xi ] i = 1, 2, ..., n tales que F (xi ) F (xi1 ) = f (di ) (xi xi1 ), ahora si elegimos como puntos intermedios de la particin a los di , obtenemos

S (P, g, F ) =

n i=1

g(di ) (F (xi ) F (xi1 )) =

n i=1

g(di )f (di ) (xi xi1 ) .

Tomando lmite cuando P 0 se obtiene el resultado ya que la ltima sumatoria tiende a la integral de Riemann de g(x)f (x) en [a, b] (producto de funciones integrables Riemann es integrable Riemann).

5.1. Propiedades.
Proposicin 5.13.
y

b
a

hdF

entonces

ms

b g, h, F : [a, b] R son tales que existen las integrales a gdF b tambin existe a (g + h) dF cualesquiera sean , R y ade b b b (g + h) dF = gdF + hdF.
Si
a a a

Demostracin.

Cualquiera sea P particin de [a, b] , se tiene que

S (P, g + h, F ) =
n i=1

n i=1

(g(ci ) + h(ci )) (F (xi ) F (xi1 )) =

g(ci ) (F (xi ) F (xi1 ))+

n i=1

h(ci ) (F (xi ) F (xi1 )) = S (P, g, F )+S (P, h, F )

por lo que tomando lmite cuando P 0 se obtiene el resultado.

Proposicin 5.14. Si h, F, G : [a, b] R


y

b
a

hdG

entonces tambin existe

adems

hd (F + G) cualesquiera b b b hd (F + G) = hdF + hdG.


a a a a

son tales que existen las integrales sean

hdF , R y
a

50

Captulo 5. Integral de Riemann-Stieltjes.


Demostracin.

Cualquiera sea P particin de [a, b] , se tiene que

S (P, h, F + G) =
n i=1

n i=1

h(ci ) [ (F (xi ) F (xi1 )) + (G (xi ) G (xi1 ))] =


n i=1

h(ci ) [(F (xi ) F (xi1 ))]+

h(ci ) [(G (xi ) G (xi1 ))] = S (P, h, F )+S (P, h, G)

por lo que tomando lmite cuando P 0 se obtiene el resultado. Proposicin 5.15. Si g, F : [a, b] R son tales que existe ab gdF entonces c b quiera sea c (a, b), se cumple que existen a gdF y c gdF y adems

cual-

gdF =
a

gdF +
c

gdF.

Demostracin.

c b Primero probaremos que existe a gdF usando la condicin de Cauchy. Como a gdF existe, jado > 0, existe > 0 tal que si P y Q son dos particiones de [a, b], donde P < y Q < se cumple que |S (P, g, F ) S (Q, g, F )| < . Consideremos
entonces P y Q dos particiones de [a, c] tales que P < y Q < . Completamos P y Q a P y Q particiones de [a, b] , agregando los mismos puntos de modo que P < ( ) ( ) y Q < . Entonces S P , g, F S Q, g, F = |S (P, g, F ) S (Q, g, F )| < . c b Por lo tanto existe a gdF. Anlogamente se prueba que existe c gdF. Sabemos ahora que las tres integrales existen. Consideramos entonces la sucesin de particiones {Pn } tales que Pn 0 y tales que c Pn para todo n. Podemos escribir entonces

Pn = Pn Pn , donde Pn es particin de [a, c] con Pn


de [a, c] con Pn
(2)

(1)

(2)

(1)

(1)

0 y Pn es particin

(2)

0. Entonces, se tiene que ) ( (2) ) ( (1) S (Pn , g, F ) = S Pn , g, F + S Pn , g, F

y tomando lmite cuando n + se obtiene

gdF =
a

gdF +
c

gdF.
es montona creciente

y existe

Proposicin 5.16. Si g, F
b a

: [a, b] R son tales que g 0, F


a b

g(x)dF (x),

entonces

gdF 0.

51

Captulo 5. Integral de Riemann-Stieltjes.


Demostracin.

Cualquiera sea P particin de [a, b] , se tiene que

S (P, g, F ) =

n i=1

g(ci ) (F (xi ) F (xi1 )) 0 b


a

puesto que cada sumando es no negativo, entonces

gdF 0.
que

Proposicin 5.17.
creciente y existen

Si
b a

g, h, F : [a, b] R son tales b gdF, a hdF , entonces b b gdF hdF.


a a

g h, F

es montona

g h 0, entonces por la propiedad anterior 0 b b por lo que se deduce que a gdF a hdF. x [a, b] , F

Demostracin.

(g h)dF = a

b
a

gdF

b
a

hdF

Proposicin 5.18.

son tales que b es montona creciente y existe a gdF entonces Si

g, F : [a, b] R
b

g(x)

para todo

(F (b) F (a))
a

gdF (F (b) F (a)) .

Demostracin.

Es un corolario inmediato de la propiedad anterior.

Proposicin 5.19.
creciente, entonces

Si

g : [a, b] R
a b

es continua y

F : [a, b] R

es montona

g(x)dF (x)
a

|g(x)| dF (x).

Demostracin.

Cualquiera sea P particin de [a, b] , se tiene que

|S (P, g, F )| =

n i=1

g(ci ) (F (xi ) F (xi1 ))

n i=1

|g(ci )| (F (xi ) F (xi1 )) = S (P, |g| , F ) .

Tomando lmite cuando P 0 se obtiene el resultado.

Proposicin 5.20.
Si

g, F : [a, b] R son tales que g es continua, F es b existe c [a, b] tal que a gdF = g(c) (F (b) F (a)) .
Demostracin.

Teorema del valor medio.

montona creciente, entonces

La existencia de la integral se debe a que g es continua y F es montona. Como g es continua, por el toerema de Weierstrass tiene mnimo y mximo que les llamamos m y R

M respectivamente. Entonces por la propiedad anterior, se tiene que m M y como g es continua, resulta que existe c [a, b] tal que
a gdF F (b)F (a)

Rb

gdF F (b)F (a)

b a

= g(c).
52

Captulo 5. Integral de Riemann-Stieltjes.

5.2. Mtodos de integracin.


Teorema 5.21.
Si adems

g, F : [a, b] R

Frmula de integracin por partes.


son tales que existe
b a

gdF , entonces b b b F dg = gF a gdF.


a a

tambin existe

b
a

F dg

Demostracin.

Recordamos la frmula de Abel:


n i=1

ai bi =

n1 i=1

Ai (bi bi+1 ) + An bn siendo An =

n i=1

ai .

Tomamos una particin cualquiera P = {a, x1 , x2 , ..., xn1 , b} con correspondientes puntos intermedios c1 , c2 , ..., cn . Si aplicamos dicha frmula para S (P, F, g) = n F (ci ) (g (xi ) g (xi1 )) tomando ai = g (xi )g (xi1 ) y bi = F (ci ), i=1 obtenemos

S (P, F, g) =
n1 i=1 n1 i=1 n1 i=1

n1 i=1

(g(xi ) g(a)) (F (ci ) F (ci+1 )) + F (cn ) (g(b) g(a)) =

g(xi ) (F (ci ) F (ci+1 )) (F (c1 ) F (cn )) g(a) + F (cn ) (g(b) g(a)) = g(xi ) (F (ci ) F (ci+1 )) F (c1 )g(a) + F (cn )g(b) =

g(xi ) (F (ci ) F (ci+1 ))+(F (a) F (c1 )) g(a)+(F (cn ) F (b)) g(b)+F (b)g(b)F (a)g(a) = S(P , g, F ) + g(b)F (b) g(a)F (a)

siendo P la particin formada por los puntos a, c1 , c2 , ..., cn , b y los puntos intermedios son a, x1 , x2 , ..., xn1 , b. Observamos adems que P 2 P por lo que tomando lmite cuando P 0 en la igualdad

S(P, F, g) = S(P , g, F ) + g(b)F (b) g(a)F (a) b obtenemos que existe a F dg y la frmula de partes.

Proposicin 5.22.
Si

g, F : [a, b] R son tales que a gdF existe, h : [c, d] [a, b] d biyectiva, entonces c g ohd (F oh) y adems d b g(h(t))dF (h(t)) = g(x)dF (x).
c a

Cambio de variable.
b

es continua y

53

Captulo 5. Integral de Riemann-Stieltjes.


Demostracin.

Supondremos que h es creciente, el caso decreciente es anlogo. Si P = {c, t1 , t2 , ..., tn1 , d} es una particin de [c, d] con puntos intermedios ci [ti1 , ti ] i = 1, 2, ..., n entonces

S (P, g oh, F oh) =

n i=1

( ) g (h (ci )) [F (h (xi )) F (h (xi1 ))] = S P , g, F

siendo P = {a, h(t1 ), h(t2 ), ..., h(tn1 ), b} con puntos intermedios h(ci ) (esto se puede hacer ya que h es creciente y biyectiva). Adems como h es continua, si P 0 entonces h (P ) = P 0, lo cual se deduce ya que h es uniformemente continua (dado > 0 existe > 0 tal que si |x y| < entonces |h(x) h(y)| < ). Por d lo tanto tomando lmite cuando P 0 se deduce que c g ohd (F oh) existe y la frmula buscada.

5.3. Extensin a funciones complejas e integrales impropias.


g = g1 + ig2 y F : [a, b] R, diremos que existe b g dF y en ese caso, a 2 b b b gdF = g1 dF + g2 dF.
a b a a

Denicin 5.23. Integrales con integrando complejo.


b a

Dadas g : [a, b] C, b gdF si y slo si existen a g1 dF e

Denicin 5.24. Integrales impropias.

Si g, F : R R son tales que a gdF existe cualesquiera sean a y b, denimos + b gdF = lm gdF.
a b+ a

en caso de que exista el lmite.

Denicin 5.25.
+

Dadas g :R C (g = g1 + g2 ) F : R R, diremos que existe + + gdF si y slo si existen g1 dF y g2 dF y adems + + + gdF = g1 dF + i g2 dF.

5.4. Aplicaciones a la teora de la probabilidad.


Proposicin 5.26.
entonces Si

FX

es funcin de distribucin de una variable aleatoria

X,

dFX (x) = P (a < X b) .


54

Captulo 5. Integral de Riemann-Stieltjes.


Demostracin.

b Basta observar que a dFX (x) = FX (a) FX (b) de donde se deduce el resultado. Nota. Se puede probar que A dFX (x) = P (X A) cualquiera sea A boreliano en R (donde nuevamente el signicado de esta integral es el de Lebesgue).

Proposicin 5.27.
R

Si

X
a b

es discreta cuyo recorrido es

A = {x1 , x2 , ...}

g : [a, b]

es continua, entonces

g(x)dFX (x) =
Demostracin.

x(a,b]A

g(x)pX (x).

FX (x) = i : xi x pX (xi ) = i pX (xi )1[xi ,+) (x). Denimos para cada n, An = n {x1 , x2 , ..., xn } y Fn (x) = i=1 pX (xi )1[xi ,+) (x). Dado > 0, existe n0 tal que para cada n n0 se cumple que P (X An ) 1 /n. Por lo tanto para cada x R se tiene que 0 FX (x) Fn (x) /n (para n n0 ) . Como g es continua, entonces |g(x)| k para todo x [a, b] y por lo tanto
a b

g(x)d (FX (x) Fn (x))


a

|g(x)| d (FX (x) Fn (x)) 2k/n 0


n+

g(x)dFn (x) =
a

g(x)d

( n
i=1

) pX (xi )1[xi ,+) (x) =

n i=1

pX (xi )
a

g(x)d1[xi ,+) (x) =

g(xi )pX (xi ).


a a b b

g(x)dFX (x) =
i : xi (a,b]An

i : xi (a,b]An b

g(x)dFn (x) +
a

g(x)d (FX (x) Fn (x)) = g(x)d (FX (x) Fn (x))

g(xi )pX (xi ) +

Tomando lmite cuando n + se obtiene el resultado.

Proposicin 5.28. Si
es continua, entonces

es absolutamente continua con densidad

fX

g : [a, b] R

g(x)dFX (x) =
a

g(x)fX (x)dx.

Demostracin.

Es corolario inmediato del teorema 1.11.

55

Captulo 5. Integral de Riemann-Stieltjes.

5.5. Integrales de Riemann-Stieltjes mltiples.


Si (X, Y ) es un vector aleatorio y FX,Y : R2 R su funcin de distribucin. Su pongamos que g : [a, b] [c, d] R, deniremos [a,b][c,d] g(x, y)dFX,Y (x, y). Si FX,Y : R2 R es una funcin de distribucin conjunta y g : [a, b] [c, d] R. Dada PX = {a = x0 , x1 , x2 , ..., xn1 , xn = b} es una particin de [a, b] con puntos intermedios ci [xi1 , xi ] i = 1, 2, , ..., n, PY = {c = y0 , y1 , y2 , ..., ym1 , ym = d} es una particin de [c, d] con puntos intermedios ci [yi1 , yi ] i = 1, 2, , ..., m, denimos las sumas parciales de Riemann-Stieltjes, sobre PX PY como S (PX PY , g, FX,Y ) = n m i=1 j=1 g(ci , cj )pij siendo

pij = P ((X, Y ) (xi1 , xi ] (yj1 , yj ]) = FX,Y (xi , yj ) FX,Y (xi1 , yj ) FX,Y (xi , yj1 ) + FX,Y (xi1 , yj1 ).
Denimos la norma de la particin como P =mx{ PX , PY } . Como en el caso univariado diremos que lim S (P, g, FX,Y ) = I si y slo si dado > 0, existe > 0 tal que para toda P particin de [a, b][c, d] (con sus correspondientes puntos intermedios ci y ci ) con P < , se cumple que |S (P, g, FX,Y ) I| < .
P 0

Denicin 5.29. Integral doble de Riemann-Stieltjes.


P 0

Dadas g : [a, b] [c, d] R , FX,Y : R2 R funcin de distribucin de un vector aleatorio (X, Y )si existe lim S (P, g, F ) = I , diremos que la integral de RiemannStieltjes de g respecto de FX,Y en [a, b] [c, d] existe y vale I. Notacin:

gdF =
[a,b][c,d]

g(x, y)dFX,Y (x, y)

Es vlido el mismo teorema de las tres equivalencias para la existencia de la integral, probadas en el caso univariado, con demostraciones anlogas. De manera anloga se prueban tambin el siguiente teorema y las propiedades que siguen.

Teorema.

Si F es distribucin, y g : [a, b][c, d] R es continua, entonces existe

[a,b][c,d]

Propiedades.

gdF.

Las siguientes propiedades, pueden ser demostradas de manera similar al caso univariado. 1. Si g, h : [a, b] d] R F = FX,Y son tales que existen las integrales [c, gdF y [a,b][c,d] hdF entonces tambin existe [a,b][c,d] (g + h) dF [a,b][c,d] cualesquiera sean , R y adems (g + h) dF = gdF + hdF.
[a,b][c,d] [a,b][c,d] [a,b][c,d]

56

Captulo 5. Integral de Riemann-Stieltjes. 2. Si F, G son distribuciones, h : [a, b][c, d] R, son tales que existen las integra les [a,b][c,d] hdF y [a,b][c,d] hdG entonces tambin existe [a,b][c,d] hd (F + G) cualesquiera sean , R y adems hd (F + G) = hdF + hdG.
[a,b][c,d] [a,b][c,d] [a,b][c,d]

3. Si F es distribucin, g [a, b] [c, d] R son tales que g 0, y existe : gdF , entonces [a,b][c,d] gdF 0. [a,b][c,d] 4. Si F es distribucin, g, h : [a, b] [c, d] R son tales que g h, y existen gdF y [a,b][c,d] hdF entonces [a,b][c,d] gdF [a,b][c,d] hdF. [a,b][c,d]
5.5.1. Aplicaciones a la teora de la probabilidad.

1. Si FX,Y es la funcin de distribucin de una vector aleatorio (X, Y ), entonces dFX,Y (x, y) = P (a < X b, c < Y d) ..
[a,b][c,d]

2. Si (X, Y ) es discreto cuyo recorrido es A = {(xi , yj )}i,j y g : [a, b] [c, d] R es continua, entonces g(x, y)pX,Y (x, y) g(x, y)dFX,Y (x, y) =
[a,b][c,d] (x,y)(a,b](c,d]A

3. Si (X, Y ) es absolutamente continuo con funcin de densidad fX,Y y g : [a, b] [c, d] R es continua, entonces g(x, y)dFX,Y (x, y) = g(x, y)fX,Y (x, y)dxdy
[a,b][c,d] [a,b][c,d]

5.5.2.

Integrales mltiples impropias.

Dadas g : Rn R y FX1 ,X2 ,...,Xn distribucin conjunta del vector (X1 , X2 , ..., Xn ) g(x1 , x2 , ..., xn )dFX1 ,X2 ,...,Xn (x1 , x2 , ..., xn ) =

Denicin 5.30.

lm ai bi + para todo i

Rn

[a1 ,b1 ][a2 ,b2 ]...[an ,bn ]

g(x1 , x2 , ..., xn )dFX1 ,X2 ,...,Xn (x1 , x2 , ..., xn )

57

Captulo 6 Valor esperado.


6.1. Denicin.
Un concepto esencial en teora de la probabilidad y estadstica es el concepto de esperanza o valor esperado de una variable aleatoria, el mismo ser denido de tal modo que quede un promedio ponderado de los valores que puede tomar la variable. Tambin se ver ms adelante, mediante la llamada ley de los grandes nmeros que el valor esperado puede verse tambin como un valor al cual converge (en cierto sentido) el promedio de una muestra de observaciones tomadas al azar, cuando el tamao de la muestra (cantidad de observaciones) tiende a innito. Todo esto va dicho de manera muy informal, pero ser precisado ms adelante. Supongamos que tenemos un conjunto formado por 100 personas de las cuales 90 tienen una altura de 170 cms, 5 miden 167 cms y los restantes 5 miden 172 cms. La altura promedio de este conjunto de personas, la calculamos, sumando la altura de las 100 personas, y lo dividimos entre 100 que es el total de personas, as obtenemos que la altura promedio es 90170+5167+5172 = 169. 95. Si sorteamos un individuo 100 al azar y denimos X = .altura del individuo sorteado", tendramos que Rec(X) = 5 {167, 170, 172} y su fncin de probabilidad sera pX (167) = 100 = 0, 05; pX (167) = 5 90 = 0, 9 y pX (172) = 100 = 0, 05 por lo tanto, la altura promedio la podemos 100 escribir como 167 0, 05 + 170 0, 9 + 172 0, 05 = 167 pX (167) + 170 pX (170) + 172 pX (172) . A este valor le llamaremos esperanza (o valor esperado de X ) y lo simbolizaremos como E (X) . Razonando como en este ejemplo, dada una variable xpX (x), y de aleatoria X discreta, su valor esperado debera ser denido como xRec(X) + ah, parece natural denirlo para el caso absolutamente continuo como xfX (x)dx. An nos quedara por denir el valor esperado para una variable aleatoria mixta.

Denicin 6.1. Dado (, A, P ) un espacio de probabilidad y X


aleatoria tal que
+

|x| dFX (x) < +. Denimos + E (X) := xdFX (x)

: R variable

y le llamaremos esperanza de X o valor esperado de X. 58

Captulo 6. Valor esperado.

+ Diremos tambin que existe E (X) cuando se cumple que |x| dFX (x) < +. ( ) Denicin 6.2. Dado un , A, P espacio de probabilidad, si A A es tal que P (A) = 1, diremos que el suceso A ocurre casi seguramente (c.s.).

Observacin 6.3.
ocurre c.s.) y existe vale 0.

Si

A R es un boreliano tal que P (X A) = 1 (es E(X), entonces E(X) = A xdFX (x), ya que sobre Ac

decir si

la integral

Observacin 6.4.
y adems

X es discreta, observando que para x R se cumple que cada pX (x) = FX (x)FX (x ), entonces existe E(X) si y slo si xRec(X) |x|pX (x) < +
Si

E (X) =

xRec(X)

xpX (x).

Observacin 6.5.
punto

y adems

Si X es absolutamente continua, como FX (x) = fX (x) en todo + x de continuidad de fX , entonces entonces existe E(X) si y slo si |x|fX (x)dx <

E (X) =

xfX (x)dx.

Observacin 6.6.
mente continuo.

La convergencia absoluta de la integral que dene el valor espe-

rado, se realiza para evitar problemas de convergencia debido a la reordenacin de trminos en el caso de la serie, o reordenacin en los intervalos en el caso absoluta-

Cuando X 0 casi seguramente, resulta FX (x) = 0 para todo x < 0, por lo tanto + + xdFX (x) = 0 xdFX (x) 0 lo cual motiva la siguiente denicin.

E(X) = +.

Denicin 6.7.

Si X 0 casi seguramente, y

|x|dFX (x) = +, diremos que

6.2. Ejemplos.
Ejemplo 6.8.
Si X Ber(p) entonces E (X) = p ya que E(X) = 0.P (X = 0) + 1.P (X = 1) = p. Ejemplo 6.9. Si X Bin(n, p) entonces E (X) = np. E(X) = n xP (X = x) = x=0 n n xCx px (1 p)nx = np. Se deja como ejercicio, vericar la anterior igualdad. x=0 + 2 1 1 Ejemplo 6.10. Si X N (, 2 ) entonces E (X) = x 22 e 22 (x) dx = . Se deja como ejercicio, vericar la anterior igualdad.

59

Captulo 6. Valor esperado.

y < 1/2 0 si Ejemplo 6.11. Como habamos observado anteriormente, FY (y) = y si 1/2 y 1 , 1 si y>1 FY tiene un nico salto en 1/2, y adems es derivable en [1/2, 1] con FY (y) = 1, por lo tanto, obtenemos + 1 ) 1( 5 ydFY (y) = E (Y ) = ydy = . FY (1/2) FY (1/2 ) + 2 8 1/2

6.3. Propiedades.
En las siguientes propiedades se considera dado un espacio de probabilidad (, A, P ) .

Teorema 6.12.
P (X 0) = 1)
y

Si

X : R es variable aleatoria existe E (X), entonces E (X) 0.

tal que

X0

c.s. (es decir que

Demostracin.

Como X 0, entonces se tiene que FX (x) = 0 para todo x < 0. Entonces, se cumple que + + 0 = E (X) = xdFX (x) = xdFX (x) 0.
0

Teorema 6.13.
Demostracin.

Si

X :R

es tal que

X =a

c.s. (es decir que

(X es constante), entonces existe

E (X)

y adems

E (X) = a.

Es decir,

P (X = a) = 1) E (a) = a.

Observando que X = a es una variable discreta donde P (X = a) = 1, entonces

E (a) = aP (X = a) = a.

Teorema 6.14.
entonces

Si

X:R

es variable aleatoria tal que

X0

c.s. y

E (X) = 0,

X = 0.

c.s.

Demostracin.

Como X 0, se deduce se tiene que FX (x) = 0 para todo x < 0. Entonces, cualesquiera sean 0 < < , se cumple que + + 0 = E (X) = xdFX (x) = xdFX (x) xdFX (x)
0

(FX () FX ()) .
Entonces (FX () FX ()) = 0, por lo que se deduce que FX () = FX () para todos , > 0. Entonces, FX (x) es constante para x > 0, lo cual sumado al hecho de que debe tener lmite 1 cuando x tiende a +, entonces se obtuvo que FX (x) = 1 para todo x > 0, lo cual sumado al hecho de que FX (x) = 0 para todo x < 0, y como FX es continua por derecha en 0, entonces FX (0) = 1, y entonces se obtiene que P (X = 0) = 1. 60

Captulo 6. Valor esperado.

Corolario 6.15. Si X, Y
y

son variables aleatorias tales que entonces

E(Y ),

y adems

E(X) = E(Y )

XY

c.s., existen

E(X)

X=Y

c.s.

Demostracin. Teorema 6.16.


boreliana
1

Basta observar que X Y 0 c.s. y que E(X Y ) = E(X) E(Y ) = 0, luego por el teorema anterior se tiene que X Y = 0 c.s.

X : R es variable aleatoria, g : R R es una (g (A) B para todo A B ) tal que existe E (g(X)), entonces + E (g(X)) = g(x)dFX (x).
Si

funcin

Demostracin.

Haremos la demostracin suponiendo que g es montona y biyectiva. El caso general se prueba a partir de teora de la medida. Supongamos que g es creciente y biyectiva, el caso decreciente es anlogo. ( ) Fg(X) (y) = P (g(X) y) = P X g 1 (y) = FX (g 1 (y)).

E [g (X)] =

ydFg(X) (y) =

ydFX (g 1 (y))

si ahora hacemos el cambio de variable y = g(x), entonces la ltima integral nos queda + g(x)dFX (x).

Observacin 6.17.
si

A partir de esta propiedad, se deduce que existe

E (|X|) < +.

E (X)

si y slo

Ejemplo 6.18.
E (Y ) =
+

Si Y =max{X, 1/2} donde X U (0, 1), entonces

max {x, 1/2} fX (x)dx =


0

max {x, 1/2} dx =


0

1/2

1/2dx+ E (X) ,

xdx = 5/8.
1/2

Corolario 6.19.
cualquiera sea

Si X : R R, existe

es variable aleatoria tal que existe

entonces

E (X)

y adems

E (X) = E (X) .

Demostracin.

La existencia de E (X) se deduce de la linealidad de la integral de Riemann Stieltjes + + ya que |x| dFX (x) = || |x| dFX (x). Ahora consideramos g : R R tal que g(x) = x, entonces g es boreliana y por lo tanto + + E (X) = xdFX (x) = xdFX (x) = E (X) .

61

Captulo 6. Valor esperado.

Teorema 6.20. Demostracin.

Si

E (|X|) < +,

entonces

|E(X)| E (|X|) .
+

xdFX (x)

|E(X)| =

|x|dFX (x) = E (|X|)


es boreliana

Teorema 6.21.
tal que existe

X, Y : R son variables aleatorias y g : R2 R E [g (X, Y )] entonces + + E (g (X, Y )) = g (x, y) dFX,Y (x, y).
Si

Demostracin.

Se prueba utilizando teora de la medida.

Teorema 6.22.
E (Y ),

Si

entonces existe

X, Y : R son variables E (X + Y ) y adems

aleatorias tales que existen

E (X)

E (X + Y ) = E (X) + E (Y ) .
Demostracin.

E (|X + Y |) =
+

|x + y| dFX,Y (x, y)
+

|x| dFX,Y (x, y) +

|y| dFX,Y (x, y) =

E (|X|) + E (|Y |) < +


lo cual prueba que existe E (X + Y ) . Deniendo ahora las funciones g, g1 , g2 : R2 R tales que g(x, y) = x + y, g1 (x, y) = x, g2 (x, y) = y , entonces g = g1 + g2 , y por lo tanto usando la linealidad de la integral de Riemann Stieltjes, obtenemos + + E (X + Y ) = (x + y) dFX,Y (x, y) =

xdFX,Y (x, y) +

ydFX,Y (x, y) =

E (X) + E (Y ) .

Ejemplo 6.23.

Si X Bin(n, p) entonces E (X) = np. Esto se debe a que denimos para cada {= 1, 2, 3, ..., n las variables i 1 si hay xito la vez i-sima Xi = entonces cada Xi distribuye como una 0 si no Ber(p) y adems se cumple que X = X1 + X2 + ... + Xn , luego, aplicando la aditividad de la esperanza nos queda que

E (X) = E (X1 + X2 + ... + Xn ) = E (X1 ) + E (X2 ) + ... + E (Xn ) = np.


62

Captulo 6. Valor esperado.

Teorema 6.24.
existen

E (X)

Si X, Y : R son variables E (Y ), entonces E (X) E (Y ) .

aleatorias tales que

X Y

c.s. y

Demostracin.

Como Y X 0, entonces

0 E (Y X) = E (Y ) E (X) .

Teorema 6.25.
existe

E (X)

X, Y : R son variables aleatorias independientes, tales E (Y ), entonces existe E (XY ) y adems E (XY ) = E (X) E (Y ) .
Si

que

Debido a la independencia de las variables, FX,Y (x, y) = FX (x)FY (y) para todos x, y. Entonces + + + + E (|XY |) = |xy| dFX,Y (x, y) = |x| |y| dFX (x)dFY (y) =

Demostracin.

|x|dFX (x)
+

|y|dFY (y) = E (|X|) E (|Y |) < +.


+

E (XY ) =

xydFX,Y (x, y) =
+

xydFX (x)dFY (y) =

xdFX (x)

ydFY (y) = E (X) E (Y ) .

Observacin 6.26.
nimos el conjunto

El corolario 6.18 junto al teorema 6.21, nos indican que si de-

V = {X : R
entonces

variable aleatoria, tal que existe

E (X)} T : V R
tal que

tiene estructura de espacio vectorial, ya que es un subespacio del conjunto

de variables aleatorias denidas en

Adems, si denimos

T (X) = E(X),
Dados un

entonces

es una transformacin lineal.

Teorema ( 6.27.

, A, P

Desigualdad de Jensen. )

espacio de probabilidad,

variable aleatoria y

funcin convexa tales que existen el valor esperado de

y de

:RR (X) . Entonces

una

(E (X)) E [ (X)] .
Adems, si es estricta.

es estrictamente convexa y

no es constante, entonces la desigualdad

63

Captulo 6. Valor esperado.


Demostracin.

Dado que es convexa, se cumple que existe una recta que pasa por el punto (E (X) , (E (X))) tal que el grco de est por encima de la misma. Entonces, se tiene que (X) (E (X)) + a (X E (X)) y por lo tanto, tomando esperanzas de ambos lados de la desigualdad obtenemos que (E (X)) E [ (X)] . Por otro lado, deniendo g(t) = (E (X)) + a (t E (X)), al ser estrictamente convexa, se cumple que (t) g(t) para todo t, y adems, si (t) = g(t) entonces t = E(X). Si se diera (E (X)) = E [ (X)] entonces se tendra que E ((X)) = E (g(X)), siendo (X) g(X) por lo que se deduce que (X) = g(X) con probabilidad 1, de donde se deduce que debe ser X = E(X), o sea que X sera constante, lo cual concluye la prueba.

Ejemplo 6.28. ( )
X

Dado que ((x) = ex es convexa, se tiene que si existen E (X) y ) E e entonces eE(X) E eX . Ademas, si X no es constante, la desigualdad es estricta.

6.4. Teoremas de convergencia.


Supongamos que tenemos una sucesin de variables aleatorias {Xn }nN y una variable aleatoria X denidas en cierto espacio de probabilidad, tales que lim Xn (w) = X(w) para todo w . Dado que tenemos convergencia de las Xn a la X en todo punto, es natural preguntarse si ser cierto que lim E (Xn ) = E (X) . Veremos en el siguiente ejemplo que con la sola convergencia en todo punto w de Xn (w) a X(w), no es suciente para asegurar que lim E (Xn ) = E (X) .
n+ n+ n+

Ejemplo 6.29. Supongamos que X U (0, 1), denimos la sucesin Xn = n1(0,1/n) (X).
1 para todo n y por lo tanto, en este caso X = 0 y no se cumple que lim E (Xn ) = E (X) .
n+ n+

Vemos que lim Xn (w) = 0 para todo w , sin embargo, E (Xn ) = nP (0 < X < 1/n) =

En lo que sigue veremos dos teoremas de vital importancia en teora de probabilidad y medida, que bajo cierto conjunto de hiptesis nos permiten aseguran la convergencia de las esperanzas de las Xn a la esperanza de X .
6.4.1. Teorema de convergencia montona.

Teorema 6.30.) (
Dados

{Xn }nN

, A, P

Teorema de convergencia montona.


un espacio de probabilidad, una sucesin de variables aleatorias entonces existe

y una variable aleatoria

para todo

w ,

X tales que existe E(X), Xn (w) 0, Xn (w) X(w) E(Xn ) para todo n y adems E (Xn ) = E (X) .
64

n+

lim

Captulo 6. Valor esperado.


Demostracin.

En primer lugar observamos que como 0 < Xn X , entonces existe E(Xn ) para todo n. Adems, dado que Xn Xn+1 para todo n entonces, E (Xn ) E (Xn+1 ) por lo que la sucesin {E (Xn )}nN es creciente y por lo tanto tiene lmite. Por otro lado, como Xn X para todo n, entonces E (Xn ) E (X) para todo n, por lo que lim E (Xn ) E (X) . Entonces ser suciente probar que lim E (Xn ) E (X). Para lograrlo, veremos que dado > 0, se cumplir que lim E (Xn ) E (X) . Fijado > 0, aproximaremos
n+ n+

X por una variable discreta Y tal que |X Y | . Denimos los sucesos Bn = {n < X (n + 1)} para n = 0, 1, 2, ... y denimos { n si n < X(w) (n + 1) la variable Y (w) = . Vemos que X Y X 0 si X(w) = 0 por lo que E (X) E (Y ) E (X) . Para obtener el resultado, probaremos que lim E (Xn ) E (Y ) .
Denimos los sucesos Ak = {Xk Y }. Si w Ak entonces Xk (w) Y (w) pero Xk+1 (w) Xk (w) por lo que Xk+1 (w) Y (w), luego w Ak+1 por lo que los Ak son una sucesin creciente de sucesos. Adems, para todo w , se cumple que w Bn para algn n, y como Xk (w) X(w) entonces existe un k0 tal que Xk0 (w) n = Y (w), entonces + Ak = . k=1 Por lo tanto, dejando n jo, los sucesos Ak Bn variando k , crecen a Bn . Por otro lado, observamos que las variables Y 1Ak son discretas, tomando los valores 0, , 2, 3, ... por lo que para cualquier m se tiene que
n+

n+

E (Y 1Ak ) =

+ n=0

nP (Y 1Ak = n) = m +
n=0 n=0

+ n=0

nP (Ak Bn ) m
n=0

m n=0

nP (Ak Bn ).

k+

lim E (Y 1Ak ) lim


k+

k+

nP (Ak Bn ) =

nP (Bn ) para todo m, en-

tonces lim E (Y 1Ak )

nP (Bn ) = E (Y ) . Adems Y 1Ak Xk entonces

E (Y 1Ak ) E (Xk ) por lo que lim E (Xk ) E (Y ) lo cual concluye la demostracin.


k+

Observacin 6.31.
Xn+1
para todo

El teorema sigue siendo vlido si las hiptesis

Xn > 0

Xn
queda

n,

se cumplen casi seguramente. El teorema sigue valiendo en el caso en que

Observacin 6.32.
6.4.2.

E(X) = +,

como ejercicio realizar la vericacin de la demostracin para este caso.

Teorema de convergencia dominada.

Teorema 6.33.) Teorema (


, A, P {Xn }nN y dos
Dados

de convergencia dominada.

un espacio de probabilidad, una sucesin de variables aleatorias

variables aleatorias para todos

tales que que

|Xn (w)| Y (w)

w.

Adems existe

E (Y ).

n+

lim

Xn (w) = X(w)

65

Captulo 6. Valor esperado.


Entonces existen las esperanzas de
n+

Xn

para todo

y la de

y adems

lim

E (Xn ) = E (X) .

En primer lugar vemos que como |Xn | Y para todo n, entonces existe la esperanza de las Xn , adems tomando lmites en la desigualdad, obtenemos que |X| Y, por lo que tambin existe la esperanza de X. Denimos la sucesin Yn = inf Xk entonces Yn X (ya que las Yn tienden a supYn =
kn

Demostracin.

sup inf Xk que es el lmite inferior de la sucesin Xn ). Adems observamos que 0

Yn +Y X+Y , por lo que aplicando el teorema de convergencia montona, obtenemos que lim E (Yn + Y ) = E (X + Y ) = E (X) + E (Y ) .
n+

n kn

Luego, lim E (Yn ) = E (X) . Anlogamente, deniendo Zn = supXk , vemos que


n+

Zn X y como adems 0 Y Zn Y X , aplicando nuevamente el teorema de convergencia montona y utilizando la linealidad del valor esperado, obtenemos que lim E (Zn ) = E (X) .
n+

kn

Para concluir la demostracin, basta observar ahora que para todo n y todo w, se cumple que Yn (w) Xn (w) Zn (w) por lo que E (Yn ) E (Xn ) E (Zn ) y como lim E (Yn ) = E (X) y lim E (Zn ) = E (X) se obtiene que lim E (Xn ) = E (X) .
n+ n+ n+

Observacin 6.34.
mente.

Como en el teorema de convergencia montona, se tiene que


n+

basta tomar como hiptesis que

lim

Xn = X
y

|Xn | Y

se cumplan casi segura-

Corolario 6.35.

Si

n+

lim

Xn (w) = X(w) k

|Xn (w)| k (cte)

para todos

w,

entonces vale el teorema ya que

tiene esperanza nita.

6.4.3.

Aplicaciones.
Si

Teorema 6.36.
todo

fn : [a, b] R son funciones integrables Riemann en [a, b] para n N, g : [a, b] R es integrable Riemann y f : [a, b] R lim fn (x) = f (x) y
para todo

|fn (x)| g(x)

x [a, b] . Entonces b b fn (x)dx = f (x)dx. lim


n+ a a

n+

Demostracin.

Consideramos X U (0, 1). Denimos entonces las variables Yn = fn (X) e Y = b c.s. 1 f (X). Entonces Yn Y, |Yn | g (X), existe E (g (X)) = ba a g(x)dx < +, luego por el teorema de convergencia dominada, se tiene que lim E (Yn ) = E (Y ) , ahora n+ b b 1 1 vemos que E (Yn ) = E (fn (X)) = ba a fn (x)dx y E (Y ) = E (f (X)) = ba a f (x)dx b b 1 1 entonces lim ba a fn (x)dx = ba a f (x)dx, de donde se deduce el resultado.
n+

66

Captulo 6. Valor esperado.

Teorema 6.37. Dada la sucesin doblemente indizada (sucesin de sucesiones)


R. +
Supongamos que existe una sucesin
(k)

b(k)

{ } (k) an k,

n,kN

kN

tal que lim


(k)

b(k) > 0,

para todo

(k) = L < + an k=1 b

b(k)

para todos
+ k=1

n, k.
+ k=1

Si

n+

an = a(k) ,

entonces

n+

lim

a(k) n

a(k) .

Demostracin.

( ) Denimos el espacio de probabilidad N, 2N , P donde P ({k}) =

b(k) . L

n Denimos la sucesin de variables aleatorias Xn : N R tales que Xn (k) = a(k) y b (k) c.s. X : N R tal que X(k) = a(k) . Entonces Xn X (ya que Xn (k) X(k) para b todo k N). Adems ( ) (k) an b(k) P Xn = (k) = P ({k}) = . b L

(k)

Anlogamente,

( P

a(k) X = (k) b

) = P ({k}) =

b(k) . L

Adems |Xn (k)| 1 para todo k. Entonces, aplicando el teorema de convergencia dominada, se deduce que lim E (Xn ) = E (X) . n+ ( ) + + (k) + (k) an a(k) b(k) an 1 (k) n an E (Xn ) = P Xn = (k) = = b(k) b b(k) L L
k=1 k=1 k=1

y anlogamente,

E (X) =

+ a(k) k=1

( P

b(k)

a(k) X = (k) b +
k=1

) =

+ a(k) b(k) k=1 1 L

b(k)
k=1

1 (k) = a . L L k=1
+

Entonces obtuvimos que lim sultado.

1 n+ L

an =

(k)

a(k) de donde se deduce el re-

+ ) n( 1 x n Como aplicacin, se deja como ejercicio hallar lim ; lim 1 + n e2x dx n2 k2 n+ 0 n+ k=1 ) n( x n x/2 y lim 0 1 n e dx. n+

67

Captulo 7 Espacios Lp.


7.1. Denicin y propiedades.
Lp . Dado un espacio de probabilidad (, A, P ), y p > 0, se dene el conjunto Lp = {X : R variable aleatoria tal que E (|X|p ) < +)} .

Denicin 7.1. Espacios

Teorema 7.2.

Si

0<p<q

entonces

Lq Lp .

Demostracin.

Si X Lq , entonces ( ) ( ) ( ) E (|X|p ) = E |X|p 1{|X|<1} + E |X|p 1{|X|1} 1 + E |X|q 1{|X|1}

1 + E (|X|q ) < +.
Diremos que X admite momentos de orden p si y slo si E (|X|p ) < + o sea, si y slo si X Lp . Del teorema anterior deducimos que si X admite momentos de orden p, entonces admite momentos de cualquier orden menor que p. Por ejemplo, decir que X admite momentos de orden 3, implica que admite momentos de cualquier orden menor que 3.

Teorema 7.3.
que

Si

X, Y Lp

entonces

X + Y Lp

para todos

, R.

Es decir

es un espacio vectorial (ya que es subespacio del conjunto de todas las variables

aleatorias, que forman un espacio vectorial).

Si X Lp entonces cualquiera sea R, se tiene que E (|X|p ) = ||p E (|X|p ) < + por lo que X Lp . Ahora, si X, Y Lp observamos que |X + Y | |X|+|Y | 2max{|X| , |Y |} entonces |X + Y |p 2p max{|X|p , |Y |p }, por lo tanto se tiene que E (|X + Y |p ) 2p max{E |X|p , E (|Y |p ) < +} . 68

Demostracin.

Captulo 7. Espacios Lp .

XY =
Si

Observacin 7.4. [
1 2

X, Y L2 , entonces XY L1 , ya que ] (X + Y ) X 2 Y 2 , es combinacin lineal de variables


Si
2

que

L2 .

Teorema 7.5.

X, Y L2 ,

Desigualdad de Cauchy-Schwartz.

( ) ( ) [E (XY )]2 E X 2 E Y 2 . 0 R
tal que

Adems se da el igual si y slo si existe

P (X = 0 Y ) = 1 (o P (Y = 0 X) = 1) .
Demostracin.

( ) ( ) 0 E (X Y )2 = 2 E Y 2 2E (XY ) + E X 2 para todo R.


Entonces, si Y no es la funcin nula casi seguramente, podemos asegurar que nos qued un polinomio de segundo grado. Como dicho polinomio es 0 para todo valor de , no puede tener dos races reales y distintas, por lo que su discriminante debe ser 0. Entonces 4 [E (XY )]2 4E (X 2 ) E (Y 2 ) 0, de donde se deduce la desigualdad. Adems, si fuera [E (XY )]2 = E (X 2 ) E (Y 2 ), entonces existe un valor de donde se anula el polinomio, dicho valor es 0 = E(XY)) , y por lo tanto para dicho valor 0 , se E(Y 2

tiene que 0 = E (X 0 Y )2 , por lo que se tiene que X = 0 Y casi seguramente. Si fuera Y = 0 casi seguramente, entonces tambin se cumple la igualdad, y adems Y = 0X , lo cual concluye la prueba. La desigualdad de Cauchy Schwartz recin probada, responde a la conocida desigualdad respecto a espacios vectoriales con producto interno. Para ello denimos la funcin , : L2 L2 R tal que X, Y = E (XY ) , entonces, , es un seudo producto interno, es decir que es una funcin bilineal simtrica, tal que X, X = E (X 2 ) 0 pero no cumple la condicin X, X = 0 si y slo si X = 0, ya que en este caso si X, X = E (X 2 ) = 0, entonces X = 0 c.s. por lo que puede haber innitas (dependiendo del espacio de probabilidad) funciones que cumplan X, X = 0. Este problema se puede solucionar si identicamos todas las variables aleatorias que son 0 casi seguramente. Para ello se dene la relacin tal que X Y si y slo si X = Y c.s. Se deja como ejercicio chequear que es una relacin de equivalencia, y que si denimos , : L2 / L2 / R tal que [X] , [Y ] = E (XY ) donde X e Y son representantes de [X] y [Y ] respectivamente, entonces la funcin , est bien denida y dene un producto interno en L2 / .

7.2. Varianza de una variable aleatoria.


Junto con el valor esperado de una variable aleatoria, en la mayora de las aplicaciones es necesario tener algn tipo de medida sobre la dispersin que hay entre los valores que puede tomar la variable, y su valor esperado. La denicin de varianza apunta en esa direccin. 69

Captulo 7. Espacios Lp .

Denicin 7.6. Varianza de una variable aleatoria.

Si X L2 , entonces se dene la varianza de X , como el valor [ ] V (X) = E (X E (X))2 .


Como se ve, si le llamamos = E(X), entonces la varianza es (X )2 que mide la diferencia entre los valores que

Observacin 7.7.
puede tomar

el valor esperado de la variable

y su valor esperado, elevado al cuadrado.

La presencia del cuadrado es para que las diferencias entre positivas, ya que sin el cuadrado, la esperanza de

X y su valor esperado sean (X E (X)) es 0. Por ejemplo, si X es una variable aleatoria discreta tal que Rec(X) = {x1 , x2 , ..., xn } con probabili dades pX (xi ) = 1/n para todo i = 1, 2, 3, ..., n, entonces E (X) = xpX (x) = xRec(X) [ ] x1 +x2 +...+xn = . Luego, V (X) = E (X )2 = n
xRec(X)

(x )2 pX (x) =

(x1 )2 + (x2 )2 + ... + (xn )2 n

que representa el promedio de las diferencias al cuadrado que existen entre los valores que toma la variable

y su valor esperado.

En las aplicaciones, al calcular la esperanza de (X E (X))2 , se pierde la unidad de medida de la variable X , la cual queda expresada en unidades al cuadrado. Para salvar este problema se suele considerar la raz cuadrada de la varianza a la que se le llama desviacin tpica o estandar de la variable.

Denicin 7.8. Desviacin tpica. Si X


se dene como

L2 entonces la desviacin tpica de X

X =

V(X).

Propiedades. Teorema 7.9. Si X L2 , entonces V (X) = E (X 2 ) E2 (X) . Aqu se sobreentiende


que

E2 (X) = [E (X)]2 .

Demostracin.

Llammosle = E (X) . Entonces [ ] ( ) V (X) = E (X )2 = E X 2 2X + 2 = ( ) ( ) ( ) E X 2 2E (X) + 2 = E X 2 22 + 2 = E X 2 2 .

Teorema 7.10.
Demostracin.

Si

X L2 ,

entonces

V (aX + b) = a2 V (X) .

[ ] V (aX + b) = E (aX + b)2 [E (aX + b)]2

desarrollando ambos cuadrados y simplicando nos queda igual a ( ( ) ) a2 E X 2 E2 (X) = a2 V (X) . 70

Captulo 7. Espacios Lp .

Teorema 7.11.
mente.

Si

X L2 ,

entonces

V (X) = 0

si y slo si

X = E (X)

casi segura-

Demostracin.

) Si X = E (X) = , entonces[V (X) = E (2 ) E2 () = 2 2 = 0. ] ) Si V (X) = 0, entonces E X E (X)2 = 0 y como (X E (X))2 0 casi seguramente y tiene esperanza 0, entonces debe ser (X E (X))2 0 c.s., por lo que debe ser X = E (X) casi seguramente.

Ejemplo 7.12. Si X Ber(p), entonces ya vimos que E(X) = p. Adems E(X 2 ) = p


con lo cual obtenemos V(X) = p p2 = p(1 p). Si X N(, 2 ) , entonces ya vimos que E(X) = . Ahora, si integramos por partes + + 1 2 1 2 2 E(X ) = x fX (x)dx = x2 e 22 (x) dx 2 2 nos da 2 + 2 , por lo tanto V(X) = 2 . Veremos en lo que sigue, algunas desigualdades que son muy tiles en la teora y en la prctica, conocidas como desigualdades de Markov y de Chebyshev.

Ejemplo 7.13.

g (X) L , g 0
1

Teorema 7.14.

Dadas y

X aR

variable aleatoria, tal que

g:RR

montona creciente, tal que

g(a) > 0,

entonces

P (X > a)
Demostracin.

1 E (g (X)) . g(a)

Consideramos el conjunto A = {X > a} , entonces, dado que g 0, obtenemos que

E (g (X)) = E (g (X) 1A ) + E (g (X) 1Ac ) E (g (X) 1A ) .


Puesto que g (X) 1A g (a) 1A , ya que g es montona creciente y por denicin del conjunto A, vemos que

E (g (X) 1A ) E (g (a) 1A ) = g(a)E (1A ) = g(a)P (A) = g(a)P (X > a) .

Observacin 7.15. Corolario 7.16.

Surge de la demostracin, que vale la misma acotacin si la

probabilidad que se considera es

P (X a).
Si

Desigualdad de Markov.

X Lp (p > 0)

a > 0,

entonces

P (|X| > a)
Demostracin.

1 E (|X|p ) . p a

Basta tomar g(x) = xp para x > 0 y g(x) = 0 para x 0 y aplicar la desigualdad anterior a la variable Y = |X| . 71

Captulo 7. Espacios Lp .

Corolario 7.17.

Desigualdad de Chebyshev.

Si

X L2

a > 0,

entonces

P (|X E (X)| > a)


Demostracin.

1 V (X) . a2

Basta usar la desigualdad del corolario anterior, para el caso en que p = 2 y para la variable Y = X E (X) .

Observacin 7.18. Observacin 7.19.

Como se ve, la desigualdad de Markov nos proporciona una cota

para la funcin de distribucin de una variable aleatoria, si se conoce nicamente el momento de algn orden de la variable, por ejemplo, el momento de orden uno. La desigualdad de Chebyshev es equivalente a

P (|X E (X)| a) 1

1 V (X) . a2

y por lo tanto, nos proporciona una cota inferior para la probabilidad de que la variable tome valores en un entorno de su valor esperado, conociendo nicamente el valor esperado y la varianza de la variable.

Observacin 7.20.

Las desigualdades de Markov y de Chebyshev, son cotas uni-

versales, es decir se cumplen para cualquier tipo de variable aleatoria (con la sla hiptesis de que admitan momentos de algn orden), por lo que suelen dar cotas groseras de las probabilidades. En cada situacin particular, conociendo ms informacin sobre la variable aleatoria

X,

se suelen conseguir cotas ms nas.

7.3. Covarianza y coeciente de correlacin.


La covarianza y el coeciente de correlacin que deniremos en lo que sigue, sirven como medidas del grado de asociacin que hay entre dos variables aleatorias X e Y , ambos conceptos estn relacionados como veremos con la independencia entre las variables.

Denicin 7.21. Covarianza entre dos variables aleatorias. Propiedades.

Si X, Y L2 , entonces denimos COV (X, Y ) = E [(X E (X)) (Y E (Y ))] .

1. Si X, Y L2 , entonces COV (X, Y ) = E (XY ) E (X) E (Y ) . 2. Si X, Y L2 , entonces COV (X, Y ) = COV (Y, X) . 3. Si X L2 , entonces COV (X, X) = V (X) . 4. Si X, Y L2 , entonces COV (aX + b, Y ) = aCOV (X, Y ) para todos a, b R. 72

Captulo 7. Espacios Lp . 5. Si X, Y, Z L2 , entonces COV (X + Y, Z) = COV (X, Y ) + COV (Y, Z) . 6. Si X, Y L2 y son independientes, entonces COV (X, Y ) = 0. 7. Si X1 , X2 , ..., Xn L2 , entonces ( n ) n COV (Xi , Xj ) . V Xi = V (Xi ) + 2
i=1 i=1 i<j

Observacin 7.22. Observacin 7.23.

COV(X, Y ) = 0
Si

no implica necesariamente que

sean

independientes. Se deja como ejercicio construir un contraejemplo.

X1 , X2 , ..., Xn L2 son independientes, ( n ) n V Xi = V (Xi ) .


i=1 i=1

entonces

Observacin 7.24.

Si

X, Y L2 ,

entonces

V (X + Y ) = V (X) + V (Y ) + 2COV (X, Y ) .


Las demostraciones son simplemente operativas y se dejan como ejercicio. Haremos igualmente la demostracin de la propiedad 7. ( n ) ( n ) n n n V Xi = COV Xi , Xj = COV (Xi , Xj )
i=1 i=1 j=1 i=1 j=1

y usando que COV (Xi , Xj ) = COV (Xj , Xi ) y que COV (Xi , Xi ) = V (Xi ) , obtenemos
n i=1

COV (Xi , Xi ) +

n i=1 j=i

COV (Xi , Xj ) =

n i=1

V (Xi ) + 2

j<i

COV (Xi , Xj ) .

Si X Bin(n, p) entonces vimos que X = X1 + X2 + ... + Xn donde las Xi son Ber(p) e independientes, por lo tanto

Ejemplo 7.25.

V(X) = V(X1 + X2 + ... + Xn ) = V(X1 ) + V(X2 ) + ... + V(Xn ) = np(1 p).

Denicin 7.26. Coeciente de correlacin entre dos variables aleatorias.


COV(X,Y ) . Si X, Y L2 son no constantes, entonces denimos (X, Y ) = V(X)V(Y )

Propiedades.

En las propiedades que siguen se consideran X, Y L2 no constantes. 1. 1 (X, Y ) 1. 2. (X, Y ) = 1 si y slo si existen a, b R, a > 0, tales que Y = aX + b. 73

Captulo 7. Espacios Lp . 3. (X, Y ) = 1 si y slo si existen a, b R, a < 0, tales que Y = aX + b. 4. Si X, Y son independientes, entonces (X, Y ) = 0.
Demostracin.

Aplicando la desigualdad de Cauchy Schwartz, tenemos que

|COV (X, Y )| = |E [(X E (X)) (Y E (Y ))]| E (X E (X))2 E (Y E (Y ))2 = V (X) V (Y ).


lo cual es equivalente a decir que | (X, Y )| 1. Adems sabemos que | (X, Y )| = 1 si y slo si existe R tal que X E (X) = (Y E (Y )) donde = 0 ya que X no es constante. Por lo tanto | (X, Y )| = 1 si y slo si existen a = 0 y b tales que Y = aX + b. Ahora, aplicando las propiedades de varianza y covarianza, obtenemos a que (X, Y ) = (X, aX + b) = |a| de donde se deduce que (X, Y ) es 1 si y slo si a > 0, y 1 si y slo si a < 0. Quedan probadas as las primeras 3 propiedades. La ltima propiedad es evidente ya que (X, Y ) = 0 si y slo si COV (X, Y ) = 0.

7.4. Variables i.i.d.


Se dice que la sucesin de variables aleatorias X1 , X2 , ..., Xn , .... son v.a.i.i.d, cuando dichas variables son independientes y todas tienen igual funcin de distribucin, es decir cuando son independientes y adems FX1 = FX2 = ... = FXn para todo n. Cuando n es jo, se dice tambin que X1 , X2 , ..., Xn son una M.A.S.c/rep de X de tamao n (muestra aleatoria simple con reposicin). Lo cual signica que las variables son i.i.d con distribucin como la de cierta variable X que se toma como representativa. Supongamos que tenemos X1 , X2 , ..., Xn v.a.i.i.d cuya distribucin es como la de cierta X L2 . Llammosle en este caso y 2 a la esperanza y la varianza de X respectivamente. Es decir que E (X) = y V (X) = 2 . +...+Xn Se dene la media muestral como la siguiente variable aleatoria: X n := X1 +X2n . La misma es fundamental desde el punto de vista estadstico, ya que si X1 , X2 , ..., Xn representan n observaciones obtenidas de forma independiente de una cierta variable aleatoria, lo que se llama tambin una muestra aleatoria simple de tamao n, entonces X n nos da el promedio de las observaciones obtenidas de(la muestra. ) ( ) Veremos ahora que si X L2 , entonces E X n = y V X n = 2 /n. Efectivamente, usando la linealidad de la esperanza obtenemos que ( ) ( ) n X1 + X2 + ... + Xn E (X1 ) + E (X2 ) + ... + E (Xn ) = = . E Xn = E = n n n Ahora, aplicando propiedades de varianza, obtenemos que ( ) ( ) X1 + X2 + ... + Xn 1 V Xn = V = 2 V (X1 + X2 + ... + Xn ) = n n 74

Denicin 7.27.

Captulo 7. Espacios Lp .

Supongamos que deseamos estimar el porcentaje de fumadores en una poblacin. Para obtener el resultado, se encuestarn de manera independiente, n individuos de la poblacin y se calcular el porcentaje de fumadores en la muestra. Podemos pensar{ entonces que tenemos n variables aleatorias X1 , X2 , ..., Xn , denidas como 1 si la i-sima persona encuestada fuma . Entonces las variables son inXi = 0 si no dependientes con distribucin Ber(p), donde p es el porcentaje de fumadores en la poblacin. p es desconocido, que estimaremos mediante el porcentaje de fumadores +...+Xn en la muestra, el cual es X n = X1 +,X2n ya que el numerador cuenta el total de fumadores (xitos). Supongamos que queremos respondernos a la siguiente pregunta: a cuntos individuos hay que encuestar si deseamos que el porcentaje de la muestra no diera del real en ms de un 1 % con una probabilidad mayor al 95 %? ( ) Por lo tanto queremos hallar n tal que P X n p 0, 01 0, 95. Observamos que las variables, al ser Bernoulli estn en L2 y ya vimos que tienen valor esperado p y varianza p(1 p). Por otro lado, ya vimos que el valor esperado de X n coincide con el de cada Xi , y la 2 varianza de X n(es ) /n = p(1( p)/n. O sea que en el caso de las variables Bernoulli, ) tenemos que E X n = p y V X n = p(1 p)/n. Aplicando el corolario 7.16 (desigualdad de Chebyshev) a la variable X n , llegamos a que ( ) ( ) 1 p(1 p) P X n p 0, 01 1 V Xn = 1 . 2 0, 01 n0, 012 Puesto que p(1 p) 1/4 para todo valor de p, obtenemos que

Una aplicacin estadstica.

V (X1 ) + V (X2 ) + ... + V (Xn ) n 2 2 = 2 = . n2 n n

) p(1 p) 1 X n p 0, 01 1 1 . 2 n0, 01 4n0, 012

1 Entonces eligiendo n tal que 1 4n0,012 0, 95, el mismo nos asegurar que ( ) P X n p 0, 01 0, 95. En este caso el menor valor de n que nos asegura esta desigualdad es 50.000.

75

Captulo 8 Convergencia en probabilidad, casi segura y en distribucin.


Consideremos una sucesin de variables aleatorias {Xn }nN y una variable aleatoria X denidas sobre un mismo espacio de probabilidad. Dado que las Xn y la X son funciones de en R, hay varias nociones de convergencia de una sucesin de funciones a una funcin, como la convergencia puntual, la uniforme, la convergencia cuadrtica o en el espacio Lp por ejemplo. En teora de probabilidad, dado que las funciones son aleatorias, es decir que toman valores reales de manera aleatoria, es necesario denir nuevos conceptos de convergencia que involucren el clculo de la probabilidad de que las Xn esten prximas a X en algn sentido. Deniremos tres conceptos de convergencia que son vitales en teora de la probabilidad y en estadstica matemtica, que son la convergencia en probabilidad, la convergencia casi segura y la convergencia en distribucin.

8.1. Convergencia en probabilidad y casi segura.


Dadas una sucesin de variables aleatorias {Xn }nN y una variable aleatoria X de( ) nidas sobre cierto , A, P espacio de probabilidad, se dice que la sucesin {Xn }nN converge en probabilidad a X si y slo si, para todo > 0 se cumple que
n+

Denicin 8.1. Convergencia en probabilidad.

lim P (|Xn X| < ) = 1.

Notacin: Xn X.

Observacin 8.2.
>0
se cumple que

Equivalentemente, tenemos que lim

Xn X

si y slo si para todo

n+

P (|Xn X| ) = 0.

Informalmente, la convergencia en probabilidad nos dice que una vez que jamos el valor de > 0 arbitrariamente pequeo, pero jo, la probabilidad de que Xn tome 76

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin. un valor perteneciente al intervalo (X , X + ) se acerca a uno en la medida de que n se tome sucientemente grande.

Denicin 8.3. Convergencia casi segura.

Dadas una sucesin de variables aleatorias {Xn }nN y una variable aleatoria X de( ) nidas sobre cierto , A, P espacio de probabilidad se dice que la sucesin {Xn }nN converge casi seguramente a X (o en casi todo punto) si y slo si se cumple que ( ) P lim Xn = X = 1.
n+

Notacin: Xn X.

c.s.

Observacin 8.4.
verica que

Dado que el lmite de variables aleatorias es variable aleatoria, se es un suceso. si y slo si lim P k+

{limXn = X} Xn X
c.s.

Teorema 8.5.
> 0.

(+
n=k

) {|Xn X| < } = 1

para todo

Demostracin.

Si w es tal que lim Xn (w) = X(w) entonces, para todo > 0, existe un k tal que para todo n k se cumple que |Xk (w) X(w)| < . Observando( es suciente en que ) la denicin de lmite considerar Q+ entonces tenemos que P
n+ n+

lim Xn = X

1 si y solo si

+ +

{|Xn X| < } = 1.

Q+ k=1 n=k

Como la interseccin en el conjunto de Q+ es numerable, y tiene probabilidad 1, entonces la ltima condicin es equivalente a (+ + ) {|Xn X| < } = 1 para todo Q+ . P

Por otro lado, los conjuntos Bk = + {|Xn X| < } forman una sucesin creciente n=k de(sucesos, ) entonces, la propiedad de continuidad de las probabilidades nos dice que + P k=1 Bk = lim P (Bk ) , por lo que
k+

k=1 n=k

(+ +
k=1 n=k

) {|Xn X| < } = lim P


k+

( +
n=k

) {|Xn X| < } .

Llegamos as a que

Xn X si y slo si lim P
k+

c.s.

( +
n=k

) {|Xn X| < } = 1 para todo Q+ .


77

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin. Finalmente, dado que en la dencin de lmite es equivalente a trabajar con > 0 y c.s. observando la demostracin, se deduce que Xn X si y slo si (+ ) lim P n=k {|Xn X| < } = 1 para todo > 0.
La interseccin sobre los

k+

Observacin 8.6.

Q+

se realiza para que podamos

asegurar que los conjuntos con los que trabajamos pertenezcan a la modo si trabajamos con los

-lgebra,

de otro

> 0, )

la interseccin es no numerable y no podemos

asegurar que la misma pertenezca a la

Teorema 8.7. Dados un


aleatorias

-lgebra. X.
P

{Xn }nN

, A, P
Si

espacio de probabilidad, una sucesin de variables

y una variable aleatoria


c.s.

Xn X entonces Xn X.

Demostracin.
c.s.

Como Xn X, entonces jado > 0, entonces para todo k N se cumple que


+ n=k

{|Xn X| < } {|Xk X| < } ) {|Xn X| < } P (|Xk X| < )

entonces

( +
n=k

por lo que tomando lmite cuando k tiende a + se deduce el resultado. Veremos en el siguiente ejemplo que la nocin de convergencia casi segura es estrictamente ms fuerte que la de convergencia en probabilidad.

Ejemplo 8.8.

Tomemos un espacio de probabilidad en el cual denimos una va( ) riable Y U (0, 1) . Consideramos la sucesin de intervalos Im,k = 2k , k+1 para m m 2 m = 1, 2, 3, ... y k = 0, 1, 2, 3, ..., 2m 1. Denimos In ordenando los Im,k dando primero el valor de m y luego, para dicho m, variamos en los distintos valores de k = 0, 1, 2, 3, ..., 2m 1. Es decir, para m = 1, tenemos k = 0, 1 por lo que denimos ( 1) ( ) I1 = I1,0 = 0, 2 ; I2 = I1,1 = 1 , 1 . Luego, para m = 2, tenemos k = 0, 1, 2, 3 con 2 ( ) ( 1) lo que denimos I3 , I4 , I5 e I6 (como sigue: I3 = I2,0 = 0, 1 ; I4 = I2,1 = 1 , 2 ; 4 4 ( ) ) I5 = I2,2 = 1 , 3 e I6 = I2,3 = 3 , 1 . As continuamos sucesivamente. 2 4 4 Denimos ahora la sucesin Xn = 1In (Y ). Las longitudes de los intervalos In tienden a cero por lo que se podra esperar que exista algn tipo de convergencia de { P (Y In ) si < 1 las Xn a cero. Dado > 0, se tiene que P (|Xn | ) = y 0 si 1 como P (Y In ) =longitud de In 0, entonces tenemos que Xn 0. Por otro lado, vemos que cualquier nmero (0, 1) pertenece a innitos de los intervalos In y tambin no pertenece a innitos de los intervalos In . Entonces dado cualquier w , se tendr que Y (w) (0, 1) y por lo tanto no existe lim Xn (w). n+ { } Entonces lim Xn = 0 = lo cual prueba que Xn no converge casi seguramente n+ a cero. 78
P

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.

Algebra de lmites en las convergencias en probabilidad y casi segura.

En las siguientes propiedades se consideran dadas las sucesiones de variables aleatorias ( ) {Xn }nN , {Yn }nN y las variables aleatorias X e Y denidas sobre cierto , A, P espacio de probabilidad. Se deja como ejercicio su demostracin. 1. Unicidad. Si Xn X , Xn Y entonces X = Y c.s. 2. Unicidad. Si Xn X , Xn Y entonces X = Y c.s. 3. Si Xn X , Yn Y entonces Xn + Yn X + Y para todos , R. 4. Si Xn X , Yn Y entonces Xn + Yn X + Y para todos , R. 5. Si Xn X y g : R R es continua, entonces g (Xn ) g (X) . 6. Si Xn X y g : R R es continua, entonces g (Xn ) g (X) . 7. Si Xn X , Yn Y entonces Xn Yn XY. 8. Si Xn X , Yn Y y P (Y = 0) = 1, entonces Xn Yn XY. 9. Si Xn X , Yn Y y P (Y = 0) = 1, entonces Xn Yn XY. 10. Si Xn X , Yn Y entonces Xn Yn XY. 11. Si Xn 0, existe k R tal que P (|Yn | > k) = 0 para todo n, entonces P Xn Yn 0. 12. Si Xn 0, existe k R tal que P (|Yn | > k) = 0 para todo n, entonces c.s. Xn Yn 0.
c.s. P c.s. c.s. c.s. c.s. c.s. c.s. P P P P P P c.s. c.s. P P c.s. c.s. c.s. P P P c.s. c.s. P P

8.2. Leyes de los grandes nmeros.


Teorema(8.9.
Dado un

, A, P

Ley dbil de los grandes nmeros. )

i.i.d con distribucin como la de cierta

V (X) .
Entonces

espacio de probabilidad. Si las variables aleatorias {Xn }nN son X L2 y le llamamos = E (X) y 2 =

X n .
Ya vimos sobre el nal del captulo anterior cuando las varaibles son i.i.d. que ( ) ( ) E X n = y V X n = 2 /n para todo n. Entonces aplicando la desigualdad de Chebyshev, obtenemos que, para todo > 0, ( ) ( ) V Xn 2 P Xn = 2 0 2 n n+ por lo que X n . 79
P

Demostracin.

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.

Observacin 8.10. Teorema(8.11.


Dado un Entonces

Como se ve repasando la denicin, la misma demostracin

funciona cambiando las hiptesis de i.i.d por las de que todas las variables, tengan iguales esperanza y varianza, y adems sean no correlacionadas.

, A, P

Ley fuerte de los grandes nmeros. )

i.i.d con distribucin como la de cierta

espacio de probabilidad. Si las variables aleatorias {Xn }nN son X L4 y le llamamos = E (X) .

X n .
Basta probar el teorema para el caso en que = 0, ya que una vez que lo tenemos probado en este caso, para deducir el caso general, denimos para cada n, Yn = Xn , entonces la sucesin {Yn }nN es i.i.d con distribucin como la de Y = X , entonces, c.s. c.s. Y n E(Y ) = 0, pero Y n = X n , por lo tanto X n . Suponemos entonces que = 0. c.s. Para probar que X n , segn el teorema 8.4 debemos probar que, dado > 0, ( 0+ { }) se cumple que lim P X n < = 1, lo cual es equivalente a probar que n=k k+ (+ { }) X n > = 0. lim P n=k k+ }) ( ) (+ { X n > + P X n > se deduce que para obtener el Dado que P n=k n=k ( ) resultado es suciente con probar que + P X n > < +. n=1 ) ( La idea ser entonces acotar P X n > superiormente por una sucesin cuya serie sea convergente. Como X L4 , usaremos la desigualdad de Markov con p = 4, por lo que

c.s.

Demostracin.

1 ( 4) P Xn > 4 E Xn . ( 4) Por lo tanto ser suciente probar que + E X n < +. n=1 ( 4) E Xn = ( ) 1 E [(X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn )] . n4
Desarrolando esta suma, y aplicando linealidad del valor esperado, obtenemos que

E [(X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn )] =


n i=1

) ) ( ( ) ( 2 E Xi2 Xj E Xi4 + E Xi3 Xj +


i,j
:

i=j

i,j

i=j

+
i,j,k
:

i=j=k, i=k

) ( E Xi2 Xj Xk +
i,j,k,l
:

i=j=k=l, j=l, i=k, i=l

E (Xi Xj Xk Xl ) .

80

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin. Como las variables son i.i.d, tenemos que dentro de cada una de las sumatorias anteriores, los sumandos son todos iguales entre s, entonces nos queda igual a ( 4) ( 3 ) ( 2 2) ( 2 ) n 4 n 4 n n nE X1 +8C2 E X1 X2 +C2 C2 E X1 X2 +6C2 C3 E X1 X2 X3 +4!C4 E (X1 X2 X3 X4 ) . Ahora usando que las variables son i.i.d y recordando que en estos casos, la esperanza de un producto se factoriza como el producto de esperanzas, observamos 3 3 2 2 que E (X1 X2 ) = E (X1 ) E (X2 ) = 0, E (X1 X2 X3 ) = E (X1 ) E (X2 ) E (X3 ) = 0 y E (X1 X2 X3 X4 ) = E (X1 ) E (X2 ) E (X3 ) E (X4 ) = 0. Entonces

( 4) ( 2 ) ( 2 )) 1 ( ( 4) E X n = 4 nE X1 + 3n(n 1)E X1 E X2 n
por lo que
+ + ( 4) 1 E Xn < +. n2 n=1 n=1

Trabajando con desigualdades ms nas, lo cual lleva ms trabajo, es posible demostrar que vale el mismo teorema slo pidiendo que X L1 . Por lo tanto cuando sea necesaria aplicar la ley, lo haremos simplemente vericando que X L1 . Si las variables {Xn }nN son i.i.d con distribucin como la de cierta X L1 , entonces, / tambin tenemos una versin de la ley fuerte. ( ) Teorema 8.12. Dado un , A, P espacio de probabilidad. Si las variables aleatorias {Xn }nN son i.i.d con distribucin como la de cierta X tal que E (|X|) = +,
entonces limsup

X n = +

c.s.

( ) Como E (|X|) = +, entonces E |X| = + para todo k = 1, 2, 3, ... Entonces k ) + ( |X| n = +, para todo k = 1, 2, 3, ... n=1 P k Como las variables son idnticamente distribuidas, tenemos que
+ n=1

Demostracin.

( P

) ( ) ( ) + + |Xn | |Xn | |X| n = P n = P k = + para todo k = 1, 2, 3, ... k k n n=1 n=1

{ } (k) Fijado k , se tiene que los sucesos An = |Xn | k son independientes, luego, por n el lema de Borel-Cantelli se tiene que ( ) P ocurren innitos A(k) = 1 para todo k = 1, 2, 3, ... n
Entonces, si denimos Bk = ocurren innitos An , tenemos que P (Bk ) = 1 para todo k = 1, 2, 3, ... y como interseccin numerable de sucesos de probabilidad 1, tiene (+ ) probabilidad 1, obtenemos que P k=1 Bk = 1. 81
(k)

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.

(k) Observamos adems que B = + B} = ocurre An ({ para innitos valores de n, para k=1 k {{ } } ) |Xn | |Xn | todo k "= es no acotada . Entonces P es no acotada = 1. n n nN } nN { |Xn | Ya que existe probabilidad 1 de que la sucesin sea no acotada, para n
terminar la prueba, denimos Sn ={ 1 + X2 + ... + Xn , y bastar con probar que si X { } } |Xn | es no acotada, entonces X n = |Sn | es no acotada. n n nN nN { { } } |Sn1 | |Sn | acotada, entonces tambin lo sera ya Efectivamente, si fuera n n que |Sn1 | = n tanto { }
|Xn | n |Sn1 | n1 , n1 n nN

entonces,

nN |Xn | n

|Sn Sn1 | n

|Sn | n

|Sn1 | , n

nN

sera acotada, por lo

nN

es acotada lo cual es absurdo.

8.2.1.

Aplicaciones.

La cantidad de aplicaciones de la ley fuerte es enorme, veremos en lo que sigue, a modo de ejemplo, algunos corolarios de la ley a modo de aplicacin de la misma.

Corolario 8.13. Si las variables aleatorias {Xn }nN son i.i.d con distribucin Ber(p),
entonces

X n p.
Es obvia ya que las variables Ber(p) estn en L1 y son tales que E (X) = p. Frecuentemente, en estadstica, se tiene un muestreo de alguna variable aleatoria cuya funcin de distribucin es desconocida. Se desea estimar a la funcin FX dada una muestra aleatoria simple X1 , X2 , ..., Xn . Supongamos entonces que tenemos X1 , X2 , ..., Xn , variables aleatorias i.i.d con distribucin como la de X. Se dene a la distribucin emprica asociada a la muestra, a 1 la funcin Fn : R R tal que Fn (x) = n n 1(,x] (Xi ) . i=1 Observamos que 1(,x] (X1 ) , 1(,x] (X2 ) , ..., 1(,x] (Xn ) son independientes (porque las Xi lo son) con distribucin Ber(p = FX (x)) . Observamos que Fn : R R es una funcin de distribucin escalonada, con saltos en los Xi y donde cada salto es de longitud 1/n (en el caso en que las Xi sean todas distintas).

c.s.

Demostracin.

Corolario 8.14.
Fn

Aplicacin estadstica: estimacin de una funcin de distribucin desconocida.


converge puntualmente a

FX . x R,
entonces

Demostracin.
Aplicamos la ley fuerte de los grandes nmeros, se cumple que jado ( ) c.s. Fn (x) E 1(,x] (X) = FX (x).

82

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.

Corolario 8.15.
Dadas

f : [a, b] R

Clculo de integrales mediante nmeros aleatorios.


continua, y

{Xn }nN
n

i.i.d con distribucin

U (a, b) .

Entonces

ba c.s. f (Xi ) n i=1

f (x)dx.

Si denimos para cada n las variables Yn = (b a)f (Xn ) , entonces, tendremos que {Yn }nN son i.i.d en L1 ya que f es continua. Entonces, por la ley fuerte de los grandes nmeros tendremos que

Demostracin.

Y n E (Y ) = E [(b a)f (Xn )] = (b a)


a

c.s.

1 f (x) dx = ba

f (x)dx.

Dado un nmero x (0, 1) podemos escribirlo en su expresin binaria como x = + xn donde xi {0, 1} para todo i = 1, 2, 3, ... Si truncamos el nmero x a sus 2n n=1 primeras n cifras en su expansin binaria (sumamos hasta n), observamos que xn = x1 +x2 +...+xn es el porcentaje de veces que aparece el 1, entre los primeros n trminos. n El nmero x se dice normal respecto a la base 2, si xn 1/2. Probaremos que casi todo punto se elige un nmero aleatorio en de nmeros normales tiene

Corolario 8.16.

Nmeros normales.

(0, 1) es normal respecto a la base 2 (es decir que si (0, 1) con distribucin uniforme, entonces el conjunto probabilidad 1).
+ n=1 xn 2n

Demostracin.
Dado x (0, 1), escribimos x =

donde xi {0, 1} para todo i = 1, 2, 3, ...

Observamos que xn = 0 en una unin de 2n1 intervalos de longitud (1/2)n y xn = 1 en la unin de los restantes 2n1 intervalos de longitud (1/2)n . Consideramos el siguiente espacio de probabilidad. = (0, 1), sigma = B(0,1) y P denida mediante la distribucin uniforme. Denimos la sucesin de variables aleatorias Xn : (0, 1) R tales que Xn (x) = xn . Entonces, la probabilidad de que Xn tome el valor 1 es la suma de las longitudes de los 2n1 intervalos disjuntos de longitud (1/2)n lo que es igual a 1/2. Esto prueba que Xn Ber(p = 1/2) para todo n. Adems las variables son independientes ya que

P (Xn1 = 1 , Xn2 = 2 , ..., Xnk = k ) =

1 = P (Xn1 = 1 ) P (Xn2 = 2 ) ...P (Xnk = k ) 2k

cualesquiera sean k , 1 , 2 , ..., k {0, 1} y n1 < n2 < ... < nk . Hemos probado entonces que la sucesin {Xn }nN son variables i.i.d con distribucin Ber(p = 1/2) por lo tanto, la ley fuerte de los grandes nmeros nos asegura que c.s. X n p = 1/2 lo cual signica que casi todo nmero real perteneciente al intervalo (0, 1) es normal respecto a la base 2. De similar forma, se prueba que si se dene nmero normal respecto a la la base 83

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.

k , cuando el porcentaje de apariciones de cualquier j {0, 1, 2, ..., k 1} converge a 1/k , entonces casi todo nmero (0, 1) es normal respecto a la base k. Por ejemplo, en el caso en que k = 10, tenemos que casi todo punto es normal respecto a su expansin decimal lo cual signica que el promedio de apariciones de los dgitos 0, 1, 2, ..., 9 en su expansin decimal tiende a 1/10.

8.3. Convergencia en distribucin.


Apuntamos en lo que sigue a otro concepto de convergencia, de gran utilidad que es la convergencia en distribucin. La idea, de la misma es que cuando n tienda a innito, la funcin de distribucin de las Xn converja a la funcin de distribucin puntualmente en algn conjunto. En el siguiente ejemplo, veremos que la convergencia puntual de Fn (x) a F (x) es muy restrictiva si la pedimos para todo x.

Ejemplo 8.17. Si {cn }nN R es una sucesin decreciente tal que cn c y denimos
para cada n las variables Xn = cn y X = c, desearamos tener una denicin de convergencia en distribucin tal que Xn converja a X. Las funciones de distribucin de estas variables son { { 0 si x < cn 0 si x < c . FXn (x) = y FX (x) = 1 si x c 1 si x cn Como se ve, FXn (c) = 0 no tiende a FX (c) = 1, mientras que FXn (x) FX (x) para todo x = c. Como se observa, c es el nico punto de discontinuidad de FX . Cuntos puntos de discontinuidad puede tener una cierta funcin de distribucin? Si F : R R es una funcin de distribucin, veremos que admite a lo sumo una cantidad numerable de discontinuidades. Para demostrarlo, observamos que

{x R : F es discontinua en x} =

+ n=1

x R : F (x) F (x ) 1/n

adems, para cada n, el conjunto {x R : F (x) F (x ) 1/n} tiene a lo sumo n elementos, puesto que dado que F es creciente y acotada entre 0 y 1, la suma de los saltos de distintos puntos de discontinuidad no puede exceder a 1. Por lo tanto el conjunto de puntos de discontinuidad de F es numerable por ser unin numerable de conjuntos nitos. Se deja como ejercicio vericar que si F : R R es montona entonces el conjunto de sus puntos de discontinuidad es a lo sumo numerable.

Denicin 8.18. Convergencia en distribucin. (

) Dadas {Xn }nN variables aleatorias denidas en n , An , Pn espacios de probabili( ) dad, y X variable aleatoria denida en cierto , A, P espacio de probabilidad. Se dice que la sucesin {Xn }nN converge en distribucin a X si y slo si
n+

lim FXn (x) = FX (x) para todo x punto de continuidad de FX . 84

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin. Notacin: Xn X. Tambin se dice que la sucesin {Xn }nN converge dbilmente a X, o tambin que FXn converge dbilmente a FX .
d

Observacin 8.19. Como se ve en la denicin, no es necesario que las variables Xn


y

esten todas denidas en el mismo espacio de probabilidad, ya que lo que importa,

es que la convergencia se de entre sus funciones de distribucin que son funciones de

en

R.

Veremos en el siguiente teorema que cuando trabajamos sobre un mismo espacio de probabilidad, la nocin de convergencia en distribucin es an ms dbil que la nocin de convergencia en probabilidad.

Teorema 8.20.
aleatoria

Dadas una sucesin de variables aleatorias

denidas sobre cierto Si

, A, P

{Xn }nN

y una variable

espacio de probabilidad.

Xn X

entonces

Xn X.

Demostracin.

Dado x punto de continuidad de FX . Fijamos > 0 y le llamamos An, = {X < Xn < X + } . Entonces ( ) FXn (x) = P (Xn x) = P ({Xn x} An, ) + P {Xn x} Ac . n, Con respecto al primer sumando, tenemos que

P ({Xn x} An, ) P ({X x} An, ) P (X x) = FX (x + ).


Entonces tenemos que

( ) FXn (x) FX (x + ) + P {Xn x} Ac . n, ( ) Tomando lmite en n, el segundo sumando tiende a cero (ya que P Ac n, tiende a cero), por lo que obtenemos la desigualdad FXn (x) FX (x + ) vlida para todo > 0. Luego, tomamos lmite cuando 0+ y usando que FX es continua por derecha, nos queda limsupFXn (x) FX (x).
n+

Para obtener una desigualdad en el otro sentido razonaremos en forma similar.

P ({Xn x} An, ) P ({X x } An, ) .


Entonces

) ( FXn (x) P ({X x } An, ) + P {Xn x} Ac . n,

85

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin. Si ahora tomamos lmite en n, obtenemos que para todo > 0, liminf FXn (x) FX (x ).
n+

Ahora usando que x es punto de continuidad de FX ,tomamos lmite cuando 0+ y obtenemos que liminf FXn (x) FX (x). Hemos probado entonces que
n+ n+

lim FXn (x) = FX (x).

Ahora veremos en el siguiente ejemplo que la convergencia en probabilidad es estrictamente ms fuerte que la convergencia en distribucin.

Ejemplo 8.21.

Denimos una sucesin de variables X, X1 , X2 , ..., Xn , ... i.i.d con d distribucin N (0, 1). Entonces Xn X ya que FXn = FX para todo n. Sin embargo la sucesin {Xn }nN no converge en probabilidad a X ya que Xn X tiene distribucin N (0, 2) para todo n (ya que es combinacin lineal de normales independientes), y por lo tanto ) ( ) ( P (|Xn X| ) = P ( Xn X ) = 2 2

esta probabilidad, no depende de n y es menor estricto que 1 por lo que no hay convergencia en probabilidad.

86

Captulo 9 Funciones caractersticas.


En este captulo deniremos un concepto que nos permitir seguir desarrollando el concepto de convergencia en distribucin, de hecho veremos ms caracterizaciones para esta nocin de convergencia, y nalizaremos con un teorema esencial en la teora y prctica: el teorema central del lmite. ( ) Denicin 9.1. Funcin caracterstica. Dado un , A, P espacio de probabilidad y X : R variable aleatoria, se dene la funcin caracterstica de X como ( ) X : R C tal que X (t) = E eitX .

Observacin 9.2.

eitX = cos(tX) + isen(tX), se tiene que + + ( itX ) itx E e = e dFX (x) = (cos(tx) + isen(tx)) dFX (x) =
Dado que

cos(tx)dFX (x) + i

sen(tx)dFX (x)

= E (cos(tX)) + iE (sen(tX)) . X
siempre existe ya que

Observacin 9.3.
para todo

La funcin caracterstica de

eitX = 1

t.
Si X Poisson(), entonces

Ejemplo 9.4.

X (t) = E e

itX

e dFX (x) =

itx

+ x=0

e pX (x) =

itx

+ x=0

eitx

e x = x!

+ (eit )x x=0

x!

= e ee = e(e
it

it 1

).

Como se ver ms adelante, la funcin caracterstica, juega un papel esencial en la teora de la convergencia en distribucin, convergencia clave en estadstica.

87

Captulo 9. Funciones caractersticas.

9.1. Propiedades.
En todas las siguientes propiedades, se supone dado un espacio de probabilidad ( ) , A, P y en l, una variable aleatoria X : R.

Proposicin 9.5. Demostracin. (


|X (t)| = E eitX )

|X (t)| 1

para todo

t R.

( ) E eitX = E (1) = 1. X (0) = 1.

Proposicin 9.6. Demostracin.


Obvia.

Proposicin 9.7.
aX+b (t) = eitb X (at)
para todo

t R.

Demostracin. (

) ( ) ( ) aX+b (t) = E eit(aX+b) = E eitaX eitb = eitb E eiatX = eitb X (at).

Proposicin 9.8. Demostracin.

Si

son independientes, entonces para todo

X+Y (t) = X (t)Y (t)

t R.

( ) ( ) ( ) ( ) X+Y (t) = E eit(X+Y ) = E eitX eitY = E eitX E eitY = X (t)Y (t) .


indep

Proposicin 9.9. Demostracin.

es uniformemente continua.

( )) ) ( ) ( ) ( ( X (t) X (s) = E eitX E eisX = E eitX eisX = E eisX ei(ts)X 1 . ) ( Si denimos g(h) = E eihX 1 , entonces ( )) ( )) ( ( = E eisX ei(ts)X 1 |X (t) X (s)| = E eisX ei(ts)X 1 ) ( E ei(ts)X 1 = g(t s).
Por lo tanto, bastar con ver que g es continua en cero, es decir que g(h) tiende a cero cuando h 0. Observamos que eihx 1 2 L1 , y como eihX 1 0 c.s, entonces por el ( h0 ) teorema de convergencia dominada, se tiene que lim E eihX 1 = 0.
h0

88

Captulo 9. Funciones caractersticas.

Proposicin 9.10.
adems

Si

X Lk

para cierto

k N, k 1.
para todo

Entonces

X C k

( ) (k) X (t) = ik E X k eitX

t R.

Demostracin.

La prueba se realiza por induccin. Probmoslo para k = 1. ( ) ( ) E ei(t+h)X E eitX X (t + h) X (t) = = h h ( ( ) ( )) E ei(t+h)X eitX eitX eihX 1 . =E h h Ahora, observamos que lim e
ihx 1

h 0.
Adems,

h0

= ix, por lo tanto x


0

eitX (eihX 1) c.s. h

iXeitX cuando

eitx (eihx 1) h

eihx 1 h

eihs ds

x
0

eihs ds = |x| para todos x, h

R. Entonces

eitX (eihX 1) h

|X| L1 , por lo tanto, usando el teorema de convergencia ( ( )) ( ) eitX eihX 1 = iE XeitX . h

dominada se deduce que

X (t + h) X (t) lim = lim E h0 h0 h

Se deja como ejercicio demostrar el paso inductivo y as completar la demostracin.

Observacin 9.11.
k
veces.

Si Si

X Lk

para cierto

asegura que podemos derivar respecto a la

k N, la variable t debajo

proposicin anterior nos del signo de la esperanza

Observacin 9.12. Si X Lk para cierto k N, k 1, entonces (j) (0) = ij E (X j ) X


k para todo j = 1, 2, 3, ..., k. En particular si X L para todo k N, entonces X C y adems quedan determinados todos los momentos de la variable X a

partir de

X .
Se deduce de la demostracin que en el caso en que es uniformemente continua.

Observacin 9.13.
cierto

X Lk

para

k,

entonces

Ejemplo 9.14.

Si X N (, 2 ), entonces

X (t) = eitt

2 2 /2

Para demostrarlo, en primer lugar probaremos que si X N (0, 1), probaremos que 2 X (t) = et /2 . Para lograrlo, demostraremos que si denimos la funcin h como 2 h(t) := et /2 X (t), entonces h(t) = 1 para todo t. Como h(0) = 1, bastar probar que h (t) = 0 para todo t. En efecto, dado que 89

Captulo 9. Funciones caractersticas. podemos derivar debajo del signo de esperanza en la funcin caracterstica, obtenemos ( ) ( ) ( ) 2 2 h (t) = tet /2 E eitX +et /2 E iXeitX . Entonces, resta probar que E (t + iX) eitX = 0.

E (t + iX) e

itX

1 = 2

(t + ix)e e

itx x2 /2

1 dx = 2

(t + ix)eitxx

2 /2

dx =

ieitxx

2 /2

|+ = 0.

Ahora, para demostrar el caso en que X N (, 2 ), escribimos X = Z + donde Z N (0, 1) . Entonces,

X (t) = Z+ (t) = eit Z (t) = eitt

2 2 /2

9.2. Frmula de inversin.


En esta seccin probaremos una frmula que nos pemite obtener FX si conocemos X , de aqu se deducir que la funcin caracterstica de una variable aleatoria, caracteriza a la funcin de distribucin, es decir que FX = FY si y slo si X = Y .

Teorema 9.15.

( ) Dado un , A, P espacio de probabilidad y X : R variable aleatoria, entonces 1 FX (x) = lim lim lim zx yh+ 2
h h

Frmula de inversin.

eity eitz X (t)dt para todo x, it

Demostracin.

donde los lmites en y y en z se realizan sobre puntos de continuidad de FX .

En primer lugar jamos y < z puntos de continuidad de FX . Denimos ) h ( + ity h ity e eitz itx e eitz X (t)dt = e dFX (x) dt. I(h) := it it h h Dado que la funcin integrando f (t, z) =
eity eitz itx e it

es continua, ya que lim e


t0

ity eitz

it

y (, por lo tanto |f (t, x)| c para todo (t, x) [h, h] R y entonces z ) h + |f (t, x)| dFX (x) dt 2hc, por lo que podemos intercambiar el orden de h + ( h eit(xy) eit(xz) ) integracin (Fubini), obteniendo que I(h) = dt dFX (x). it h
Ahora, observando que cos(at) es impar y sen(at) es par para todo a R, nos queda t t que ) + ( h h sent(x y) sent(x z) I(h) = 2 dt 2 dt dFX (x) = E (gh (X)) t t 0 0 90

Captulo 9. Funciones caractersticas.

h h siendo gh (x) = 2 0 sent(xy) dt 2 0 sent(xz) dt. t t Tomaremos lmite cuando h + y veremos que podemos aplicar el convergencia dominada. /2 + sen(at) 0 Utilizando el valor de la integral de Dirichlet 0 dt = t /2 entonces el lmite puntual de gh es
h+

teorema de si a > 0 si a = 0 , si a < 0

lim gh (x) = 21{y<x<z} + 1{x=y} + 1{x=z} .


sen(at) dt t

Observando que

h
0

sup
h>0

h
0

sent dt t

:= M , entonces
0 h

def

|gh (x)| = 2
0

sent(x y) dt 2 t

sent(x z) dt 4M t

entonces por el teorema de convergencia dominada se obtiene que ( ) lim I(h) = lim E (gh (X)) = E 21{y<X<z} + 1{X=y} + 1{X=z}
h+ h+

y como y, z son puntos de continuidad de FX entonces


h+

lim I(h) = 2P (y < X < z) = 2 (FX (z) FX (y)) .

Entonces

1 1 FX (z) FX (y) = lim I(h) = lim 2 h+ 2 h+

eity eitz X (t)dt. it

Si tomamos lmite cuando y (siendo y punto de continuidad de FX ) en la anterior igualdad, obtenemos h ity 1 e eitz FX (z) = lim lim X (t)dt para todo z punto de continuidad de FX . 2 yh+ h it Para concluir, basta jar cualquier x R y tomar lmite en la anterior igualdad cuando z x+ tomando z puntos de continuidad de FX (esto es posible debido a que por ser FX una funcin montona, la cantidad de puntos de discontinuidad es numerable). Entonces nos queda h ity 1 e eitz lim lim lim X (t)dt para todo x R, FX (x) = 2 zx+ yh+ h it donde el lmite en las variables y, z se hacen sobre puntos de continuidad de FX . ( ) Corolario 9.16. Dado un , A, P espacio de probabilidad y X, Y : R variables
aleatorias. Entonces

FX = FY

si y slo si

X = Y .

Demostracin.

Es consecuencia inmediata de la frmula de inversin. 91

Captulo 9. Funciones caractersticas.

9.3. Caracterizacin de la convergencia en distribucin.


En el siguiente teorema, probaremos que la convergencia en distribucin es equivalente a la convergencia puntual de las funciones caractersticas.

Teorema 9.17.
y

Si para cada

X : R es variable d (a) Xn X. (b) E (g (Xn )) E (g (X))


(c) Xn (t)
n+

n, Xn : R es variable aleatoria sobre (n , An , Pn ) aleatoria sobre (, A, P ). Entonces son equivalentes:


para toda

X (t)

n+

g:RR

continua y acotada.

para todo

t R.

Para simplicar la escritura, le llamamos Fn a la funcin de distribucin de las Xn y F a la funcin de distribucin de X . Tomemos g : R R continua y acotada, tal que |g(x)| c para todo x R, entonces para cualesquiera a < b, tenemos

Demostracin. (a) (b)

|E (g (Xn )) E (g (X))| =
+

gdFn
b

gdF
+

gdFn
a

gdFn +
a

gdFn
a

gdF

gdF +
a

gdF := I1 +I2 +I3 .

Fijemos un > 0 arbitrario. a + I3 = gdF + gdF


b

gdF +
b

gdF

|g| dF +
b

|g| dF

cdF +
b

cdF = c (F (a) + 1 F (b)) .

Dado que c (F (a) + 1 F (b)) 0 cuando a y b +, elegimos a sucientemente pequeo y b sucientemente grande tal que c (F (a) + 1 F (b)) < . Por conveniencia tomaremos a, b puntos de continuidad, ya que lo necesitaremos para acotar I1 e I2 . Acotamos de manera similar I1 y obtenemos

I1 =

gdFn
a

gdFn c (Fn (a) + 1 Fn (b)) .

Para los a y b obtenidos, dado que son puntos de continuidad de F , se deduce que c (Fn (a) + 1 Fn (b)) c (F (a) + 1 F (b)) < , por lo tanto existe k N tal que c (Fn (a) + 1 Fn (b)) < 2 para todo n k. Por ahora obtenemos I1 + I3 < 3 para todo n k. 92
n+

Captulo 9. Funciones caractersticas. Para culminar la demostracin, probaremos que I2 < 3 para todo n sucientemente grande. Como g es continua en [a, b], entonces es absolutamente continua, por lo que podemos elegir una particin de [a, b] , a = x0 < x1 < x2 < ... < xN = b tal que x1 , x2 , ..., xN 1 sean puntos de continuidad de FX y |g(x) g(xi )| < para todo x [xi , xi+1 ] para todo i = 0, 1, 2, ..., N 1.

I2 =
a

gdFn
a
def

gdF =

N 1 ( xi+1 i=0 xi

g(x)dFn (x)
xi+1

xi+1

) g(x)dF (x) .

xi

mni = (g(xi ) ) (Fn (xi+1 ) Fn (xi ))

g(x)dFn (x)

xi

(g(xi ) + ) (Fn (xi+1 ) Fn (xi )) = Mni xi+1 mi = (g(xi ) ) (F (xi+1 ) F (xi )) g(x)dF (x)
def def

xi

(g(xi ) + ) (F (xi+1 ) F (xi )) = Mi .


def

Entonces

mni Mi

xi+1 xi

g(x)dFn (x)

xi+1

g(x)dF (x) Mni mi

xi

y sumando en todos los intervalos, obtenemos que


N 1 i=0

(mni Mi )
a

g(x)dFn (x)
a

g(x)dF (x)

N 1 i=0

(Mni mi ) .

Ahora, observamos que como los xi son puntos de continuidad de FX , se obtiene que mni mi y Mni Mi para todo i = 0, 1, 2, ..., N 1, por lo que
n+ n+ N 1 i=0

(mni Mi )

N 1 i=0

n+

(mi Mi ) =

2
y

N 1 i=0

(F (xi+1 ) F (xi )) = 2 (F (b) F (a)) 2


N 1 i=0 N 1 i=0

(Mni mi )

n+

(Mi mi ) =

N 1 i=0

(F (xi+1 ) F (xi )) = 2 (F (b) F (a)) 2.

93

Captulo 9. Funciones caractersticas. Entonces a partir de cierto n sucientemente grande, se tiene que b b 3 g(x)dFn (x) g(x)dF (x) 3
a a

lo que prueba que I2 3 concluyendo as la prueba. (b) (c) Fijado t R, consideramos las funciones g1 (x) = sen (tx) y g2 (x) = cos(tx) ambas son continuas y acotadas, por lo que E (g1 (Xn )) = E (sen(tXn )) E (g1 (X)) =

E (sen(tX)) , y E (g2 (Xn )) = E (cos(tXn )) E (g2 (X)) = E (cos(tX)) . Entonces n+ ( itX ) ( itX ) n E e E e y como t es arbitrario, entonces Xn (t) X (t) para
todo t R. (c) (a) Nuevamente, por simplicidad, le llamamos Fn a la funcin de distribucin de Xn d y F a la funcin de distribucin de X. Para demostrar que Fn F , bastar con d probar que existe una subsucesin tal que Fnj F. Esto se debe a que una vez probado que Fnj F, si {Fn }nN no convergiera dbilmente a F , entonces, existira x0 punto de continuidad de F tal que Fn (x0 ) F (x0 ), entonces como {Fn (x0 )}nN es una sucesin acotada, existe una subsucesin {Fnk }kN tal que Fnk (x0 ) a para cierto a = F (x0 ). Entonces extraemos una subsucesin de {Fnk }kN , que converge dbilmente a F , Fnkj F. Entonces, dado que x0 es punto de continuidad de F , se { } tendra que Fnkj (x0 ) F (x0 ), pero Fnkj (x0 ) es subsucesin de {Fnk (x0 )}kN y por lo tanto Fnkj (x0 ) a = F (x0 ), lo cual es absurdo. j+ { } d En lo que sigue, construiremos una subsucesin Fnj jN de {Fn }nN tal que Fnj F. Consideramos una numeracin de los racionales, Q = {qk }kN . Para cada k , existe una subsucesin de {Fn (qk )}nN que es convergente, llammosle gk a dicho lmite. Mediante el procedimiento de la diagonal, podemos asegurar que existe una sucesin de naturales n1 < n2 < ... < nj < ... tal que Fnj (qk ) g(qk ) para todo k. j+ { g(qk ) si x = qk Denimos la funcin G : R R tal que G(x) = lim g(q) si x Q . En / primer lugar debemos ver que G est bien denida, es decir que existe el lmite para el caso en que x es irracional. Para ello, observamos que G restringida a Q, es montona creciente, esto se debe a que si q < q entonces Fnj (q) Fnj (q ) para todo j , luego, se toma lmite en j . De aqu se deduce que G es montona creciente. Podra no ser continua por derecha, pero veamos en lo que sigue, que Fnj (x) G(x) en todo punto de continuidad de G. En efecto, si x es punto de continuidad de G, entonces, dado > 0, existen dos racionales q y q tales que q < x < q con G(q ) < G(x) < G(q) + , entonces
j+ qx qQ j+ jN d k+ d n+ n+

n+

G(x) < G(q) = lim Fnj (q) liminf Fnj (x)


j+

94

Captulo 9. Funciones caractersticas. limsup Fnj (x) lim Fnj (q ) = G(q ) < G(x) +
j+

de donde se deduce que lim Fnj (x) = G(x). En los puntos donde G no sea continua,
j+

la podemos redenir de modo que quede continua por derecha (esto es posible porque G es creciente). Probaremos que sta funcin G redenida de modo que quede continua por derecha, es una funcin de distribucin, para lo cual bastar ver que tiene lmites 0 y 1 a y + respectivamente. Como Xnj X en todo punto, entonces, por el teorema de convergencia dominada dado que Xnj (s) 1 para todo s, obtenemos

Xnj (s)ds
j+ 0

X (s)ds para todo t.

Por otro lado, observamos que ) t t ( + Fubini isu X (s)ds = e dF (u) ds =


0 0

(
0

isu

) ds dF (u) =

eiut 1 iu

dF (u).

Adems, observando que la demostracin de que (a) (b) sigue valiendo si la convergencia dbil, es denida sobre funciones acotadas, si denimos gt : R R tal que iut gt (u) = e iu1 , entonces, dado que para todo t, gt es continua y acotada, se tiene que ( ) E gt (Xnj ) E (gt (X)), es decir
j+

eiut 1 iu

) dFnj (u)
j+

eiut 1 iu

) dG(u) para todo t. ) dG (u) ds

Entonces obtuvimos t t ( X (s)ds =


0 0

isu

) t ( dF (u) ds =
0

isu

para todo t. Luego

1 t

1 X (s)ds = t

eiut 1 iu

) dG(u)

+ y tomando lmite cuando t 0 se obtiene que 1 = (0) = dG(u) = G (+) G () y como adems G es creciente y acotada entre 0 y 1, entonces necesariamente G (+) = 1 y G () = 0. Se concluye entonces que G es una funcin de distribucin. d Ahora, como tenemos que Fnj G, sabemos que existe un espacio de probabilidad y en l una variable aleatoria Y tal que G = FY . Como (a) implica (c), se deduce que
95

Captulo 9. Funciones caractersticas.

Xn (t)

por lo tanto X = Y , lo cual implica que FX = FY , es decir F = G. d Queda probado hasta ahora que existe una subsucesin de {Fn }nN tal que Fnj F. Para concluir la prueba debemos ver que Fn F. Ahora, si {Fn }nN no convergiera en distribucin a F , entonces existira a R punto de continuidad de F y una sub{ } { } sucesin Fnj jN tal que Fnj (a) F (a). Podemos suponer que Fnj (a) jN es convergente ya que de lo contrario como es una sucesin acotada en R, admiitira una subsucesin convergente y trabajaramos con dicha subsucesin si fuera necesario. Suponemos entonces que lim Fnj (a) = b = F (a). Por lo recin probado, existe una j+ { } subsucesin de Fnj jN que converge en distribucin a cierta funcin de distribucin G. Observamos adems que debe ser G = F ya que por hiptesis, las funciones caractersticas asociadas a esta subsucesin convergen a la funcin caracterstica asociada a F . Entonces como a es punto de continuidad de F, esta subsucesin evaluada en a, { } debera converger a F (a), pero por ser subsucesin de Fnj (a) jN converge a b.
j+ d

n+

Y (t) para todo t, pero por hiptesis Xn (t)

n+

X (t) para todo t,

9.4. Teorema Central del Lmite.


El teorema central del lmite es un equivalente en importancia a la ley de los grandes nmeros en lo que respecta al lmite en distribucin de la sucesin X n .

Teorema 9.18. Si {Xn }n1 es una sucesin de v.a.i.i.d con distribucin FX , X L2 ,


E (X) = , V (X) = 2 .
Entonces

Demostracin.

) ( n Xn d N (0, 1) .

Suponemos en un primer caso que = 0 y = 1. 2 Recordando que la funcin caracterstica de N (0, 1) es (t) = et /2 para todo t R, y usando el teorema que caracteriza la convergencia en distribucin mediante la convergencia de las funciones caractersticas para todo t, bastar probar que

nX n (t) et
n+

2 /2

t R.

Usando que aX (t) = X (at) y luego que las Xi son independientes e idnticamente distribudas, se obtiene

nX n

(t) = X1 +X2 +...+Xn


n

n ( ) [ ( )]n ( ) Xi t/ n = X t/ n . (t) = X1 +X2 +...+Xn t/ n = i=1

Ahora si tenemos en cuenta que admite dos derivadas continuas (ya que X L2 ) desarrollamos por Taylor alrededor de cero y obtenemos

X (ct ) t2 X (t) = X (0) + X (0) t + donde |ct | |t| 2


96

Captulo 9. Funciones caractersticas. Pero X (0) = 1, X (0) = iE (X) = 0, X (0) = E (X 2 ) = 1, entonces queda [ ( )]n [ ]n (ct,n ) 2 n ln 1+ X 2n t t X (ct,n ) 2 nXn (t) = X = 1+ t =e . 2n n Ahora, teniendo en cuenta que X es continua y que |ct,n | |t| / n, se deduce que X (ct,n ) X (0) = 1. Entonces
n+ (ct,n ) 2 n ln 1+ X 2n t

n+

lim nXn (t) = lim e


n+

= lim en
n+

X (ct,n ) 2 t 2n

= et

2 /2

lo que concluye la prueba en el caso = 0 y = 1. El caso general se deduce deniendo las variables Yn := Xn . Entonces {Yn }n1 es una sucesin de v.a.i.i.d con distribucin FY , Y L2 , E (Y ) = 0, V (Y ) = 1. Entonces d se tiene que nYn = n X n N (0, 1) lo que concluye la prueba.

Observacin 9.19. Si X1 , X2 , ... son variables i.i.d en L2 con esperanza y varianza


2,
el teorema central del lmite nos dice que

n+

lim

) n( Xn x ) (

) = (x) .

Entonces, si

) aprox P = P Xn + x (x) n ( ) luego, si le llamamos t = + x, entonces FX n (t) n (t ) que es la funcin n ) n( Xn x


de distribucin de una variable

es sucientemente grande, podemos realizar la siguiente aproximacin

N (, 2 /n) ,

por lo tanto si

grande, entonces podemos aproximar la distribucin de

n es sucientemente X n por N (, 2 /n) . n es suX1 + X2 + ... + Xn por

Observacin 9.20.
N (n, n ) .

A partir de la observacin anterior deducimos que, si

cientemente grande, podemos aproximar la distribucin de 2

Ejemplo 9.21. Si X Bin(n, p) y n es sucientemente grande, entonces X es aproximadamente N (np, np(1 p)) ya que podemos escribir X como X = X1 +X2 +...+Xn donde X1 , X2 , ..., Xn son i.i.d Ber(p) . Si tiramos 100 veces una moneda, calcularemos de manera aproximada mediante le empleo del teormea central del lmite la probabilidad de obtener entre 40 y 60 caras. Para el clculo, denimos X = antidad de caras en los 100 lanzamientos", entonces X Bin(n = 100, p = 1/2). Deseamos hallar P (40 X 60) . Dado que np = 50 y np(1 p) = 25, tenemos que la distribucin de X es) aproximadamente N (50; 25) y ) ( ( por lo tanto P (40 X 60) 6050 4050 = 0, 954 50. El valor exacto en = 5 5 este caso es 0,9648. 97

Ejemplo 9.22.

Captulo 9. Funciones caractersticas. Como aplicacin, podemos volver a calcular n, de forma aproximada, tal que ( ) P X n p 0, 01 0, 95 para el caso en que X1 , X2 , ..., Xn son i.i.d Ber(p). Esto ya fue resuelto como aplicacin de la desigualdad de Chebyshev, ahora podremos dar otra solucin, aproximada, mediante el empleo del teorema central del lmite. Aproximando la distribucin de X n por N (p, p(1 p)/n) obtenemos ( ) ( ) P X n p 0, 01 = P p 0, 01 X n p + 0, 01 =

( ( ) ) ) 0, 01 n 0, 01 n 0, 01 n = 2 1 p(1 p) p(1 p) p(1 p)

y usando que p(1 p) 1/4 obtenemos ( ) ( ) 0, 01 n 1 2 0, 02 n 1 2 p(1 p)

por lo que bastar con hallar n tal que 2 (0, 02 n) 1 0, 95 lo cual se cumple si ( )2 1,96 y slo si 0, 02 n 1 (0, 975) = 1, 96, es decir que basta con tomar n 0,02 = 9604.

Observacin 9.23.
un valor de

El hecho de que aplicando el teorema central del lmite, resulte

(aunque aproximado) notoriamente ms pequeo que el obtenido por

aplicacin de la desigualdad de Chebyshev, se debe a que como ya fue dicho en su momento, la desigualdad de Chebysehv es una desigualdad universal, aplicable a toda 2 variable aleatoria en L y por lo tanto es natural esperar que en ciertas situaciones nos de acotaciones groseras de la probabilidad buscada.

98

Captulo 10 Estimacin puntual.


10.1. Estadsticos y estimadores.
Cuando X1 , X2 , ..., Xn son variables i.i.d con distribucin como la de cierta X , se dice que X1 , X2 , ..., Xn es una M.A.S (muestra aleatoria simple) de tamao n de X . En estadstica aplicada, es frecuente encontrarse con nmeros x1 , x2 , ..., xn producto de un muestreo sobre alguna caracterstica de cierta poblacin, por ejemplo, ingreso de los hogares de cierta ciudad, dimetro de las clulas de cierta poblacin observada al microscopio, altura o peso de ciertos animales, etc. En todas estas situaciones, la variable a estudiar, no se conoce su distribucin, por lo que interesa manipular la informacin que nos brinda la muestra x1 , x2 , ..., xn para poder estimar diversos parmetros de inters. Si X1 , X2 , ..., Xn es una M.A.S de cierta X para un determinado n, se le llama estadstico a la funcin T (X1 , X2 , ..., Xn ) : Rk para cierto k, donde T : Rn Rk es una funcin boreliana que no depende de parmetros desconocidos. Se pide que la funcin T sea boreliana para que T (X1 , X2 , ..., Xn ) sea variable aleatoria, y se pide que no dependa de parmetros desconocidos porque dada una muestra realizada (u observada) x1 , x2 , ..., xn , el valor T (x1 , x2 , ..., xn ) pueda ser utilizado para estimar parmetros desconocidos por ejemplo.

Denicin 10.1.

Denicin 10.2. Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, )


con Rk . Al conjunto se le denomina espacio paramtrico. Cuando tenemos X1 , X2 , ..., Xn una M.A.S de cierta X con distribucin FX (x, ) con Rk , es decir que la distribucin de la variable de estudio (X ) es completamente conocida salvo por un parmetro , se dice que estamos en estadstica paramtrica, mientras que si la distribucin de X es totalmente desconocida, estamos en presencia de estadstica no paramtrica.

99

Captulo 10.

Estimacin puntual.

Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, ) con Rk , se dice que : es un estimador de si y slo si (X1 , X2 , ..., Xn ) es un estadstico que es usado para estimar el verdadero valor de . En general para abreviar, le llamaremos a (X1 , X2 , ..., Xn ) . Observamos que depende de n y es importante tener un estimador que cumpla propiedades de convergencia al verdadero valor de cuando el tamao de muestra n +. Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, ) con Rk , se dice que = (X1 , X2 , ..., Xn ) es un estimador dbilmente consistente si y slo si P c.s. y se dice que es fuertemente consistente si y slo si . Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, ) con Rk , ( ) se dice que = (X1 , X2 , ..., Xn ) es un estimador insesgado si y slo si E = y ( ) asintticamente insesgado si y slo si lim E = .
n+

Denicin 10.3. Estimador.

Denicin 10.4. Estimador consistente.

Denicin 10.5. Estimador insesgado.

Si X1 , X2 , ..., Xn es una M.A.S de cierta X L1 , por la ley fuerte de los grandes c.s. nmeros, sabemos que X n = E (X) lo cual nos dice que = X n es un estimador ( ) fuertemente consistente de , adems, sabemos que E X n = lo que prueba que el estimador es adems insesgado. Por otro lado, si X L2 , el estimador natural de 2 es la varianza muestral, es decir n )2 ( 1 2 2 c.s. Sn = n Xi X n , se deja como ejercicio vericar que Sn 2 , lo cual prueba
i=1 2 que = Sn es un estimador fuertemente consistente de 2 , adems se deja como 2 ejercicio tambin vericar que E (Sn ) = n1 2 lo que prueba que es asintticamente n insesgado. n )2 ( n 1 2 Xi X n es un estimador fuertemente consistente Se observa que n1 Sn = n1

y adems insesgado de 2 .

i=1

10.2. Mtodos de estimacin.


Ya vimos que podemos estimar de manera fuertemente consistente e insesgada, a la esperanza y la varianza de una variable aletoria. Ahora cmo se estima otro tipo de parmetros? Sera importante tener mtodos que nos permitan obtener estimadores, por lo que veremos los dos ms populares, el mtodo de los momentos y el de mxima verosimilitud.

100

Captulo 10.
10.2.1. Mtodo de los momentos.

Estimacin puntual.

Si X1 , X2 , ..., Xn es una M.A.S de cierta X Lk con distribucin FX (x, ) con Rk entonces se plantean las siguientes k ecuaciones E (X) = X n n E (X 2 ) = 1 X 2 i n i=1 Observamos que las k igualdades se pueden ver como un . . ( ) . n E Xk = 1 Xk i n sistema de k ecuaciones con k incgnitas, donde las incgnitas son 1 , 2 , ..., k que aparecen del lado izquierdo en las igualdades, ya que al depender la distribucin de ( ) X de los parmetros 1 , 2 , ..., k , entonces sus momentos E (X) , E (X 2 ) , ..., E X k quedan en funcin de 1 , 2 , ..., k . Si estas k ecuaciones con k incgnitas, admitieran una solucin, 1 , 2 , ..., k , esta n n 2 k 1 1 Xi , ..., n Xi quedando as los llamados solucin quedar en funcin de X n , n estimadores por momentos de 1 , 2 , ..., k . Se observa que ste mtodo est basado en la ley de los grandes nmeros ya que la n 2 1 misma nos arma que X n converge casi seguramente a E (X) , n Xi converge casi seguramente a E (X
2 1 ) ... n n i=1 i=1 i=1 i=1

Xik

) converge casi seguramente a E X k por lo que pa-

i=1

rece natural pensar que si este sistema admite solucin, la misma se debera esperar que sea fuertemente consistente. Si X1 , X2 , ..., Xn es una M.A.S de cierta X U (0, b) entonces para hallar el estimador por el mtodo de los momentos, dado que hay un slo parmetro a estimar, planteamos una ecuacin con una incgnita: E (X) = X n , la misma nos b queda 2 = X n por lo que el estimador por momentos de b nos queda b = 2X n . Como se observa en este caso, el estimador queda fuertemente consistente ya que

Ejemplo 10.6.

X n E (X) =

c.s.

Adems es insegado ya que ( ) ( ) ( ) b E b = E 2X n = 2E X n = 2 = b. 2 Bajo ciertas hiptesis de regularidad, se puede probar que el estimador de un parmetro = (1 , 2 , ..., k ) por momentos, en caso de existir es fuertemente consistente y asintticamente insesgado.
10.2.2. Mtodo de mxima verosimilitud.

b c.s. b por lo que 2X n 2 = b. 2 2

Si X1 , X2 , ..., Xn es una M.A.S de cierta X discreta con funcin de probabilidad pX (x, ) ( o absolutamente continua con funcin de densidad fX (x, )) se dene la 101

Captulo 10.

Estimacin puntual.
n i=1

funcin de verosimilitud de la muestra a la funcin L (x1 , x2 , ..., xn , ) = o L (x1 , x2 , ..., xn , ) =


n i=1

pX (xi , )

fX (xi , ) segn el caso.

El mtodo de mxima verosimilitud, consiste en resolver el siguiente problema de optimizacin: dada X1 , X2 , ..., Xn M.A.S de cierta X con distribucin FX (x, ) con Rk el estimador mximo verosmil de es la solucin al problema (si existe)

= arg max L (X1 , X2 , ..., Xn , ) .

Es decir que para hallar el estimador mximo verosmil de , se debe maximizar la funcin L (X1 , X2 , ..., Xn , ) como funcin de (generalmente se la llama L () para recordar que miramos la funcin de veosimilitud como funcin de ) y luego el valor de donde se obtiene dicho mximo (que depende de la muestra) es el estimador buscado. Dado que la funcin logaritmo es creciente, el valor de donde se maximiza L () es el mismo que el valor de donde se maximiza h () =log L () (el logaritmo es neperiano) muchas veces es ms sencillo maximizar h. Supongamos que luego de realizado el muestreo, obtuvimos la muestra (x1 , x2 , ..., xn ) es decir que (x1 , x2 , ..., xn ) es la realizacin de una M.A.S (X1 , X2 , ..., Xn ) . Supongamos adems que X es discreta con funcin de probabilidad pX (x, ), entonces

L (x1 , x2 , ..., xn , ) =

n i=1

pX (xi , ) =

n i=1

P (X = xi , ) =

i.d.

n i=1

P (Xi = xi , ) =

indep

P (X1 = x1 , X2 = x2 , ..., Xn = xn , ) = P ((X1 , X2 , ..., Xn ) = (x1 , x2 , ..., xn )) .


Es decir que la funcin de verosimilitud es la probabilidad (en funcin de ) de que la muestra (X1 , X2 , ..., Xn ) sea (x1 , x2 , ..., xn ), que es la muestra realmente observada. Entonces, dado que es intuitivo, aunque no necesariamente cierto, pensar de que si se observ la muestra (x1 , x2 , ..., xn ) , entonces la misma, debera tener una probabilidad alta de ocurrir, por lo tanto como mtodo se busca aquel valor de donde se maximice esta probabilidad. Podra no existir el estimador mximo verosmil en algunas situaciones, pero vale la pena observar que si bien la funcin L podra no tener mximo, al menos en el caso discreto es acotada superiormente, por lo que admite supremo.

Ejemplo 10.7.
n i=1

Si X1 , X2 , ..., Xn M.A.S de X Ber(p), hallaremos el estimador mximo verosmil de p.


n i=1 n i=1

h(p) =

log pX (xi , p) =

log p (1 p)
xi

1xi

[xi logp + (1 xi ) log (1 p)] =

102

Captulo 10.
n i=1

Estimacin puntual.

( xi log p +
n i=1

n i=1

) xi log (1 p) .
n i=1

Luego,

h (p) =

1 xi p
1 n n i=1

( n

) xi

1 . 1p

Entonces h (p) = 0 si y slo si p =

xi = x. Dado que para cada i se tiene que

xi {0, 1}, entonces X n {0, 1} para todo n, entonces analizando el signo de h vemos que h se maximiza para p = X n .

Ejemplo 10.8.
n i=1

Si X1 , X2 , ..., Xn M.A.S de X U (0, b), hallaremos el estimador mximo verosmil de b.

L (b) =

{ n { 1/b si 0 < xi < b 1/bn si 0 < x1 , x2 , ..., xn < b . = fX (xi , ) = 0 si no 0 si no


i=1

Dado que L es una funcin decreciente cuando b > x1 , x2 , ..., xn (es decir cuando b >max{x1 , x2 , ..., xn }) y 0 cuando no, se deduce que la funcin L se optimiza para b =max {X1 , X2 , ..., Xn } . Bajo ciertas condiciones de regularidad, es posible demostrar que existe el estimador mximo verosmil y es fuertemente consistente, tambin es posible demostrar la convergencia en distribucin a una variable normal.

103

Captulo 11 Intervalos de conanza.


11.1. Denicin.
Dada una X1 , X2 , ..., Xn muestra aleatoria simple de X cuya funcin de distribucin es FX (x, ) siendo R, en lugar de estimar el parmetro dando un valor numrico a partir de los datos de la muestra, daremos una regin (en general un intervalo) con probabilidad tan alta como se desee de que el verdadero parmetro pertenezca a dicha regin (intervalo).

Denicin 11.1.

Si X1 , X2 , ..., Xn es una muestra aleatoria simple de X cuya funcin de distribucin es FX (x, ) siendo R. Dado (0, 1), supongamos que a (X1 , X2 , ..., Xn ) y b (X1 , X2 , ..., Xn ) son dos estadsticos tales que P ( [a (X1 , X2 , ..., Xn ) ; b (X1 , X2 , ..., Xn )]) = 1 , diremos entonces que I = [a (X1 , X2 , ..., Xn ) ; b (X1 , X2 , ..., Xn )] es un intervalo de conanza de nivel 1 para el parmetro .

Observacin 11.2. Observamos que en la prctica el valor de (o equivalentemente


el nivel de conanza valor jo.

1 )

est determinado por el investigador, por lo que es un

Observacin 11.3.

X1 , X2 , ..., Xn es realizada en los nmeros x1 , x2 , ..., xn , el intervalo I = [a(x1 , x2 , ..., xn ); b(x1 , x2 , ..., xn )] no es aleatorio y por lo tanto, la probabilidad de que I es 0 o 1 segn el parmetro I o I , entonces vale observar que el intervalo / I = [a(X1 , X2 , ..., Xn ); b(X1 , X2 , ..., Xn )] es aleatorio, mientras que el intervalo I = [a(x1 , x2 , ..., xn ); b(x1 , x2 , ..., xn )] es jo, para distinguir una situacin de otra, se le
Observemos tambin que una vez que la muestra suele llamar a ste ltimo, intervalo de conanza mientras que al otro se le suele denominar intervalo aleatorio. En lo que sigue, seremos informales en la escritura y les llamaremos a ambos intervalos de conanza, a pesar de que debemos tener clara su diferencia.

104

Captulo 11.

Intervalos de conanza.

11.2. Construccin de intervalos de conanza en algunos casos particulares.


En esta seccin, construiremos intervalos de conanza en algunos casos particulares. Si X1 , X2 , ..., Xn es una muestra de X N (, 2 ). Supongamos que conocemos 2 . Construiremos un intervalo de conanza para el parmetro desconocido . c.s. Sabemos por la ley fuerte de los grandes nmeros que X n , por lo que es razonable ] [ formar un intervalo de la forma X n k; X n + k siempre y cuando podamos hallar ( [ ]) k de modo que P X n k; X n + k = 1 cumpliendo adems que k no dependa de parmetros desconocidos. Recordamos que X n N (, 2 /n) por ser combinacin lineal de normales. Entonces

( [ ]) ( ) P X n k; X n + k = P k X n + k = ( ) ( ) +k k = / n / n ( ) ( ) ( ) k n k n k n = 2 1 = 1 , ( ) luego k n = 1 /2 por lo que k n = 1 (1 /2) de donde obtenemos


k = (1/2) . Dado que en este caso el valor de 2 se supone conocido, tenemos n que k no depende de parmetros desconocidos. Si adems para cada p (0, 1) le llamamos zp = 1 (p) tendremos entonces el intervalo de conanza para este caso como sigue [ ] z1/2 z1/2 Xn ; Xn + . n n
1

En el caso en que X1 , X2 , ..., Xn es una muestra aleatoria simple de X N (, 2 ) donde 2 es desconocido, si bien la igualdad calculada es vlida, carece de valor ya z que en este caso a (X1 , X2 , ..., Xn ) = X n 1/2 no es un estadstico (tampoco lo n es b) por lo que no es vlido como intevalo de conanza. Para obtener un intervalo en estos caso introducimos dos nuevas familias de variables aleatorias.

Denicin 11.4.

Se dice que X tiene una distribucin tstudent con n grados de libertad cuando tiene la siguiente densidad: ( ) n+1 1 2( ) fX (x) = n+1 n ( n 2 1 + x2 ) 2 n

Notacin: X tn . Se observa que si X tn entonces E (X) = 0 para n > 1 (si n 1, entonces no existe n la esperanza) y se puede vericar que V (X) = n2 para n > 2 (si n 2, no admite momentos de orden 2). 105

Captulo 11.

Intervalos de conanza.

Se dice que X tiene una distribucin 2 con n grados de libertad cuando tiene la siguiente densidad:

Denicin 11.5.

fX (x) =

1 2n/2 (n/2)

xn/21 ex/2 1{x>0}

Notacin: X 2 . n Se puede vericar que si X 2 , entonces E (X) = n y V (X) = 2n. n Para obtener un intervalo de conanza para en estos casos, nos serviremos del siguiente teorema (que no demostraremos).

Teorema 11.6. Si X1 , X2 , ..., Xn es una muestra de X N (, 2 ) entonces


T (n 1) (tstudent
varianza muestral. con

n1

grados de libertad) siendo

2 Sn =

1 n

n (

Xi

n1(X n ) Sn )2 X n la

i=1

Entonces, veamos que en este caso podemos determinar k , no dependiendo de parmetros desconocidos, de modo que el intervalo de conanza de nivel 1 sea de la ] [ n1(X n ) forma X n kSn ; X n + kSn . Para abreviar, le llamamos T a la variable . Sn Entonces

( [ ]) ( ) P X n kSn ; X n + kSn = P X n kSn = ) ( n 1 Xn P n 1k = Sn ( ) P (|T | k) = P k T n 1k = FT ( n 1k) FT ( n 1k) = 2FT ( n 1k) 1


ya que por simetra de la distribucin de Student, se tiene que FT (t) = 1 FT (t). 1 Entonces 2FT ( n 1k) 1 = 1 de donde obtenemos k = FT (1 /2) que no depende de parmetros desconocidos. Nuevamente si le llamamos tp (n) = F 1 (p) para p (0, 1) y F funcin de distribucin correspondiente a una variable tStudent 1 con n grados de libertad, tenemos que n 1k = FT (1 /2) = t1/2 (n 1) por lo que tenemos el intervalo de conanza en la forma ] [ Sn t1/2 (n 1) Sn t1/2 (n 1) Xn ; Xn + . n1 n1 Para completar el caso de la variable normal, construiremos en lo que sigue un intervalo de conanza para 2 . Para ello nos serviremos del siguiente teorema (que no demostraremos).

Teorema 11.7.
2 (n 1) (2
muestral.

Si

X1 , X2 , ..., Xn

es una muestra de

con

n1

grados de libertad) siendo

X N (, 2 ) entonces nS2n n )2 ( 1 2 Sn = n Xi X n la varianza


i=1

106

Captulo 11.
c.s.

Intervalos de conanza.

2 Dado que Sn 2 podramos nuevamente intentar buscar un intervalo en la forma 2 2 [Sn k; Sn + k] pero la idea no funciona, por lo tanto veremos si podemos encontrar 2 2 valores a y b tales que el intervalo quede en la forma [aSn ; bSn ] . Planteamos entonces la 2 2 2 2 ecuacin 1 = P ( [aSn ; bSn ]) y hallaremos a y b tales que P ( 2 < aSn ) = /2 2 2 y P ( 2 > bSn ) = /2. Para simplicar le llamaremos 2 a la distribucin de nS2n . Entonces ( ) ( 2 ) (n) ( 2 ) 2 nSn n 2 2 P < aSn = P Sn > =P > = 1 F2 = /2 a 2 a a

por lo que

n a

1 = F2 (/2) de donde obtenemos a =

n F 1 (/2) 2

y nuevamente, llamndole

2 (n) = F 1 (p) siendo la funcin de distribucin asociada a una variable 2 (n) y p observando que en este caso la variable con la cual estamos distribuye 2 (n 1) obtenemos a = 2 n . Trabajando anlogamente con la otra igualdad se obtiene (n1)
que b = queda
/2

n 2 (n1) 1/2

y por lo tanto el intervalo de conanza para 2 de nivel 1 nos

] 2 2 nSn nSn ; . 2 (n 1) 2 /2 1/2 (n 1)

En numerosas situaciones, se tiene una muestra X1 , X2 , ..., Xn de cierta X desconocida. Si el tamao de muestra es grande, y suponemos que X L2 y deseamos estimar = E (X) mediante un intervalo de conanza, entonces podemos aplicar el teorema central del lmite y realizar algunos clculos similares a los realizados, obtenindose as intervalos de conanza de nivel aproximadamente iguales a 1 . Efectivamente, debido al teorema central del lmite podemos armar que (en el caso n sucientemente grande) la distribucin de X n es aproximadamente N (, 2 /n). Por ( [ ]) lo tanto, P X n k; X n + k = ( ) ( ) ( ) TCL +k k = P k Xn + k = / n / n ( ) ( ) ( ) k n k n k n = 2 1 = 1 , ] [ z z por lo que obtendramos que el intervalo I = X n 1/2 ; X n + 1/2 es tal que n n P ( I) 1 . Ahora, como el intervalo depende de un parmetro desconocido = ( ), no nos sirve como intervalo de conanza, pero recordando que n es grande, 2 podemos sustituir por un estimador consistente del mismo, por ejemplo Sn = Sn obtenindose de esa forma el intervalo [ ] Sn z1/2 Sn z1/2 ; Xn + Xn n n

que es, ahora si, un intervalo de conanza de un nivel aproximadamente igual a 1 . Como caso particular podemos obtener un intervalo de conanza aproximado para p 107

Captulo 11.

Intervalos de conanza.

cuando X Ber(p) en el caso en que n es grande. Efectivamente, cuando X Ber(p) 2 1 2 entonces = E (X) = p, adems, como Xi = Xi2 , entonces Sn = n n Xi2 X n = i=1 ( ) 2 X n X n = X n 1 X n , obtenindose as un intervalo de conanza para p ( ) ( ) X n 1 X n z1/2 X n 1 X n z1/2 X n ; Xn + n n cuyo nivel es aproximadamente 1 .

11.3. Resumen.
Recordemos que dado p (0, 1) usamos las siguientes notaciones para F 1 (p) : zp si F es la funcin de distribucin de una variable N (0, 1); tp (n) si F es la distribcuin de una variable tn (tstudent con n grados de libertad) y 2 cuando F es la fucnin p de distribucin de una variable 2 dada X1 , X2 , ..., Xn muestra de X , hemos obtenido n intervalos de conanza para los siguientes casos. 1. Intervalo de conanza para = E (X) al nivel 1 .
a)

Si X N (, 2 ) con 2 conocido, ] [ z1/2 z1/2 ; Xn + . Xn n n Si X N (, 2 ) con 2 desconocido, [ ] Sn t1/2 (n 1) Sn t1/2 (n 1) Xn ; Xn + . n1 n1 Si X L2 y n es sucientemente grande, un intervalo aproximado es [ ] Sn z1/2 Sn z1/2 Xn ; Xn + . n n

b)

c)

2. Intervalo de conanza para p al nivel 1 cuando X Ber(p) y n es sucientemente grande, un intervalo aproximado es

( ) ( ) X n 1 X n z1/2 X n 1 X n z1/2 X n . ; Xn + n n
3. Intervalo de conanza para 2 en el caso en que X N (, 2 ) .

] 2 2 nSn nSn ; . 2 (n 1) 2 /2 1/2 (n 1)


108

S-ar putea să vă placă și