Documente Academic
Documente Profesional
Documente Cultură
Por correccin de erratas y comentarios, se agradece comunicarse a mi correo electrnico: jkalem@cmat.edu.uy Juan Kalemkerian
ndice general
1. Espacio de probabilidad. 1.1. -lgebra de conjuntos. . . . 1.2. Espacio de probabilidad. . . 1.3. Apndice y notas histricas.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 6 10
2. Probabilidad condicional e independencia. 2.1. Probabilidad condicional. . . . . . . . 2.2. Independencia. . . . . . . . . . . . . . . 2.3. Notas histricas. . . . . . . . . . . . . .
14
14 17 19
3. Variable Aleatoria. 3.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Funcin de distribucin de una variable aleatoria. 3.3. Variables Aleatorias Discretas. . . . . . . . . . . . . 3.4. Ejemplos de Variables discretas. . . . . . . . . . . . 3.5. Variables aleatorias absolutamente continuas. . . . 3.6. Ejemplos de variables absolutamente continuas. . 3.7. Variables aleatorias mixtas. . . . . . . . . . . . . . . 4. Distribucin conjunta. 4.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . 4.2. Vectores aleatorios discretos. . . . . . . . . . . 4.3. Vectores aleatorios absolutamente continuos. 4.3.1. Propiedades. . . . . . . . . . . . . . . . . 4.4. Independencia de variables aleatorias. . . . . . 4.5. Mtodo del Jacobiano. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
21
21 23 25 25 30 31 32
33
33 35 37 37 40 45
5. Integral de Riemann-Stieltjes. 5.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Mtodos de integracin. . . . . . . . . . . . . . . . . . . . . 5.3. Extensin a funciones complejas e integrales impropias. 5.4. Aplicaciones a la teora de la probabilidad. . . . . . . . . 5.5. Integrales de Riemann-Stieltjes mltiples. . . . . . . . . . 5.5.1. Aplicaciones a la teora de la probabilidad. . . . .
2
47
50 53 54 54 56 57
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
6. Valor esperado. 6.1. Denicin. . . . . . . . . . . . . . . . . . . . . . 6.2. Ejemplos. . . . . . . . . . . . . . . . . . . . . . 6.3. Propiedades. . . . . . . . . . . . . . . . . . . . . 6.4. Teoremas de convergencia. . . . . . . . . . . . 6.4.1. Teorema de convergencia montona. 6.4.2. Teorema de convergencia dominada. . 6.4.3. Aplicaciones. . . . . . . . . . . . . . . . 7. Espacios Lp . 7.1. Denicin y propiedades. . . . . . . . . . . 7.2. Varianza de una variable aleatoria. . . . 7.3. Covarianza y coeciente de correlacin. . 7.4. Variables i.i.d. . . . . . . . . . . . . . . . . .
. . . . . . . .
58
58 59 60 64 64 65 66 68 69 72 74
68
8. Convergencia en probabilidad, casi segura y en distribucin. 8.1. Convergencia en probabilidad y casi segura. . . . . . . . . 8.2. Leyes de los grandes nmeros. . . . . . . . . . . . . . . . . 8.2.1. Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . . 8.3. Convergencia en distribucin. . . . . . . . . . . . . . . . . . 9. Funciones caractersticas. 9.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . 9.2. Frmula de inversin. . . . . . . . . . . . . . . . . . . . 9.3. Caracterizacin de la convergencia en distribucin. 9.4. Teorema Central del Lmite. . . . . . . . . . . . . . . . 10.Estimacin puntual. 10.1. Estadsticos y estimadores. . . . . . . . . . 10.2. Mtodos de estimacin. . . . . . . . . . . . 10.2.1. Mtodo de los momentos. . . . . . 10.2.2. Mtodo de mxima verosimilitud.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
76 79 82 84 88 90 92 96
87
99
11.Intervalos de conanza. 104 11.1. Denicin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 11.2. Construccin de intervalos de conanza en algunos casos particulares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 11.3. Resumen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Teorema 1.2.
A.
Demostracin.
Teorema 1.3.
A1 , A2 , ..., An A
entonces
n Ai A. i=1
Basta usar el axioma iii) en el caso en que An+1 = An+2 = ... = A, entonces en este caso se tiene que + An = n Ai A. n=1 i=1
Demostracin.
Teorema 1.4.
Si
{An }nN A,
entonces
+ An A. n=1
Demostracin.
Como An A cualquiera sea n, entonces por ii) Ac) A para todo n. Entonces por n ( c + iii) n=1 Ac A, y por lo tanto + An = + Ac A. n=1 n=1 n n
Teorema 1.5.
Si
A, B A,
entonces
A B A.
Teorema 1.6.
.
Si
es
-lgebra
de conjuntos sobre
I A
es
Deno A = I A . i) A para todo I, entonces A. ii) Si A A, entonces A A para todo I, entonces Ac A para todo I , luego Ac A. iii) Si {An }nN A, entonces {An }nN A para todo I, entonces + An A n=1 para todo I, entonces + An A. n=1
Demostracin.
Ejemplo 1.7.
.
{, } es -lgebra de conjuntos sobre , cualquiera sea el conjunto 2 es -lgebra de conjuntos sobre , cualquiera sea el conjunto .
Denicin 1.10.
-lgebra generada por una familia de subconjuntos de . Dada F una familia de subconjuntos de , al conjunto A AF A le llamaremos -lgebra engendrada por F y la notaremos por (F) .
:
La -lgebra generada por una familia de subconjuntos de , siempre existe y adems es la menor -lgebra generada por una familia de subconjuntos de que contiene aF .
Teorema 1.12.
I1 = {(a, b) R : a < b} ; I2 = {[a, b) R : a < b} ; I3 = {(a, b] R : a < b} ; I4 = {(a, +) R : a R} ; I5 = {[a, +) R : a R} ; I6 = {(, a) R : a R} ; I7 = {(, a] R : a R} . Entonces
Si denimos
Probaremos a modo de ejemplo que (I1 ) = (I2 ), para lo cual basta ver que I1 (I2 ) y que I2 1 ). (I Efectivamente, (a, b) = n:a+1/n<b [a + 1/n, b), lo cual prueba que (I1 ) (I2 ). Adems, [a, b) = + (a 1/n, b), lo cual prueba la otra inclusin. n=1 Se deja como ejercicio vericar las dems igualdades. Para trabajar con (I), tener en cuenta que todo abierto en R se puede escribir como una unin numerable de 5
Captulo 1. Espacio de probabilidad. intervalos abiertos. De manera similar se dene la -lgebra de Borel en Rk , como la -lgebra generada por los abiertos de Rk , o sea como la menor -lgebra que contiene a todos los abiertos de Rk . A los conjuntos de esta -lgebra, se les llama borelianos.
Teorema 1.14.
P () = 0.
Demostracin.
Consideramos la familia de sucesos disjuntos A1 = , A2 = A3 = ... = , luego aplicamos el axioma ii) y obtenemos
P +
+ An n=1
= P () = P () +
+ n=2
P ()
por lo tanto n=2 P () = 0. Si fuera P () = 0, se tendra que la serie sera divergente y no podra ser cierta la igualdad anterior. Entonces P () = 0.
P (Ai ) .
Demostracin.
Se aplica el axioma ii) teniendo en cuenta que si se agregan los conjuntos An+1 = An+2 = ... = , se obtiene que
+ An n=1
n i=1
P (Ai ) +
+ i=n+1
P (Ai ) =
n i=1
P (Ai )
Teorema 1.16.
Demostracin.
Si
A, B A,
entonces
P (B A) = P (B) P (A B) .
Escribimos la unin disjunta (B A) (A B) = B . Luego, aplicando el axioma ii) obtenemos que P (B A) + P (A B) = P (B), de donde se deduce el resultado. 6
Corolario 1.17.
1. 2.
Si
A, B A
A B,
entonces
Demostracin.
1. Es inmediato a partir de la propiedad anterior, si se observa que A B = A. 2. Es inmediato ya que P (B) P (A) = P (B A) 0.
Teorema 1.18.
Demostracin.
Si
A, B A,
entonces
P (A B) = P (A) + P (B) P (A B) .
P (A B) = P (A B) + P (B A) + P (A B) = P (A) P (A B) + P (B) P (A B) + P (A B)
de donde se deduce el resultado.
Teorema 1.19.
P
Si
A1 , A2 , ..., An A =
n k=1
entonces
(n Ai ) i=1
(1)k1
Demostracin.
Teorema 1.20.
Demostracin.
Si
A1 , A2 , ..., An A,
entonces
P (n Ai ) i=1
n
i=1
P (Ai ) .
Teorema 1.21.
1. Si la familia de sucesos
{An }nN A es tal que: A1 A2 A3 ... ) ( P + An = lmP (An ) . n=1 {An }nN A es tal que: A1 A2 A3 ... ) ( P + An = lmP (An ) . n=1
entonces
2. Si la familia de sucesos
entonces
Demostracin.
Captulo 1. Espacio de probabilidad. 1. Denimos la familia de sucesos Bn = An An1 para n = 1, 2, 3... Sobreentenderemos que A0 = . Como An1 An cualquiera sea n, entonces P (An An1 ) = P (An ) P (An1 ) . Por otro lado {Bn }nN A, es una familia disjunta de sucesos, por lo que aplicando el axioma iii) se obtiene que
+ Bn n=1
+ n=1
P (Bn ) =
+ n=1
P (An An1 ) =
+ n=1
[P (An ) P (An1 )]
= lmP (An ) .
2. Tomando complementos obtenemos que Ac ) Ac Ac ..., luego aplicando 1 2 3 ( la parte anterior, se obtiene que P + Ac = lmP (Ac ) . O sea que n=1 n n
([ + ]c ) ( ) n=1 An = 1 P + An = n=1
lm [1 P (An )] .
Entonces
Teorema 1.22.
todo
P (An ) = 1
para
n,
entonces
([ ]c ) ( ) Debemos probar que P + An = P + Ac = 0. A partir del teorema 1.20 y n=1 n=1 n tomando lmite obtenemos P ( + Ac n=1 n )
+ n=1
Demostracin.
P (Ac ) = 0. n
Ak y liminf An : =
Ak .
5. Como la sucesin Bn =
( +
k=n
) Ak .
(, A, P )
(1)
{An }nN
P (liminf An )
Demostracin.
liminfP
( An )
(2)
limsupP
(An ) P (limsup An ) .
+ k=n
(3)
Ak An , entonces
P (limsup An ) = limP
( +
k=n
) Ak
limsupP (An ) .
: 2 [0, 1] tal que P (A) = siendo n(A) la cantidad de elementos que tiene el conjunto A. Observamos que en este caso, se tiene que si = {w1 , w2 , ..., wn } entonces P ({wi }) = 1/n para todo i = 1, 2, 3, ..., n, lo cual signica que todo elemento de es igualmente probable.
n(A) n()
Captulo 1. Espacio de probabilidad. En general, cuando es nito o innito numerable, si no se aclara nada al respecto se sobreentiende que la -lgebra considerada es 2 . En numerosas ocasiones se est en presencia de un espacio muestral nito donde cada elemento tiene la misma probabilidad.
Ejemplo 1.28.
Se tiran 3 dados y se desea calcular la probabilidad de que salga al menos un 2 en las 3 tiradas. En este caso, = {(i, j, k) : i, j, k {1, 2, 3, 4, 5, 6}} . Para calcular n () observamos que para la terna (i, j, k) tenemos 6 valores posibles de i, por cada valor de i tenemos 6 valores posibles para j por lo que existen 62 = 36 pares (i, j) , y por cada uno de estos 36 pares tenemos 6 posibles valores de k , as obtenemos 63 = 216 ternas en . Por otro lado, para el suceso A = sale al menos un 2 en las 3 tiradas", podemos realizar la descomposicin A = B C D donde B = sale exactamente dos veces el 2 en las 3 tiradas", C = sale exactamente un 2 en las 3 tiradas", D = sale las 3 veces el 2 en las 3 tiradas". Esta unin es disjunta por lo que P (A) = P (B) + P (C) + P (D) . Para calcular P (B) observamos que si el 2 sale en el primer lugar, tenemos 52 ternas, pero el 2 puede salir en el segundo o en el tercer lugar, por lo que en total tendremos n (B) = 3 52 = 75 y entonces P (B) = 75/216. Razonando similarmente, obtenemos P (C) = 3 5/216 mientras que P (D) = 1/216, entonces P (A) = 91/216. Hubiera sido ms sencillo observar que Ac = no sale ningn 2 en las 3 tiradas", entonces tenemos 5 5 5 ternas donde esto ocurre, entonces P (Ac ) = 125/216 y por lo tanto P (A) = 1 125/216 = 91/216.
Ejemplo 1.29.
24 veces
Si se tiran 24 veces dos dados, es ms ventajoso apostar por la aparicin de al menos un doble 6, o no? En este caso, el total de casos posibles son 36 36 ... 36 = 3624 , mientras que si denimos el suceso A = no aparece ningn doble 6 en las 24 tiradas", tenemos que n (A) = 35 35 ... 35 = 3524 y por lo
24 veces
tanto P (A) = (35/36) = 0,508 por lo que es ms conveniente apostar a que no aparece ningn doble 6 en 24 tiradas.
24
Comentario sobre la necesidad de trabajar con sigmas lgebras sobre espacios muestrales no numerables.
10
Captulo 1. Espacio de probabilidad. En el caso en que = (0, 1), entonces se verica directamente que el conjunto I formado por uniones nitas de conjuntos de la forma: (a, b]; (0, b]; (a, 1) con a, b (0, 1) forman un lgebra de subconjuntos de (0, 1). Por otro lado, tambin se puede vericar directamente que la funcin P : I [0, 1] tal que P (A) = longitud de A, cualquiera sea A I, es una funcin que cumple ser nitamente aditiva, tal que P ((0, 1)) = 1. Un teorema importante de teora de la medida, el teorema de Carathodory nos dice que si tenemos una terna (, I; P ) donde P es una funcin P : I [0, 1] que cumple que P () = 1 y adems es nitamente aditiva ( o sea que P (A B) = P (A) + P (B) siempre que A, B I sean tales que A B = ), entonces existe una nica funcin P tal que (, (I) , P ) es un espacio de probabilidad, tal que P (A) = P (A) para todo A I. Dicho de otra manera, si tenemos una funcin de probabilidad nitamente aditiva, denida sobre un lgebra I de subconjuntos de , entonces puede ser extendida de manera nica sobre la -lgebra generada por I. Volviendo al ejemplo del espacio (0, 1) y el lgebra I , entonces sabemos que (I) = B(0,1) . Usando estas ideas veremos que existen conjuntos no borelianos. Denimos la relacin en (0, 1), xRy si y slo si x y Q. Se verica en forma inmediata que la misma dene una relacin de equivalencia en (0, 1) . Por lo tanto queda el conjunto (0, 1) particionado en clases de equivalencia. Elegimos un elemento de cada clase, y con ella formamos un conjunto que llamamos A. O sea que podemos escribir (0, 1) = I A , donde la unin es disjunta, y adems x, y A si y slo si x y Q. Para cada I elegimos a A de manera arbitraria (esto puede ser realizado gracias al axioma de eleccin), entonces denimos el conjunto A = I {a } . Veremos a partir del teorema de extensin de Carathodory que A no es boreliano. Para cada racional q Q (0, 1) denimos el conjunto Aq = {x + q : x A, x + q 1} {x + q 1 : x A, x + q > 1} . Observando que los Aq son los trasladados por q del conjunto A, deducimos que si A fuera boreliano, entonces tambin lo sera Aq para cada q Q (0, 1) . Observamos adems que para todo q Q (0, 1) se cumple que P (Aq ) = P (A). Por otro lado, se cumple que (0, 1) = qQ(0,1) Aq , adems la unin es disjunta. Por lo tanto, extendiendo por Carathodory la funcin P a la -lgebra generada por I que es la -lgebra de Borel en (0, 1), obtendramos que 1 = P ((0, 1)) = P (Aq ) = 0
qQ(0,1)
lo cual es absurdo.
Observacin 1.30.
nir una funcin de que la probabilidad
= (0, 1) , es imposible deprobabilidad sobre todos los subconjuntos de (0, 1), de tal modo de de un intervalo incluido en (0, 1) sea la longitud del mismo. (0, 1),
de tal modo que la probabilidad de un intervalo
Por lo tanto si queremos trabajar con un espacio de probabilidad donde se elije un punto al azar en el intervalo incluido en
(0, 1)
11
-lgebra
de Borel sobre
(0, 1).
Un poco de historia.
Como fue visto en el ejemplo 1.29, la probabilidad de la aparicin de al menos un doble seis cuando se tira 24 veces un par de dados, es 0,492, por lo tanto es levemente desfavorable a apostar a que no sale ningn doble 6. Dada la proximidad de este valor a 1/2, sin saber realizar este clculo, difcilmente podramos prever si era favorable o desfavorable apostar a este evento, por el simple hecho de repetirlo muchas veces y contabilizar su frecuencia. Esta situacin se le present a Antoine de Gombaud (caballero de Mer), noble francs quien en 1654 interesado en resolver este problema, se lo plante a Blaise Pascal, quien comenz a cartearse con Pierre de Fermat, para discutir y llegar a la solucin del problema. Si bien los juegos de azar, son tan antiguos como la humanidad, y es natural pensar que los primeros matemticos babilnicos y griegos ya trabajaron y por lo tanto obtuvieron ciertos resultados probabilsticos, se considera que ste intercambio de correspondencia entre de Fermat y Pascal motiv el inicio de la teora de la probabilidad, o al menos el comienzo de la construccin de los principios de la misma. Christian Huygens (quien fuera maestro de Leibnitz), enterado de esta correspondencia, en 1657 public lo que es conocido como el primer libro de teora de probabilidades: De Ratiociniis in Ludo Aleae, que se trata de un libro de problemas de juegos de azar. Anterior en el tiempo a esta correspondencia y a Huygens, vale la pena destacar que el matemtico italiano Gerolamo Cardano en el siglo XVI ya haba resuelto algunos problemas de juegos de azar, e incluso escribi un tratado sobre probabilidad, Liber de ludo aleae , pero el mismo fue publicado casi un siglo despus de su muerte, en 1663. El primero en dar la denicin clsica de probabilidad (casos favorables sobre casos posibles) fue James Bernoulli (1654-1705), en una obra fundamental para el desarrollo de la teora de la probabilidad: Ars Conjectandi (El arte de conjeturar), esta obra fue publicada en 1713. En 1812, Pierre Simon de Laplace, en su libro Thorie analytique des probabilits, introduce numerosas ideas y tcnicas para resolver problemas de azar. De manera un tanto irregular, numerosos matemticos aportaron nuevas ideas a la teora, se plantearon nuevos problemas, y se desarrollaron nuevos conceptos, pero an quedaba una denicin que sea adecuada y satisfactoria a situaciones donde est presente el azar, pero que no tienen que ver con juegos de azar, ni pueden ser repetidos en idnticas condiciones muchas veces. Esta falta de una denicin precisa hizo que muchos matemticos se desencantaran y consideraran a la probabilidad no como una teora matemtica, y se alejaron de ella. Durante los tres siglos en que se busc una denicin adecuada y amplia para la probabilidad, hubieron distintas escuelas, como la clsica, la frecuencista y la subjetivista que tuvieron distintas controversias entre si, ya que todas daban deniciones que no eran totalmente satisfactorias. La escuela clsica es la que acotaba los problemas probabilsticos a los casos en que es nito con resultados equiprobables, por lo que denan probabilidad como el 12
Captulo 1. Espacio de probabilidad. nmero casos favorables sobre el nmero de casos posibles. Claramente esta denicin no es aplicable a muchas situaciones que se dan en la prctica, tanto porque a veces es innito, como cuando los elementos del mismo no son equiprobables. Otros denieron lo que se llama interpretacin frecuencista, que dice que para calcular la probabilidad de un evento se lo debe repetir n veces, y entonces es el lmite cuando n tiende a ininto del nmero de veces que ocurre el evento dividido el nmero de repeticiones del experimento (n). Nuevamente es claro que esta interpretacin tiene el defecto de que muchas veces el experimento no puede ser repetido en idnticas condiciones, y adems, no se pueden hacer innitos experimentos. Por otro lado, el lmite no es el lmite usual, hay que denir otro concepto de lmite, ya que el azar no permitira asegurarnos un n tal que a partir del mismo, la probabilidad del suceso diste de la frecuencia observada tan poco como se quiera. Esta escuela est basada en la ley de los grandes nmeros que veremos ms adelante. Por ltimo los subjetivistas, decan que la probabilidad estaba dado por un carcter subjetivo, en el sentido de que la probabilidad de un suceso, es el grado de conanza que se tiene de que el mismo ocurra. De esta manera dos personas distintas pueden tener probabilidades diferentes para un mismo suceso, puesto que sus grados de conanza de que el mismo ocurra son distintos. Incluso una misma persona, en otro momento puede llegar a tener una valoracin distinta de la ocurrencia de un suceso y por lo tanto cambiar su grado de conanza. Esta escuela tuvo por precursores a Bruno de Finetti y Leonard Savage. Hubo que esperar hasta 1933 cuando Andrei Nikolayevich Kolmogorov, en su monografa titulada Grundbegrie der Wahrscheinlichkeitsrechnung (Fundamentos de Probabilidad) planteara la denicin axiomtica de espacio de probabilidad, dndose cuenta a partir de la teora de la medida y de los trabajos de Borel y Lebesgue, que calcular probabilidades, es una forma de medir. Se puede decir que a partir de este trabajo, denitivamente y para todos los matemticos, la probabilidad pas a ser un tema de matemtica, y adems concluy con todas las discusiones sobre la denicin de probabilidad, ya que todas ellas quedaron como casos particulares de un espacio de probabilidad. Si bien un espacio de probabilidad es un caso particular de espacio de medida, tiene conceptos y formas intuitivas de pensar problemas probabilsticos (como la probabilidad condicional y el concepto de independencia, que sern vistos en el prximo captulo) que la independizan en muchos aspectos de la teora de la medida.
13
P (A/B) =
Denicin 2.1.
Si (, A, P ) es un espacio de probabilidad, dados A, B A donde (AB) P (B) > 0. Denimos P (A/B) = P P (B) . La notacin P (A/B), la leemos como la probabilidad de que ocurra A, sabiendo que ocurre B . En todos los teoremas que siguen se considera dado (, A, P ) un espacio de probabilidad. 14
Teorema 2.2.
P (B) > 0.
P (A B) = P (A/B) P (B)
cualesquiera sean
A, B A
tal que
Demostracin.
P (B) > 0.
Demostracin.
P (A/B) =
Teorema 2.4.
que 1.
Si la familia
{Bn }nN A
i) Bi Bj = para todos i = j (es decir que son sucesos disjuntos dos a dos), ii) + Bn = iii)P (Bn ) > 0 para todo n N. Entonces cualquiera sea A A se tiene n=1 Frmula de probabilidades totales.
P (A) =
Frmula de Bayes.
+ n=1
P (A/Bn ) P (Bn ) .
2.
Para
tal que
P (A) > 0,
para todo
k N.
P (A) =
+ n=1
P (A Bn ) =
+ n=1
P (A/Bn ) P (Bn ) .
P (Bk /A) =
Observacin 2.5.
los
en unin de
Bn
es nita. Si
Teorema 2.6.
probabilidad.
PB : AB [0, 1],
BA
tal que
Teorema 2.7.
1. 2.
Si
A, B, C A
con
P (B) > 0,
entonces
Teorema 2.8.
tonces
Si
A1 , A2 , ..., An A
cumplen que
en-
P (A1 A2 ... An ) = P (A1 ) P (A2 /A1 ) P (A3 /A1 A2 ) ...P (An /A1 A2 ... An1 ) .
Demostracin. Se deja como ejercicio.
Ejemplo 2.9.
Supongamos que se dispone de un bolillero con 44 bolillas numeradas del 1 al 44. Se extraen 5 sucesivamente sin reponerse cada bolilla exprada. Se supone que apostamos a que salen los nmeros 5,13,16,18,33. Deseamos calcular la probabilidad de que acertemos al menos 2 de los 5 extrados. En este caso, para calcular los casos posibles, se ve que para la primer bolilla hay 44 posibles nmeros, para la segunda 43 (todos menos el que sali en el primer lugar), para la siguiente 42, luego 41 y luego 40, as tenemos 44 43 42 41 40 casos posibles. Para los favorables, calculamos los del complemento. Observamos que si le llamamos A = salen al menos dos de los 5 apostados", entonces Ac = B C donde B =no sale ninguno de los 5 apostados C =sale exactamente uno de los 5 apostados". La unin es disjunta por lo que P (Ac ) = P (B) + P (C) . Los casos posibles para B son 39 38 37 36 35 mientras que para C tenemos que 5 39 38 37 36 son todas las posibilidades en que acertamos en la primera extraccin y no acertamos en las 4 restantes, a esos hay que sumarles los que acertamos en la segunda y erramos en las restantes, etc, etc, como cada uno de esos casos son 5 39 38 37 36 entonces el total de casos favorables para C son 5 39 38 37 36 5, de esta forma
P (A) = 1
Este mismo clculo podra haberse realizado mediante el uso de la propiedad anterior. Para calcular P (B) , llammosle A1 =no acierto la primer bolilla extrada", 16
39 38 37 36 35 + 5 39 38 37 36 5 = 0, 0911. 44 43 42 41 40
A2 =no acierto la primer bolilla extrada",...,A5 =no acierto la quinta bolilla extrada". Entonces P (A1 ) = 39/44, P (A2 /A1 ) = 38/43, P (A3 /A1 A2 ) = 37/42, P (A4 /A1 A2 A3 ) = 36/41 y P (A5 /A1 A2 A3 A4 ) = 35/40, as se tiene P (B) = P (A1 A2 A3 A4 A5 ) = 39 38 37 36 35 44 43 42 41 40
Para P (C) lo separamos como suma de acertar exactamente la primera, ms acertar exactamente la segunda, etc y denimos adecuadamente los conjuntos A1 , A2 , A3 , A4 , A5 y se procede de manera anloga.
Ejemplo 2.10.
Se tiene una urna compuesta por 3 bolillas azules, 2 blancas y una roja, y una segunda urna compuesta por 3 blancas y 3 azules. Se extrae una bolilla de la urna uno, se la deposita en la segunda y luego se extrae una bolilla de esta segunda urna. Calculemos las probabilidades de: A =la segunda bolilla extrada es azul", B =la primer bolilla extrada es azul, sabiendo que la segunda fue blanca". En este caso, aplicamos la propiedad de probabilidades totales quedando P (A) =
P (A/1a blanca) P (1a blanca)+P (A/1a azul) P (1a azul)+P (A/1a roja) P (1a roja) = 33 43 31 + + = 0, 571. 76 76 76 Para B, usamos el teorema de Bayes quedando P (B) = P (1a azul / 2a blanca) = P ( 2a b / 1a b) P (1a b) = P ( 2a b / 1a b) P (1a b) + P ( 2a b / 1a a) P (1a a) + P ( 2a b / 1a r) P (1a roja)
4 7 3 7 3 6 3 6
42 76
31 76
= 0, 6.
2.2. Independencia.
Denicin 2.11.
Dado (, A, P ) un espacio de probabilidad, se dice que la familia de sucesos {A }I donde I es una familia cualquiera de ndices, son sucesos independientes si y slo si, para todo F I nito, se cumple que ( ) P A = P (A ) .
F F
Observacin 2.12.
anterior nos dice que
AyB
P (A B) = P (A) P (B) ,
P (B) > 0
P (A/B) = P (A),
17
Observacin 2.13.
condiciones: 1. 2. 3. 4.
A, B
C,
en-
tonces los mismos son independientes si y slo si se cumplen las siguientes cuatro
Observacin 2.14.
sucesos
A, B
que son las condiciones 1,2 y 3, pero a esto se le debe agregar la condicin 4 ya que las condiciones 1,2 y 3 (como se ver en el siguiente ejemplo) no aseguran que independiente del suceso que determinan la independencia de B C y la de A con B C c etc.
sea
B C . Se puede chequear sin dicultad que las 4 condiciones A, B y C aseguran la independencia de A con
Se deja como ejercicio vericar el siguiente ejemplo, donde se muestra que tres sucesos pueden ser independientes tomados de a dos, pero no ser independientes.
Ejemplo 2.15. Se tira un par de dados, uno azul y uno verde. Denimos A =en el dado azul sale el 5, B =en el dado verde sale el 3, C =la suma de los resultados de ambos dados es un nmero par. Entonces A, B y C son independientes tomados de a pares, pero A, B y C no son independientes. Teorema 2.16. Dado (, A, P ) un espacio de probabilidad, si una familia de sucesos {A }I son independientes, entonces tambin lo son la familia {B }I , donde para c cada I , se tiene que, o bien B = A , o bien B = A . Teorema 2.17.
y la sucesin 1. Si
{An }nN A,
Dados
(, A, P )
espacio de probabilidad
+
n=1
P (An ) < +
P (limsup An ) = 0.
2. Si
+
n=1
P (An ) = +
y adems
{An }nN
P (limsup An ) = 1.
Demostracin.
( +
k=n
) Ak
+
k=n
18
( +
k=n
( +
k=n
) Ac k 0.
[1 P (Ak )]
m k=n
eP (Ak ) = e
Pm
k=n
P (Ak )
m+
0.
Ejemplo 2.18.
Supongamos que se elije al azar un nmero en el intervalo (0, 1) Cul es la probabilidad de que aparezcan innitos 4 en su expansin decimal? Y la probabilidad de que el 44 aprezca innitas veces? Para responder a la primer pregunta, denimos los sucesos An =el 4 aparece en el n-simo lugar en su expansin decimal, entonces la sucesin {An }nN est formada por sucesos independientes, adems, P (An ) = 1/10 cualquiera sea n, entonces + n=1 P (An ) = + y por lo tanto la probabilidad de que aparezca el 4 innitas veces es 1. Para responder la otra pregunta, procedemos de forma similar, denimos Bn =el 4 aparece en el n-simo lugar y en el siguiente en su expansin decimal, en este caso P (Bn ) = 1/100 para todo n, pero los Bn no son independientes. De todas formas si consideramos la subsucesin de sucesos {B2n }nN , ahora si, tenemos una sucesin de sucesos independientes y como + P (B2n ) = +, tenemos que n=1 la probabilidad de que aparezca el 44 inintas veces en un lugar par seguido de uno impar es 1, pero ste ltimo suceso est incluido en el suceso de que el 44 aparece inntas veces, se entonces la probabilidad de que el 44 aparezca innitas veces es 1 tambin.
Captulo 2. Probabilidad condicional e independencia. otros matemticos de su poca, y por lo tanto no se destac tanto mientras estuvo con vida. Sus aportes a la teora de la probabilidad fueron enormes, ya que fue el primero que deni y trabaj el concepto de probabilidad condicional, en tiempos en que todos los clculos probabilsticos estaban restringidos a juegos de azar y los clculos eran realizados segn el modelo de equiprobabilidad. Tambin es esencial su aporte a la denicin que utiliza de probabilidad, que fue olvidada hasta el siglo XX, y que fue retomada recin en 1937 por Bruno De Finetti, uno de los primeros precursores de la teora subjetiva de la probabilidad. Todos estos aportes fueron publicados en un trabajo titulado An Essay Towards Solving a Problem in Doctrine of Chances publicado en 1763 (2 aos despus de su muerte), y el hoy llamado teorema de Bayes, fue publicado en 1764 en las Philosophical Transactions Vol 53, que es la base de la hoy llamada inferencia bayesiana. Es curioso que Bayes no haya intentado publicar sus trabajos, tanto su teorema como su trabajo publicado en 1763, fueron encontrados por amigos suyos luego de su muerte.
20
Observacin 3.2.
Dado que la -lgebra de Borel est engendrada por los conjuntos 1 abiertos, basta vericar que X (A) A, para todo A abierto (o para todo A en algn generador de la
-lgebra
de Borel).
-lgebra a 2 . ( ) Observacin 3.4. Toda constante, es vector aleatorio, cualquiera sea , A, P es1 pacio de probabilidad, ya que el conjunto X (A) es si la constante est en A o 1 vaco si no, en ambos casos X (A) A.
En varias ocasiones, es conveniente trabajar con funciones a valores en R = R {+, }. Para dichos casos ser conveniente extender la -lgebra de Borel a BR . Por suerte es posible hacerlo de una forma sencilla. Si le llamamos B a la -lgebra de Borel en R, denimos BR =
B {A {+, } : A B} {A {+} : A B} {A {} : A B} .
Se deja como ejercicio probar que BR es una -lgebra de Borel sobre R. Frecuentemente para simplicar la notacin, se suele escribir el conjunto X 1 (A) = {w : X(w) A} mediante la simple escritura de {X A} . As, por ejemplo al conjunto X 1 ((, a]) lo denotaremos por {X a} .
3.1. Propiedades.
Teorema 3.5. Dado X = (X1 , X2 , ..., Xk ) : Rk . Entonces, X es vector aleatorio
si y slo si
X1 , X2 , ..., Xk
R.
21
Comenzamos observando que cualesquiera sean los conjuntos A1 , A2 , ..., Ak , se tiene que k 1 X (A1 A2 ... Ak ) = Xi1 (Ai ) .
i=1
) Si A es un boreliano en R, entonces
i
((, a1 ) (, a2 ) ... (, ak )) =
k i=1
Xi1 ((, ai )) A
Rn .
Demostracin.
Dado un abierto A en Rn , entonces g 1 (A) es abierto por la continuidad de g , por lo que [ ] Y 1 (A) = (goX)1 (A) = X 1 g 1 (A) A.
Teorema 3.7.
X, X + Y
y
Si
X, Y : R
XY.
Es consecuencia inmediata de la propiedad anterior, ya que (X, Y ) es vector aleatorio en R2 , y lo componemos con las funciones continuas g : R2 R denidas como g(x, y) = x, g(x, y) = x + y y g(x, y) = xy respectivamente.
Demostracin.
Xn : R es variable aleatoria para todo n N, entonces tambin lo son las variables Y : R {+} tal que Y =sup{X1 , X2 , ..., Xn , ...} y Z : R {} tal que Z =inf{X1 , X2 , ..., Xn , ...} .
Si
Teorema 3.8.
Demostracin.
Basta observar que si tenemos una sucesin de nmeros reales {xn }nN , entonces, cualesquiera sea a R {+} se tiene que
((, a]) =
1 Xn ((, a]) A.
Entonces Y es variable aleatoria. Por otro lado, como Z = sup{X1 , X2 , ..., Xn , ...}, se deduce de lo recin probado que Z tambin es variable aleatoria.
: R {+}
y liminfXn
: R {}.
Demostracin.
Es consecuencia inmediata de la propiedad anterior ya que limsup Xn = inf supXk , y liminf Xn = sup inf Xk .
n kn n kn
xR
se tiene que
{X x} = X 1 ((, x]) A,
variable aleatoria.
En todas las (propiedades que siguen se sobreentiende que tenemos un espacio de ) probabilidad , A, P y X : R una variable aleatoria.
Teorema 3.12.
Demostracin.
FX
es montona creciente.
Teorema 3.13.
Demostracin.
x+
lim
FX (x) = 1.
Como FX es montona creciente, basta restringirse a una sucesin particular que tienda a +, por ejemplo lim FX (n).
n+
+ n=1
An =
, entonces por la propiedad de continuidad de las probabilidades se tiene que ( + ) lim FX (n) = lim P (An ) = P An = P () = 1.
n+ n+ n=1
23
Teorema 3.14.
Demostracin.
lim
FX (x) = 0.
Razonamos anlogamente al caso anterior, por lo que basta considerar lim FX (n). Consideramos ahora An = {X n} decrece a An = , por lo que se deduce que n=1 (+ ) lim FX (n) = lim P (An ) = P n=1 An = P () = 0.
n+ + n+
n+
Teorema 3.15.
Demostracin.
FX
Nuevamente, basta ver que lim FX (a+1/n) = FX (a). La sucesin An = {X a + 1/n} decrece a
+ n=1 n+
Teorema 3.16.
) = P (X < x),
xR
Demostracin.
Observacin 3.17.
FX (x ),
P (X = x) = FX (x)
x.
Notas. 1. Dado un espacio de probabilidad sobre un conjunto , (, A, P ) y tenemos una variable aleatoria en l X : R, la misma nos permite denir naturalmente un espacio de probabilidad donde el espacio muestral sea R. El mismo sera (R, B, FX ). Aqu hay un detalle tcnico y es el hecho de que FX debe estar denido en cualquier boreliano de R, pero un teorema de teora de la medida nos asegura que al ser FX creciente y positiva, y estar denida en los conjuntos de la forma (, x] para todo x R que generan la -lgebra de Borel, existe una nica extensin de FX a dicha -lgebra. 2. Recprocamente, si tenemos una funcin F : R R, que cumple las siguientes condiciones: i) F es montona creciente, ii) lim F (x) = 1, iii) lim F (x) = 0,
iv) F
es continua por derecha entonces, un teorema de teora de la medida nos ( ) dice que existe un espacio de probabilidad , A, P y una variable aleatoria X denida sobre este espacio tal que FX = F.
x+
24
Denicin 3.19.
Si X es discreta y se considera AX tal que P (X = x) > 0 para todo x AX , al conjunto AX le llamaremos Rec(X) .
Observacin 3.20.
AX =
X es discreta, slo una cantidad numerable de valores P (X = x) > 0 por lo que alcanza denir pX (x) para los x
Cuando Cuando
Rec(X).
X X
xRec(X)
pX (x) = 1.
FX (x) =
tRec(X) : t[x]
pX (t).
Captulo 3. Variable Aleatoria. Entonces diremos que X = X1 + X2 + ... + Xn (cantidad de xitos en las n pruebas), distribuye Bin(n, p). En este caso es claro que Rec(X) = {0, 1, 2, ..., n} y para obtener la funcin de probabilidad, observamos que si x {0, 1, 2, ..., n}, entonces P (X = x) signica la probabilidad de obtener x xitos (y por lo tanto nx fracasos). En primer lugar calculamos la probabilidad de que salga xito las primeras x veces y fracaso las siguientes n x veces. Este suceso es A1 A2 ... Ax Ac ... Ac donde Ai = x+1 n sale xito la vez i-sima. Como las pruebas son independientes, la probabilidad de esta interseccin es igual al producto de las mismas. Siendo p la probabilidad de cada xito, se deduce que la probabilidad de obtener xito las primeras x veces y fracaso las restantes es igual a px (1 p)nx . Ahora, si consideramos los x xitos y n x fracasos en cualquier otro orden, la probabilidad ser tambin px (1 p)nx , por lo tanto la probabilidad de obtener x xitos y n x fracasos, ser px (1 p)nx multiplicado por la cantidad de maneras en que se pueden combinar los x xitos y n x fracasos, de todas las maneras posibles. Para obtener dicho nmero, debemos elegir x lugares de entre los n para ubicar los xitos (en los restantes lugares van los fracasos), por lo n que el total de formas posibles es Cx . Entonces se obtuvo que
n pX (x) = Cx px (1 p)nx para todo x {0, 1, 2, ..., n} .
Observacin 3.28.
X =
cantidad de pruebas, tambin llamada con distribucin geomtrica y para la que se obtiene con el mismo argumento su funcin de probabilidad como
pX (x) = (1 p)x1 p
para todo
x {1, 2, 3, ...} . r, p.
Notacin:
En este caso se realizan de manera independiente pruebas de Bernoulli hasta obtener el r-simo xito. Aqu se dene la variable X = cantidad de fracasos. En este caso, se tiene que Rec(X) = {0, 1, 2, ...} . Adems, si x {0, 1, 2, ...}, el suceso {X = x} signica que las primeras x + r 1 veces, hubo r 1 xitos y x fracasos, y adems en la prueba x + r hubo xito. Entonces la probabilidad del suceso {X = x} es la probabilidad de que las primeras x + r 1 veces, hubo r 1 xitos y x fracasos, que x+r1 es (razonando como en la binomial) Cr1 pr1 (1 p)x multiplicado por p. Entonces
x+r1 pX (x) = Cr1 pr (1 p)x para todo x {0, 1, 2, ...} .
26
Observacin 3.30.
X =
probabilidad queda
para todo
x {r, r + 1, r + 2, ...} .
Denicin 3.33.
f es o(h ).
Observacin 3.34.
mayor que
o(h ) es h cuando h 0.
Se deja como ejercicio, vericar las siguientes propiedades concernientes al lgebra de funciones o(h ).
Lema 3.35.
tal que
p0 (t) = e
>0
( ] Para cada t > 0, partimos el intervalo [0, t] en n subintervalos i1 t, it (i = 1, 2, 3, ..., n) n n t de longitud constante e igual a n . Entonces, decir que en el intervalo [0, t], no]se ob( servaron sucesos, es equivalente a decir que en todos los subintervalos i1 t, it no se n n observaron sucesos. ( ) H3 p0 (t) = P (Xt = 0) = P Xt/n = 0; X2t/n Xt/n = 0; ...; Xt X(n1)t/n = 0 = ( ) P Xt/n = 0)P (X2t/n Xt/n = 0)...P (Xt X(n1)t/n = 0 = [ ]n P Xt/n = 0) = [p0 (t/n)]n .
H2
Demostracin.
Entonces obtuvimos que p0 (t) = [p0 (t/n)]n para todo t > 0. Entonces, para todo m natural tenemos que p0 (mt) = [p0 (mt/n)]n , pero por otro lado como el intervalo [0, mt] lo podemos partir en m intervalos de igual longitud t, tambin se cumple que p0 (mt) = [p0 (t)]m . Entonces [p0 (t)]m = [p0 (mt/n)]n , por lo que [p0 (t)]m/n = p0 (mt/n) 28
Captulo 3. Variable Aleatoria. para todos t > 0, m y n naturales. Hacemos t = 1 y obtenemos [p0 (1)]m/n = p0 (m/n) para todos m y n naturales. Tomando lmites, se deduce que [p0 (1)]t = p0 (t) para todo t > 0. Asumiendo que 0 < p0 (1) < 1, existe > 0, tal que p0 (1) = e y entonces p0 (t) = et para todo t > 0.
Teorema 3.36.
et (t)n pn (t) = n!
Demostracin.
para todo
t>0
n = 0, 1, 2, 3, ...
Sabemos que p0 (t) = et = 1 t + o(t). Como adems por H4 P (Xt 2) = o(t), se deduce que
P (Xt = n i; Xt+h Xt = i) .
Entonces
pn (t + h) = P (Xt = n; Xt+h Xt = 0) + P (Xt = n 1; Xt+h Xt = 1) + o(h) = P (Xt = n)P (Xt+h Xt = 0) + P (Xt = n 1)P (Xt+h Xt = 1) + o(h) = pn (t)ph (0) + pn1 (t) p1 (t) + o(h) = pn (t) (1 h + o(h)) + pn1 (t) (h + o(h)) + o(h).
H2
H3
Y como pn1 (t) y pn (t) son probabilidades, son acotadas, por lo que multiplicadas por o(h) dan o(h) y por lo tanto podemos asegurar que
Observacin 3.37.
pn (t) = pn1 (t) pn (t) en el caso n = 0 queda p0 (t) = p0 (t) que junto con la condicin inicial p0 (0) = 0 da por solucin p0 (t) = et . Por lo tanto si en H1 no pedimos que 0 < p0 (1) < 1 y a cambio pedimos que p1 (t) = t + o(t), obtenemos una demostracin del resultado, sin necesidad del lema
La ecuacin previo.
Teorema 3.39.
entonces
Si
es absolutamente continua y
es un boreliano cualquiera,
P (X A) =
A
fX .
La demostracin del teorema surge de la teora de la medida, pero es evidente si consideramos como conjunto A a un intervalo (a, b] cualquiera, ya que sabemos que
fX
fX =
a
fX .
Como los conjuntos de la forma (a, b] generan la -lgebra de Borel, por un argumento de teora de medida se extiende la igualdad para todo A boreliano. Observacin 3.40. Cuando decimos A fX , nos estamos reriendo a la integral de
Lebesgue, ya que la integral de Riemann est denida nicamente sobre intervalos, de todas formas la integral de Lebesgue coincide con la de Riemann sobre intervalos.
Observacin 3.41.
Si
fX = 1.
30
Observacin 3.42.
Si
P (X = a) = 0
cualquiera sea
a.
es continua ya que
y adems
de continuidad de
fX ,
entonces
FX
es derivable
Observacin 3.45.
misma en un conjunto de puntos de medida nula, no cambia la funcin de distribucin, ya que la integral sobre este conjunto valdr cero.
Observacin 3.46. Si f : R R es tal que f (x) 0 para( todo x ) R y cumple + f (x)dx = 1, entonces existe un espacio de probabilidad , A, P y una varia ble aleatoria X absolutamente continua tal que fX = f . Lo anterior se debe a que x deniendo F : R R tal que F (x) = f (t)dt, entonces, F es montona creciente, continua en todo punto, con lmites 1 y 0 a + y respectivamente. Luego
aplicamos el teorema de existencia de un espacio de probabilidad para estos casos.
dc f e = = P (e < X < f ) ba ba
por lo que intervalos incluidos en [a, b] de igual longitud tienen igual probabilidad.
2 > 0.
Notacin:
X
31
n+ D
lim
1 2
R2 x2 +y 2 ) (
2 =
R2
2 2 e (x +y ) dxdy =
1 2
x2 /2
dx
y 2 /2
( dy =
x2 /2
)2 dx
entonces,
ex
2 /2
dx =
2.
Ejemplo 3.50.
FY (y) = P (Y y) = P (max {X, 1/2} y) = P (X y, 1/2 y) = { { y < 1/2 0 si P (X y) si 1/2 y FX (y) si 1/2 y y si 1/2 y 1 = = P () si 1/2 > y 0 si 1/2 > y 1 si y>1
Por lo tanto, observando que P (Y = 1/2) = FY (1/2) FY (1/2 ) = 1/2 (lo cual nos asegura que Y no es absolutamente continua) y que P (Y = y) = 0 para todo y = 1/2 se deduce que Y tampoco puede ser discreta. 32
k i=1
Xi1 ((, xi ]) .
4.1. Propiedades.
Teorema 4.2.
la variable Fijado i, mirando
xi
FX1 ,X2 ,...,Xk : R R como funcin nicamente de jas), entonces FX1 ,X2 ,...,Xk es continua por derecha
y montona creciente.
x1 ,x2 ,...,xk +
lim
lim
Observacin 4.6.
Xi
+.
Teorema 4.7.
x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +
lim
para todo
i = 1, 2, 3, ..., k.
Captulo 4. Distribucin conjunta. Las demostraciones de estas propiedades se realizan de manera similar al caso univariado, haremos como ejemplo el teorema 1.3. Dado que FX1 ,X2 ,...,Xk es montona creciente como funcin de cada variable, basta hallar el lmite sobre alguna sucesin en particular en cada variable. Por ello, denik 1 mos los conjuntos An = Xi ((, n]) . Observamos que la sucesin de conjuntos
{An }nN crece a , luego por la propiedad de continuidad de las probabilidades se deduce que ( + ) lim FX1 ,X2 ,...,Xk (n, n, ..., n) = lim P (An ) = P An = P () = 1.
n+ n+ n=1
i=1
Teorema 4.8.
p Rk , i = 1, 2, 3, ..., k y h1 , h2 , ..., hk R+ denimos el (i) operador FX (p) = FX (p + hi ei ) FX (p), (donde e1 , e2 , ..., ek son los vectores de hi k la base cannica de R ) entonces
Si para cada
(k)
(1)
P (a < X b; c < Y d) = FX,Y (b, d) FX,Y (b, c) FX,Y (a, d) + FX,Y (a, c) .
Demostracin.
(k)
(1)
1 ,2 ,...,k {0,1}
(1)k
Pk
i=1 i
FX (p1 + 1 h1 , p2 + 2 h2 , ..., pk + k hk ) =
h1 , h2 , ..., hk R+ .
algn
lim
xi
F (x1 , x2 , ..., xk ) = 0,
iv)
0 para todo p Rk y
Observacin 4.9.
ser
En el caso en que
k = 1, se tiene que la condicin iv) se cumple F (b) F (a) para a < b condicin que se satisface al
34
montona creciente.
Teorema 4.10.
(X1 , X2 , ..., Xk )
tales
Teorema 4.12.
torio
(, A, P ),
(X1 , X2 , ..., Xk )
Xi
i = 1, 2, 3, ..., k.
) Existe A Rk numerable tal que P ((X1 , X2 , ..., Xk ) A) = 1. Entonces denimos A1 := 1 (A) , A2 := 2 (A) , ..., Ak := k (A) como las proyecciones sobre cada una de las componentes, es decir i : Rk R tal que i (x1 , x2 , ..., xk ) = xi para cada i = 1, 2, 3, ..., k. Observando que, para todo i = 1, 2, 3, ..., k, se tiene que {(X1 , X2 , ..., Xk ) A} {Xi Ai }, entonces 1 = P ((X1 , X2 , ..., Xk ) A) P (Xi Ai ) ,
entonces Xi es discreta. ) Como todas las Xi son discretas, entonces existen conjuntos A1 , A2 , ..., Ak R numerables tales que P (Xi Ai ) = 1 para todo i = 1, 2, 3, ..., k . Entonces denimos A = A1 A2 ... Ak es numerable (por ser producto cartesiano nito de conjuntos numerables) y adems, como interseccin nita de conjuntos de probabilidad 1 tiene probabilidad 1, nos queda (k ) P ((X1 , X2 , ...Xk ) A) = P {Xi Ai } = 1.
i=1
Demostracin.
Entonces (X1 , X2 , ...Xk ) es discreto. De manera anloga a las variables discretas, y dado que un vector discreto toma valores en un conjunto numerable con probabilidad 1, tiene sentido denir a funcin de probabilidad conjunta, como la probabilidad de tomar cada uno de los valores de su recorrido.
Denicin 4.13.
Si X = (X1 , X2 , ..., Xk ) es discreto, entonces le llamamos recorrido de X al conjunto Rec(X) = {x = (x1 , x2 , ..., xk ) Rk tales que P (X = x) > 0}. 35
Observacin 4.15.
Si
es boreliano en
Rk ,
entonces
P (X A) =
xARec(X)
Observacin 4.16.
xRec(X)
Supongamos un experimento donde se repiten de forma independiente n pruebas, donde en cada una de ellas hay k resultados posibles, digamos E1 , E2 , ..., Ek . La probabilidad en cada prueba de que se observe el resultado Ei es pi , para i = 1, 2, 3, ..., k , donde p1 + p2 + ... + pk = 1. Se denen para este experimento las variables X1 , X2 , ..., Xk , como Xi = cantidad de pruebas entre las n en que se obtuvo el resultado Ei para i = 1, 2, 3, ..., k. Se dice en estos casos que el vector (X1 , X2 , ..., Xk ) tiene distribucin multinomial con parmetros n, p1 , p2 , ..., pk . Notacin. (X1 , X2 , ..., Xk ) Mult(n, p1 , p2 , ..., pk ) . Vamos a deducir su funcin de probabilidad puntual. Fijemos x1 , x2 , ..., xk {0, 1, 2, ..., n} tales que x1 + x2 + ... + xk = n. El suceso {X1 = x1 , X2 = x2 , ..., Xk = xk } signica que de entre las n pruebas, x1 veces se obtuvo E1 como resultado, x2 veces se obtuvo E2 ,..., xk veces se obtuvo Ek . La probabilidad de que las primeras x1 veces se obtenga E1 , las siguientes x2 veces se obtenga E2 , y as sucesivamente hasta que las ltimas xk veces se obtenga Ek , es, debido a la independencia de cada prueba, igual a px1 px2 ...pxk . Si intercambiamos de lugar el 1 2 k orden donde salen las x1 veces E1 , x2 veces E2 , .... xk veces Ek , la probabilidad ser tambin px1 px2 ...pxk ya que x1 veces aparecer el factor p1 , x2 veces p2 , ..., xk veces 1 2 k pk . Por lo tanto la probabilidad de {X1 = x1 , X2 = x2 , ..., Xk = xk } ser px1 px2 ...pxk 1 2 k multiplicado por la cantidad de formas de elegir x1 lugares para ubicar las veces en que sale E1 , x2 lugares para ubicar las veces en que sale E2 ,..., xk lugares para ubicar las veces en que sale Ek . Para obtener este nmero, debemos primero elegir x1 lugares n entre los n para ubicar los E1 , esto se puede realizar de Cx1 formas, luego nos quedan n x1 lugares, disponibles, de los cuales debemos elegir x2 para ubicar los E2 , lo cual nx se puede realizar de Cx2 1 formas, luego quedan n x1 x2 lugares disponibles, de nx los cuales debemos elegir x3 para ubicar los E3 , lo que se puede realizar de Cx3 1 x2 formas, y as seguimos sucesivamente. n nx nx xk Al nal, el nmero de todas las combinaciones posibles es Cx1 Cx2 1 Cx3 1 x2 ....Cxk = n! . As obtuvimos que para todos x1 , x2 , ..., xk {0, 1, 2, ..., n} tales que x1 + x1 !x2 !...xk ! 36
i = 1, 2, 3, ..., k.
4.3.1.
Propiedades.
Dado un espacio de probabilidad
Teorema 4.20.
es absolutamente continuo con densidad k tonces, para todo boreliano A R se cumple que
(X1 , X2 , ..., Xk ) : Rk
(, A, P ).
Si el vector aleatorio
en-
P ((X1 , X2 , ..., Xk ) A) =
Demostracin.
Nuevamente el resultado se sigue del teorema de existencia y unicidad de extensin de medidas, ya que la propiedad es vlida para todo boreliano de la forma
A = (, x1 ] (, x2 ] ... (, xk ]
y dado que los mismos generan la -lgebra de Borel en Rk se concluye la demostracin. Observacin 4.21. El signicado de . . . f es el de la integral de Lebesgue, que
en el caso en que el boreliano la de Riemann.
37
Observacin 4.22.
P (X A) = 0.
Si el boreliano
Teorema 4.23.
(X1 , X2 , ..., Xk ) :
tonces,
Dado un espacio de probabilidad (, A, P ). Si el vector aleatorio Rk es absolutamente continuo con densidad fX1 ,X2 ,...,Xk , en-
k FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) x1 x2 ...xk
igualdad vlida para todos los nula.
(x1 , x2 , ..., xk ) Rk
Demostracin.
Basta derivar sucesivamente a la funcin x1 x2 FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = ...
xk
respecto a x1 , x2 , ..., xk en todo punto de continuidad de fX1 ,X2 ,...,Xk , el conjunto de puntos donde se puede realizar esta operacin es el de puntos de continuidad de fX1 ,X2 ,...,Xk que son todos salvo un conjunto de medida nula. En lo que sigue, responderemos a la siguiente pregunta: (X1 , X2 , ..., Xk ) es absolutamente continuo, es equivalente a decir que cada Xi es absolutamente continua para i = 1, 2, 3, ..., k ?
(, A, P ). Si el vector aleatorio (X1 , X2 , ..., Xk ) es absolutamente continuo, entonces Xi solutamente continua para todo i = 1, 2, 3, ..., k . Adems la densidad de Xi es fXi (ui ) = fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...dui1 dui+1 ...duk .
espacio de probabilidad
Rk1
Teorema 4.24.
(X1 , X2 , ..., Xk ) : Rk
Demostracin.
Sabemos que
1, 2, 3, ..., k , entonces
lim
lim
lim
x1
x2
...
(aplicando Fubini)
xi
... fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...dui1 dui+1 ...duk dui
Rk1
38
FXi (xi ) =
xi
... fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...dui1 dui+1 ...duk dui
Rk1
Observacin 4.25.
dice que si
(X, Y )
fX,Y ,
entonces
son
fX (x) =
fY (y) =
El recproco del teorema anterior no tiene por qu cumplirse, para ello consideremos el siguiente ejemplo. Denimos (X, Y ) vector en R2 , tal que (X, Y ) toma valores en la diagonal del cuadrado{[0, 1] [0, 1] con distribucin uniforme. Es decir, si denimos el conjunto } D = (x, y) [0, 1]2 : y = x , entonces para todo I D intervalo, se cumple que P ((X, Y ) A) = long(I)/ 2. Observamos en este caso que el vector (X, Y ) no es absolutamente continuo, ya que toma valores en un segmento con probabilidad uno. Como un segmento tiene medida nula, toda integral doble sobre dicho conjunto vale 0. Entonces, si (X, Y ) admitiera densidad, se tendra que 1 = P ((X, Y ) A) = fX,Y (x, y) = 0. Se deja como ejercicio, hallar la distribucin conjunta de (X, Y ) y deducir que tanto X como Y tienen distribucin uniforme en [0, 1] y por lo tanto X e Y son absolutamente continuas. Nuevamente, para que una funcin f : Rk R sea la funcin de densidad de un vector (X1 , X2 , ..., Xk ) en algn espacio de probabilidad, se debe cumplir que: i) f (x) 0 para todo x Rk (alcanza que sea para todo x salvo en un conjunto de medida nula) y + + + ii) ... fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )dx1 dx2 ...dxk = 1, ya que a partir de estas dos condiciones, deniendo x1 x2 xk ... fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...duk F (x1 , x2 , ..., xk ) =
A
se deducen de manera inmediata las 4 condiciones que requiere la funcin F para ser la distribucin de cierto vector aleatorio en cierto espacio de probabilidad.
Dados un vector (1 , 2 , ..., k ) Rk y una matriz de dimensiones k k, simtrica y denida positiva, se dice que el vector (X1 , X2 , ..., Xk ) tiene distribucin normal multivariada con parmetros (, ) si su densidad viene dada por la frmula fX (x) = fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = ( 2 1 )k e det ( )
P 1 (x) 1 (x)T 2
39
Observacin 4.27.
de parmetros
k=1
(, 2 ) .
Para vericar que sta funcin integra 1, basta realizar en la misma el cambio de variable t = (x )A1 siendo A una matriz tal que A2 = (una raz cuadrada de ) y luego observar que 1 T 1 tt ... ( )k e 2 dt1 dt2 ...dtk = Rk 2 1 2 1 2 2 ... e 2 (t1 +t2 +...+tk ) dt1 dt2 ...dtk = ( )k Rk 2 + + + 1 2 1 2 1 2 1 t1 t2 e 2 dt1 e 2 dt2 ... e 2 tk dtk = 1 ( )k 2 ya que qued un producto de k integrales donde cada funcin integrando es la densidad normal (0, 1) que integra 1. Se puede probar que cuando X = (X1 , X2 , ..., Xk ) es normal multivariado, entonces 2 la distribucin de cada Xi es N (i , i ) para i = 1, 2, 3..., k . El caso particular en que k = 2, se llama tambin normal bivariada, y en este caso si ( 2 ) 1 1,2 = (1 , 2 ) y = , obtenemos la frmula 2 1,2 2
fX,Y (x, y) =
e (
1 2 2 2 2 1 2 1,2
2 2 2 2 2 2 (x2 2 +y2 1 +1 2 +2 2 2xy1,2 +2x2 1,2 +2y1 1,2 2x2 1 2y1 2 21 2 1,2 ) 2 1
2 2 2 1 2 1,2
( ) Dado , A, P espacio de probabilidad, se dice que las variables aleatorias X1 , X2 , ..., Xk son independientes si y slo si para todos A1 , A2 , ..., Ak borelianos, se cumple que P (X1 A1 , X2 A2 , ..., Xk Ak ) = P (X1 A1 ) P (X2 A2 ) ...P (Xk Ak ) .
Observacin 4.29.
X1
y
tomadas de a dos o de a tres, etc son indpendientes, ya que por ejemplo para ver que
A3 = A4 = ... = Ak = con lo que obtenemos P (X1 A1 , X2 A2 ) = P (X1 A1 ) P (X2 A2 ) . ( ) Teorema 4.30. Dado , A, P espacio de probabilidad, entonces las variables aleatorias X1 , X2 , ..., Xk son independientes si y slo si se cumple que
son independientes, basta considerar
X2
FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX1 (x1 ) FX2 (x2 ) ...FXk (xk )
para todo
(x1 , x2 , ..., xk ) Rk .
40
) Basta considerar los borelianos A1 = (, x1 ] , A2 = (, x2 ] , ..., Ak = (, xk ], entonces P (X1 A1 , X2 A2 , ..., Xk Ak ) = FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )
mientras que
P (X1 A1 ) P (X2 A2 ) ...P (Xk Ak ) = FX1 (x1 ) FX2 (x2 ) ...FXk (xk )
y como las variables son independientes, se obtiene la igualdad buscada. ) La igualdad FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX1 (x1 ) FX2 (x2 ) ...FXk (xk ) para todo (x1 , x2 , ..., xk ) Rk implica que se cumple que P (X1 A1 , X2 A2 , ..., Xk Ak ) = P (X1 A1 ) P (X2 A2 ) ...P (Xk Ak ) para los borelianos en Rk de la forma A1 A2 ... Ak = (, x1 ] (, x2 ] ... (, xk ] . Luego, como esta familia de borelianos (al variar x1 , x2 , ..., xk ) generan la -lgebra de Borel en Rk , por extensin, se deduce que la propiedad es vlida para todos A1 , A2 , ..., Ak borelianos. Dado que en el caso discreto determinar la distribucin conjunta es equivalente a determinar la funcin de probabilidad conjunta, y en el caso absolutamente continuo, determinar la funcin de distribucin es equivalente a determinar la densidad conjunta (salvo conjuntos de medida nula), se tienen los siguientes corolarios.
Corolario 4.31. En el caso discreto, se tiene que las variables aleatorias X1 , X2 , ..., Xk
son independientes si y slo si se cumple que
pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = pX1 (x1 ) pX2 (x2 ) ...pXk (xk )
para todo
(x1 , x2 , ..., xk ) Rk .
Demostracin.
) Cualesquiera sean los reales x1 , x2 , ..., xk basta considerar los borelianos A1 = {x1 }, A2 = {x2 }, ..., Ak = {xk } y usar la denicin de independencia. ) Dados los reales x1 , x2 , ..., xk , se tiene que FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = pX1 ,X2 ,...,Xk (t1 , t2 , ..., tk ) = ...
t1 Rec(X1 ) : t1 x1 tk Rec(Xk ) : tk xk
t1 Rec(X1 ) : t1 x1
...
tk Rec(Xk ) : tk xk
t1 Rec(X1 ) : t1 x1
pX1 (x1 )
t2 Rec(X2 ) : t2 x2
pXk (xk ) =
41
Corolario 4.32.
absolutamente continuo, se tiene que las variables aleatorias pendientes si y slo si se cumple que
fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = fX1 (x1 ) fX2 (x2 ) ...fXk (xk )
para todo
Demostracin.
) FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX1 (x1 )FX2 (x2 )...FXk (xk ), para todo (x1 , x2 , ..., xk ) Rk punto de continuidad de fX1 ,X2 ,...,Xk , si derivamos sucesivamente de ambos lados de la igualdad, primero respecto de x1 luego respecto de x2 ... y por ltimo respecto de xk , del lado izquierdo queda fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) y del derecho queda fX1 (x1 )fX2 (x2 )...fXk (xk ), por lo tanto la igualdad se obtiene en todo punto de Rk , salvo en un conjunto de medida nula. ) x1 x2 xk FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = ... fX1 (u1 )fX2 (u2 )...fXk (uk )du1 du2 ...duk =
x1
x2
xk
FX1 (x1 )FX2 (x2 )...FXk (xk ). ( ) Denicin 4.33. Dado , A, P espacio de probabilidad, se dice que la familia de variables aleatorias {Xt }tI donde I es una familia arbitraria de ndices si y slo si para todo F I nito, se cumple que {Xt }tF son independientes.
Si el vector X = (X1 , X2 , ..., Xk ) es normal multivariado, con par metros (, ), donde la matriz es diagonal, es decir cuando i,j = 0 para todos i = j , observamos que
1 k ( xi i )2 T (x ) (x ) = i i=1
Ejemplo 4.34.
xi i i
xi i i
por lo que se deduce que X1 , X2 , ..., Xk son independientes cuyas distribuciones son 2 ) Xi N (i , i para i = 1, 2, 3, ..., k . Ms adelante se ver el signicado de los parmetros (, ) . 42
Teorema 4.35.
Entonces:
(, A, P ) .
Consideremos
X, Y : R denidas la variable Z = X + Y.
sobre un espa-
(i)
Si
pZ (z) =
(ii)
Z es
discreta y adems
xRec(X) zxRec(Y )
pX (x)pY (z x).
Si
(X, Y )
es absolutamente continua y
adems
fZ (z) =
fX (x)fY (z x)dx.
Demostracin.
(i)
pZ (z) = P (Z = z) = P (X + Y = z) =
xRec(X)
xRec(X)
P (X + Y = z; X = x) = P (Y = z x) P (X = x) =
P (Y = z x; X = x) =
xRec(X) zxRec(Y )
xRec(X), zxRec(Y )
pX (x)pY (z x).
(ii)
fX (x)fY (y)dxdy =
A
zx
) fX (x)fY (y)dy dx =
zx
) fY (y)dy fX (x)dx
ahora realizando en la integral en y el cambio de variable t = y + x y nos queda ) ) + ( z z ( + fY (t x)dt fX (x)dx = fX (x)fY (t x)dx dt.
43
Captulo 4. Distribucin conjunta. Si X N (1 , a2 ) , Y N (2 , b2 ) son independientes, entonces Z = X + Y N (1 + 2 , a2 + b2 ) . Basta probarlo para el caso 1 = 2 = 0, ya que si X N (, 2 ) ,entonces X = +T donde T N (0, 2 ) . Aplicamos entonces la frmula de la convolucin y obtenemos que + + 2 x2 (zx) 1 fZ (z) = fX (x)fY (z x)dx = fZ (z) = e 2a2 e 2b2 dx = 2ab
Ejemplo 4.36.
( ) 1 za2 Luego de hacer el cambio de variable t = ab x a2 + b2 a2 +b2 , obtenemos que la ltima integral es igual a + 2 z 2 z 2 t 1 1 2(a2 +b2 ) e 2 dx = e 2(a2 +b2 ) e 2 a2 + b2 2 (a2 + b2 )
que es la funcin de densidad correspondiente a una variable con distribucin N (0, a2 + b2 ) . Observamos que de esta propiedad, se deduce que toda combinacin lineal de variables normales independientes es normal.
1 2(az2 2 ) e 2 +b 2ab
1 2a2 b2
2 x a2 +b2 za 2
a +b2
dx.
Ejemplo 4.37.
Si X Bin(n, p), Y Bin(m, p) son independientes, entonces Z = X + Y Bin(n + m, p) . En este caso, pZ (z) = P (Z = z) = P (X + Y = z) =
n+m x=0
P (Y = z x) P (X = x) =
x
:
x
:
xn, zxm
xn, zxm
m n Czx Cx
xn, zxm
Ahora, teniendo en cuenta el coeciente que multiplica al trmino tz cuando desarrollamos (1 + t)n (1 + t)m = (1 + t)n+m , obtenemos la igualdad m n n+m Czx Cx = Cx
x
:
xn, zxm
Por lo tanto
44
( ) fY (y) = fX g 1 (y)
Demostracin.
Basta ver que para todo boreliano B en Rk , se puede expresar P (Y B) como una integral sobre el conjunto B de cierta funcin, la cual ser necesariamente (salvo conjuntos de medida nula) la densidad del vector Y.
P (Y B) = P (g(X) B) = P X g
(B) =
g 1 (B)U
Ahora, realizando el cambio de variable y = g(x) en la integral nos queda 1 fX (g 1 (y)) dy1 dy2 ...dyk = |detJg (g 1 (y))|
BV
( ) fX g 1 (y)
En el caso particular en que k = 1 tenemos el siguiente corolario. ( ) Corolario 4.39. Dados , A, P espacio de probabilidad, X : R variable aleatoria y g : U V donde U, V son abiertos de R tales que P (X U ) = 1, g es biyectiva y derivable, con g (x) = 0 para todo x U. Si X es absolutamente continua entonces Y = g(X) es absolutamente continua con
densidad dada por
( ) fY (y) = fX g 1 (y)
1 |g (g 1 (y))|
1V (y).
Ejemplo 4.40.
Como aplicacin veremos que si X, Z N (0, 1) independientes, y denimos Y = |Z| entonces probaremos que X 2 + Y 2 Exp( = 1/2) . 45
Captulo 4. Distribucin conjunta. En primer lugar observamos que, para y > 0, se tiene que FY (y) = P (|Z| y) = P (y Z y) = FZ (y)FZ (y) = 2FZ (y)1, por lo tanto fY (y) = 2fZ (y)1{y>0} = ( ) y 2 2 e 2 1{y>0} . Tambin vemos que P (X, Y ) R R+ = 1. 2 Consideramos la funcin g : R R+ V siendo V = {(u, v) R2 : v > u2 } tal que y) ) (x, x2 + y 2 ) . Esta funcin es invertible y su inversa es g 1 (w, t) = g(x, = ( 2 . detJ (x, y) = 2y. w, t w g Dado que X e Y son independientes, se tiene que su densidad conjunta es fX,Y (x, y) = 1 2 2 f (x)f (y) = 1 e 2 (x +y ) 1 . La densidad conjunta de (W, T ) = g (X, Y ) = (X, X 2 + Y 2 ) ser entonces
X Y {y>0}
fT (t) =
+
si
luego, realizando el cambio de variable u = tsen obtenemos fT (t) = 1 et/2 y, dado 2 que para t < 0, se tiene fT (t) = 0, se deduce que 1 fT (t) = et/2 1{t>0} 2
por lo que V = X 2 + Y 2 Exp( = 1/2) . Ejercicio. Si X e Y son independientes con distribucin exponencial de parmetro = 1. Hallar la densidad conjunta del vector (X + Y, X Y ) .
t>0
1 v 1 e2 dw 2 t w2
46
Denicin 5.1.
Dadas g, F : [a, b] R y P particin (con sus correspondientes puntos intermedios ci ), denimos la suma parcial de Riemann-Stieltjes como
S (P, g, F ) =
n i=1
Observamos que cuando F (x) = x, si le pedimos a g que sea integrable Riemann, b dichas sumas se acercarn indenidamente al valor a g(x)dx conforme anemos sucientemente la particin, en esa direccin apuntaremos.
Denicin 5.3.
si dado > 0, existe > 0 tal que para toda P particin de [a, b] (con sus correspondientes puntos intermedios ci ) con P < , se cumple que |S (P, g, F ) I| < .
Notacin:
a
Dadas g, F : [a, b] R , si existe y es nito lim S (P, g, F ) = I , diremos que la integral de Riemann-Stieltjes de g respecto de F en el intervalo [a, b] existe y vale I.
b P 0
gdF =
a
g(x)dF (x).
47
Observacin 5.5.
F (x) = x, [a, b] .
Ejemplo 5.6.
b a
Si F (x) = k constante, entonces cualquiera sea g : [a, b] R existe b gdF y adems a gdF = 0. { [c, Ejemplo 5.7. Si g : [a, b] R es continua, F (x) = 1[c,b] = 1 si x no b] con 0 si b b c (a, b) existe a gdF y adems a gdF = g(c). { [a, Ejemplo 5.8. Si g(x) = F (x) = 1[a,c] = 0 si xsino c] con c (a, b) entonces 1 b no existe a gdF . Ejemplo 5.9. Si g(x) = k constante, entonces existe ab gdF para cualquier F y vale b kdF (x) = k (F (b) F (a)) . a b Veremos en lo que sigue un par de caracterizaciones para la existencia de a gdF.
Teorema 5.10.
(a) Existe lim
P 0
S (P, g, F )
y vale
(nito).
> 0, existe > 0 tal que si P y Q son dos particiones de [a, b] P < y Q < , se cumple que |S (P, g, F ) S (Q, g, F )| < . [a, b]
tales que
tales que
Pn 0
se cumple
lim
S (Pn , g, F ) = I.
Demostracin.
(a) (b) Dado > 0, existe > 0 tal que para toda P particin de [a, b] (con sus correspondientes puntos intermedios ci ) tal que P < , se cumple que |S (P, g, F ) I| < /2. Entonces si tomamos P y Q dos particiones de [a, b] tales que P < y Q < , se cumplir que |S (P, g, F ) S (Q, g, F )| |S (P, g, F ) I| + |S (Q, g, F ) I| < /2 + /2 = . (b) (c) Fijamos {Pn } sucesin de particiones en [a, b] tales que Pn 0. Dado > 0, tomamos el > 0 de la condicin de Cauchy, y por lo tanto existir un n0 tal que Pn < para todo n n0 . Entonces si consideramos n, m n0 , obtendremos que | S (Pn , g, F ) S (Pm , g, F )| < por lo que la sucesin {S (Pn , g, F )} es de Cauchy, entonces existir I R tal que lim S (Pn , g, F ) = I.
Observamos que el valor de I depende de la eleccin de la sucesin de particiones, faltara probar que el lmite es el mismo cualquiera sea la sucesin de particiones. 48
n+
Captulo 5. Integral de Riemann-Stieltjes. Consideremos entonces {Pn } otra sucesin de particiones en [a, b] tales que Pn 0 y sea I tal que lim S (Pn , g, F ) = I . Consideramos entonces la siguiente sucesin de particiones: P1 , P1 , P2 , P2 , ..., Pn , Pn , .... entonces es claro que esta nueva sucesin, llammosle {Qn } , cumple que Qn 0 y por lo tanto existe I tal que lim S (Qn , g, F ) = I . Pero {S (Pn , g, F )} y {S (Pn , g, F )}son subsucesiones de
n+
{S (Qn , g, F )} y por lo tanto I = I = I . (c) (a) Supongamos por absurdo que (a) no es cierto, entonces existe > 0 tal que para todo > 0, existe una particin P , tal que |S (P , g, F ) I| . Tomando = 1/n, encontramos una sucesin de particiones {Pn } tal que para todo n, |S (Pn , g, F ) I| entonces lim S (Pn , g, F ) = I .
n+
n+
existe
Teorema 5.11.
b a
Si
g : [a, b] R
es continua y
gdF.
Demostracin.
Probaremos que se cumple la condicin de Cauchy. Fijamos > 0. Como g es uniformemente continua en [a, b] existe > 0 tal que si |x y| < entonces |g(x) g(y)| < .Tomamos una particin P = {a, x1 , x2 , ..., xn1 , b} con puntos intermedios F (b)F (a)
ci [xi1 , xi ] i = 1, 2, ..., n y una particin Q = {a, y1 , y2 , ..., ym1 , b} con puntos intermedios di [yi1 , yi ] i = 1, 2, ..., m. S (P, g, F ) = n g(ci ) (F (xi ) F (xi1 )), i=1 S (Q, g, F ) = m g(di ) (F (yi ) F (yi1 )) . i=1 Unimos los puntos que forman la particin P con la de Q, a la que le llamamos {a, z1 , z2 , ..., zk1 , b} (k n + m 1 pues algunos puntos de P pueden coincidir con algunos de Q). Podemos escribir entonces S (P, g, F ) =
k i=1
k i=1
donde los ci son los mismos que los ci (ms explcitamente, cuando [zj1 , zj ] [ci1 , ci ] entonces cj = ci ). Anlogamente, di son los mismos que los di . Observamos que|ci di | < si le pedimos a las particiones P y Q, P < /2 y Q < /2 . Entonces
|S (P, g, F ) S (Q, g, F )| =
k i=1 k i=1
k i=1
Nota.
Con la misma idea, se puede probar que si F es montona creciente y g es acotada y tiene una cantidad nita de discontinuidades, pero F y g no tienen b discontinuidades en comn, entonces existe a gdF. 49
Teorema 5.12.
derivable tal que
es continua y todo
x [a, b],
b
siendo
F : [a, b] R es f integrable
montona y Riemann en
[a, b] ,
entonces
g(x)dF (x) =
a
g(x)f (x)dx.
Demostracin.
Dada una particin P de [a, b] , existen di [xi1 , xi ] i = 1, 2, ..., n tales que F (xi ) F (xi1 ) = f (di ) (xi xi1 ), ahora si elegimos como puntos intermedios de la particin a los di , obtenemos
S (P, g, F ) =
n i=1
n i=1
Tomando lmite cuando P 0 se obtiene el resultado ya que la ltima sumatoria tiende a la integral de Riemann de g(x)f (x) en [a, b] (producto de funciones integrables Riemann es integrable Riemann).
5.1. Propiedades.
Proposicin 5.13.
y
b
a
hdF
entonces
ms
b g, h, F : [a, b] R son tales que existen las integrales a gdF b tambin existe a (g + h) dF cualesquiera sean , R y ade b b b (g + h) dF = gdF + hdF.
Si
a a a
Demostracin.
S (P, g + h, F ) =
n i=1
n i=1
n i=1
b
a
hdG
adems
hdF , R y
a
50
S (P, h, F + G) =
n i=1
n i=1
por lo que tomando lmite cuando P 0 se obtiene el resultado. Proposicin 5.15. Si g, F : [a, b] R son tales que existe ab gdF entonces c b quiera sea c (a, b), se cumple que existen a gdF y c gdF y adems
cual-
gdF =
a
gdF +
c
gdF.
Demostracin.
c b Primero probaremos que existe a gdF usando la condicin de Cauchy. Como a gdF existe, jado > 0, existe > 0 tal que si P y Q son dos particiones de [a, b], donde P < y Q < se cumple que |S (P, g, F ) S (Q, g, F )| < . Consideremos
entonces P y Q dos particiones de [a, c] tales que P < y Q < . Completamos P y Q a P y Q particiones de [a, b] , agregando los mismos puntos de modo que P < ( ) ( ) y Q < . Entonces S P , g, F S Q, g, F = |S (P, g, F ) S (Q, g, F )| < . c b Por lo tanto existe a gdF. Anlogamente se prueba que existe c gdF. Sabemos ahora que las tres integrales existen. Consideramos entonces la sucesin de particiones {Pn } tales que Pn 0 y tales que c Pn para todo n. Podemos escribir entonces
(1)
(2)
(1)
(1)
0 y Pn es particin
(2)
gdF =
a
gdF +
c
gdF.
es montona creciente
y existe
Proposicin 5.16. Si g, F
b a
g(x)dF (x),
entonces
gdF 0.
51
S (P, g, F ) =
n i=1
gdF 0.
que
Proposicin 5.17.
creciente y existen
Si
b a
g h, F
es montona
g h 0, entonces por la propiedad anterior 0 b b por lo que se deduce que a gdF a hdF. x [a, b] , F
Demostracin.
(g h)dF = a
b
a
gdF
b
a
hdF
Proposicin 5.18.
g, F : [a, b] R
b
g(x)
para todo
(F (b) F (a))
a
Demostracin.
Proposicin 5.19.
creciente, entonces
Si
g : [a, b] R
a b
es continua y
F : [a, b] R
es montona
g(x)dF (x)
a
|g(x)| dF (x).
Demostracin.
|S (P, g, F )| =
n i=1
n i=1
Proposicin 5.20.
Si
g, F : [a, b] R son tales que g es continua, F es b existe c [a, b] tal que a gdF = g(c) (F (b) F (a)) .
Demostracin.
La existencia de la integral se debe a que g es continua y F es montona. Como g es continua, por el toerema de Weierstrass tiene mnimo y mximo que les llamamos m y R
M respectivamente. Entonces por la propiedad anterior, se tiene que m M y como g es continua, resulta que existe c [a, b] tal que
a gdF F (b)F (a)
Rb
b a
= g(c).
52
g, F : [a, b] R
tambin existe
b
a
F dg
Demostracin.
ai bi =
n1 i=1
n i=1
ai .
Tomamos una particin cualquiera P = {a, x1 , x2 , ..., xn1 , b} con correspondientes puntos intermedios c1 , c2 , ..., cn . Si aplicamos dicha frmula para S (P, F, g) = n F (ci ) (g (xi ) g (xi1 )) tomando ai = g (xi )g (xi1 ) y bi = F (ci ), i=1 obtenemos
S (P, F, g) =
n1 i=1 n1 i=1 n1 i=1
n1 i=1
g(xi ) (F (ci ) F (ci+1 )) (F (c1 ) F (cn )) g(a) + F (cn ) (g(b) g(a)) = g(xi ) (F (ci ) F (ci+1 )) F (c1 )g(a) + F (cn )g(b) =
g(xi ) (F (ci ) F (ci+1 ))+(F (a) F (c1 )) g(a)+(F (cn ) F (b)) g(b)+F (b)g(b)F (a)g(a) = S(P , g, F ) + g(b)F (b) g(a)F (a)
siendo P la particin formada por los puntos a, c1 , c2 , ..., cn , b y los puntos intermedios son a, x1 , x2 , ..., xn1 , b. Observamos adems que P 2 P por lo que tomando lmite cuando P 0 en la igualdad
S(P, F, g) = S(P , g, F ) + g(b)F (b) g(a)F (a) b obtenemos que existe a F dg y la frmula de partes.
Proposicin 5.22.
Si
g, F : [a, b] R son tales que a gdF existe, h : [c, d] [a, b] d biyectiva, entonces c g ohd (F oh) y adems d b g(h(t))dF (h(t)) = g(x)dF (x).
c a
Cambio de variable.
b
es continua y
53
Supondremos que h es creciente, el caso decreciente es anlogo. Si P = {c, t1 , t2 , ..., tn1 , d} es una particin de [c, d] con puntos intermedios ci [ti1 , ti ] i = 1, 2, ..., n entonces
n i=1
siendo P = {a, h(t1 ), h(t2 ), ..., h(tn1 ), b} con puntos intermedios h(ci ) (esto se puede hacer ya que h es creciente y biyectiva). Adems como h es continua, si P 0 entonces h (P ) = P 0, lo cual se deduce ya que h es uniformemente continua (dado > 0 existe > 0 tal que si |x y| < entonces |h(x) h(y)| < ). Por d lo tanto tomando lmite cuando P 0 se deduce que c g ohd (F oh) existe y la frmula buscada.
Si g, F : R R son tales que a gdF existe cualesquiera sean a y b, denimos + b gdF = lm gdF.
a b+ a
Denicin 5.25.
+
Dadas g :R C (g = g1 + g2 ) F : R R, diremos que existe + + gdF si y slo si existen g1 dF y g2 dF y adems + + + gdF = g1 dF + i g2 dF.
FX
X,
b Basta observar que a dFX (x) = FX (a) FX (b) de donde se deduce el resultado. Nota. Se puede probar que A dFX (x) = P (X A) cualquiera sea A boreliano en R (donde nuevamente el signicado de esta integral es el de Lebesgue).
Proposicin 5.27.
R
Si
X
a b
A = {x1 , x2 , ...}
g : [a, b]
es continua, entonces
g(x)dFX (x) =
Demostracin.
x(a,b]A
g(x)pX (x).
FX (x) = i : xi x pX (xi ) = i pX (xi )1[xi ,+) (x). Denimos para cada n, An = n {x1 , x2 , ..., xn } y Fn (x) = i=1 pX (xi )1[xi ,+) (x). Dado > 0, existe n0 tal que para cada n n0 se cumple que P (X An ) 1 /n. Por lo tanto para cada x R se tiene que 0 FX (x) Fn (x) /n (para n n0 ) . Como g es continua, entonces |g(x)| k para todo x [a, b] y por lo tanto
a b
g(x)dFn (x) =
a
g(x)d
( n
i=1
n i=1
pX (xi )
a
g(x)dFX (x) =
i : xi (a,b]An
i : xi (a,b]An b
g(x)dFn (x) +
a
Proposicin 5.28. Si
es continua, entonces
fX
g : [a, b] R
g(x)dFX (x) =
a
g(x)fX (x)dx.
Demostracin.
55
pij = P ((X, Y ) (xi1 , xi ] (yj1 , yj ]) = FX,Y (xi , yj ) FX,Y (xi1 , yj ) FX,Y (xi , yj1 ) + FX,Y (xi1 , yj1 ).
Denimos la norma de la particin como P =mx{ PX , PY } . Como en el caso univariado diremos que lim S (P, g, FX,Y ) = I si y slo si dado > 0, existe > 0 tal que para toda P particin de [a, b][c, d] (con sus correspondientes puntos intermedios ci y ci ) con P < , se cumple que |S (P, g, FX,Y ) I| < .
P 0
Dadas g : [a, b] [c, d] R , FX,Y : R2 R funcin de distribucin de un vector aleatorio (X, Y )si existe lim S (P, g, F ) = I , diremos que la integral de RiemannStieltjes de g respecto de FX,Y en [a, b] [c, d] existe y vale I. Notacin:
gdF =
[a,b][c,d]
Es vlido el mismo teorema de las tres equivalencias para la existencia de la integral, probadas en el caso univariado, con demostraciones anlogas. De manera anloga se prueban tambin el siguiente teorema y las propiedades que siguen.
Teorema.
[a,b][c,d]
Propiedades.
gdF.
Las siguientes propiedades, pueden ser demostradas de manera similar al caso univariado. 1. Si g, h : [a, b] d] R F = FX,Y son tales que existen las integrales [c, gdF y [a,b][c,d] hdF entonces tambin existe [a,b][c,d] (g + h) dF [a,b][c,d] cualesquiera sean , R y adems (g + h) dF = gdF + hdF.
[a,b][c,d] [a,b][c,d] [a,b][c,d]
56
Captulo 5. Integral de Riemann-Stieltjes. 2. Si F, G son distribuciones, h : [a, b][c, d] R, son tales que existen las integra les [a,b][c,d] hdF y [a,b][c,d] hdG entonces tambin existe [a,b][c,d] hd (F + G) cualesquiera sean , R y adems hd (F + G) = hdF + hdG.
[a,b][c,d] [a,b][c,d] [a,b][c,d]
3. Si F es distribucin, g [a, b] [c, d] R son tales que g 0, y existe : gdF , entonces [a,b][c,d] gdF 0. [a,b][c,d] 4. Si F es distribucin, g, h : [a, b] [c, d] R son tales que g h, y existen gdF y [a,b][c,d] hdF entonces [a,b][c,d] gdF [a,b][c,d] hdF. [a,b][c,d]
5.5.1. Aplicaciones a la teora de la probabilidad.
1. Si FX,Y es la funcin de distribucin de una vector aleatorio (X, Y ), entonces dFX,Y (x, y) = P (a < X b, c < Y d) ..
[a,b][c,d]
2. Si (X, Y ) es discreto cuyo recorrido es A = {(xi , yj )}i,j y g : [a, b] [c, d] R es continua, entonces g(x, y)pX,Y (x, y) g(x, y)dFX,Y (x, y) =
[a,b][c,d] (x,y)(a,b](c,d]A
3. Si (X, Y ) es absolutamente continuo con funcin de densidad fX,Y y g : [a, b] [c, d] R es continua, entonces g(x, y)dFX,Y (x, y) = g(x, y)fX,Y (x, y)dxdy
[a,b][c,d] [a,b][c,d]
5.5.2.
Dadas g : Rn R y FX1 ,X2 ,...,Xn distribucin conjunta del vector (X1 , X2 , ..., Xn ) g(x1 , x2 , ..., xn )dFX1 ,X2 ,...,Xn (x1 , x2 , ..., xn ) =
Denicin 5.30.
lm ai bi + para todo i
Rn
57
: R variable
+ Diremos tambin que existe E (X) cuando se cumple que |x| dFX (x) < +. ( ) Denicin 6.2. Dado un , A, P espacio de probabilidad, si A A es tal que P (A) = 1, diremos que el suceso A ocurre casi seguramente (c.s.).
Observacin 6.3.
ocurre c.s.) y existe vale 0.
Si
A R es un boreliano tal que P (X A) = 1 (es E(X), entonces E(X) = A xdFX (x), ya que sobre Ac
decir si
la integral
Observacin 6.4.
y adems
X es discreta, observando que para x R se cumple que cada pX (x) = FX (x)FX (x ), entonces existe E(X) si y slo si xRec(X) |x|pX (x) < +
Si
E (X) =
xRec(X)
xpX (x).
Observacin 6.5.
punto
y adems
Si X es absolutamente continua, como FX (x) = fX (x) en todo + x de continuidad de fX , entonces entonces existe E(X) si y slo si |x|fX (x)dx <
E (X) =
xfX (x)dx.
Observacin 6.6.
mente continuo.
rado, se realiza para evitar problemas de convergencia debido a la reordenacin de trminos en el caso de la serie, o reordenacin en los intervalos en el caso absoluta-
Cuando X 0 casi seguramente, resulta FX (x) = 0 para todo x < 0, por lo tanto + + xdFX (x) = 0 xdFX (x) 0 lo cual motiva la siguiente denicin.
E(X) = +.
Denicin 6.7.
Si X 0 casi seguramente, y
6.2. Ejemplos.
Ejemplo 6.8.
Si X Ber(p) entonces E (X) = p ya que E(X) = 0.P (X = 0) + 1.P (X = 1) = p. Ejemplo 6.9. Si X Bin(n, p) entonces E (X) = np. E(X) = n xP (X = x) = x=0 n n xCx px (1 p)nx = np. Se deja como ejercicio, vericar la anterior igualdad. x=0 + 2 1 1 Ejemplo 6.10. Si X N (, 2 ) entonces E (X) = x 22 e 22 (x) dx = . Se deja como ejercicio, vericar la anterior igualdad.
59
y < 1/2 0 si Ejemplo 6.11. Como habamos observado anteriormente, FY (y) = y si 1/2 y 1 , 1 si y>1 FY tiene un nico salto en 1/2, y adems es derivable en [1/2, 1] con FY (y) = 1, por lo tanto, obtenemos + 1 ) 1( 5 ydFY (y) = E (Y ) = ydy = . FY (1/2) FY (1/2 ) + 2 8 1/2
6.3. Propiedades.
En las siguientes propiedades se considera dado un espacio de probabilidad (, A, P ) .
Teorema 6.12.
P (X 0) = 1)
y
Si
tal que
X0
Demostracin.
Como X 0, entonces se tiene que FX (x) = 0 para todo x < 0. Entonces, se cumple que + + 0 = E (X) = xdFX (x) = xdFX (x) 0.
0
Teorema 6.13.
Demostracin.
Si
X :R
es tal que
X =a
E (X)
y adems
E (X) = a.
Es decir,
P (X = a) = 1) E (a) = a.
E (a) = aP (X = a) = a.
Teorema 6.14.
entonces
Si
X:R
X0
c.s. y
E (X) = 0,
X = 0.
c.s.
Demostracin.
Como X 0, se deduce se tiene que FX (x) = 0 para todo x < 0. Entonces, cualesquiera sean 0 < < , se cumple que + + 0 = E (X) = xdFX (x) = xdFX (x) xdFX (x)
0
(FX () FX ()) .
Entonces (FX () FX ()) = 0, por lo que se deduce que FX () = FX () para todos , > 0. Entonces, FX (x) es constante para x > 0, lo cual sumado al hecho de que debe tener lmite 1 cuando x tiende a +, entonces se obtuvo que FX (x) = 1 para todo x > 0, lo cual sumado al hecho de que FX (x) = 0 para todo x < 0, y como FX es continua por derecha en 0, entonces FX (0) = 1, y entonces se obtiene que P (X = 0) = 1. 60
Corolario 6.15. Si X, Y
y
E(Y ),
y adems
E(X) = E(Y )
XY
c.s., existen
E(X)
X=Y
c.s.
Basta observar que X Y 0 c.s. y que E(X Y ) = E(X) E(Y ) = 0, luego por el teorema anterior se tiene que X Y = 0 c.s.
X : R es variable aleatoria, g : R R es una (g (A) B para todo A B ) tal que existe E (g(X)), entonces + E (g(X)) = g(x)dFX (x).
Si
funcin
Demostracin.
Haremos la demostracin suponiendo que g es montona y biyectiva. El caso general se prueba a partir de teora de la medida. Supongamos que g es creciente y biyectiva, el caso decreciente es anlogo. ( ) Fg(X) (y) = P (g(X) y) = P X g 1 (y) = FX (g 1 (y)).
E [g (X)] =
ydFg(X) (y) =
ydFX (g 1 (y))
si ahora hacemos el cambio de variable y = g(x), entonces la ltima integral nos queda + g(x)dFX (x).
Observacin 6.17.
si
E (|X|) < +.
E (X)
si y slo
Ejemplo 6.18.
E (Y ) =
+
1/2
1/2dx+ E (X) ,
xdx = 5/8.
1/2
Corolario 6.19.
cualquiera sea
Si X : R R, existe
entonces
E (X)
y adems
E (X) = E (X) .
Demostracin.
La existencia de E (X) se deduce de la linealidad de la integral de Riemann Stieltjes + + ya que |x| dFX (x) = || |x| dFX (x). Ahora consideramos g : R R tal que g(x) = x, entonces g es boreliana y por lo tanto + + E (X) = xdFX (x) = xdFX (x) = E (X) .
61
Si
E (|X|) < +,
entonces
|E(X)| E (|X|) .
+
xdFX (x)
|E(X)| =
Teorema 6.21.
tal que existe
X, Y : R son variables aleatorias y g : R2 R E [g (X, Y )] entonces + + E (g (X, Y )) = g (x, y) dFX,Y (x, y).
Si
Demostracin.
Teorema 6.22.
E (Y ),
Si
entonces existe
E (X)
E (X + Y ) = E (X) + E (Y ) .
Demostracin.
E (|X + Y |) =
+
|x + y| dFX,Y (x, y)
+
xdFX,Y (x, y) +
ydFX,Y (x, y) =
E (X) + E (Y ) .
Ejemplo 6.23.
Si X Bin(n, p) entonces E (X) = np. Esto se debe a que denimos para cada {= 1, 2, 3, ..., n las variables i 1 si hay xito la vez i-sima Xi = entonces cada Xi distribuye como una 0 si no Ber(p) y adems se cumple que X = X1 + X2 + ... + Xn , luego, aplicando la aditividad de la esperanza nos queda que
Teorema 6.24.
existen
E (X)
X Y
c.s. y
Demostracin.
Como Y X 0, entonces
0 E (Y X) = E (Y ) E (X) .
Teorema 6.25.
existe
E (X)
X, Y : R son variables aleatorias independientes, tales E (Y ), entonces existe E (XY ) y adems E (XY ) = E (X) E (Y ) .
Si
que
Debido a la independencia de las variables, FX,Y (x, y) = FX (x)FY (y) para todos x, y. Entonces + + + + E (|XY |) = |xy| dFX,Y (x, y) = |x| |y| dFX (x)dFY (y) =
Demostracin.
|x|dFX (x)
+
E (XY ) =
xydFX,Y (x, y) =
+
xdFX (x)
Observacin 6.26.
nimos el conjunto
V = {X : R
entonces
E (X)} T : V R
tal que
Adems, si denimos
T (X) = E(X),
Dados un
entonces
Teorema ( 6.27.
, A, P
Desigualdad de Jensen. )
espacio de probabilidad,
variable aleatoria y
y de
una
(E (X)) E [ (X)] .
Adems, si es estricta.
es estrictamente convexa y
63
Dado que es convexa, se cumple que existe una recta que pasa por el punto (E (X) , (E (X))) tal que el grco de est por encima de la misma. Entonces, se tiene que (X) (E (X)) + a (X E (X)) y por lo tanto, tomando esperanzas de ambos lados de la desigualdad obtenemos que (E (X)) E [ (X)] . Por otro lado, deniendo g(t) = (E (X)) + a (t E (X)), al ser estrictamente convexa, se cumple que (t) g(t) para todo t, y adems, si (t) = g(t) entonces t = E(X). Si se diera (E (X)) = E [ (X)] entonces se tendra que E ((X)) = E (g(X)), siendo (X) g(X) por lo que se deduce que (X) = g(X) con probabilidad 1, de donde se deduce que debe ser X = E(X), o sea que X sera constante, lo cual concluye la prueba.
Ejemplo 6.28. ( )
X
Dado que ((x) = ex es convexa, se tiene que si existen E (X) y ) E e entonces eE(X) E eX . Ademas, si X no es constante, la desigualdad es estricta.
Ejemplo 6.29. Supongamos que X U (0, 1), denimos la sucesin Xn = n1(0,1/n) (X).
1 para todo n y por lo tanto, en este caso X = 0 y no se cumple que lim E (Xn ) = E (X) .
n+ n+
Vemos que lim Xn (w) = 0 para todo w , sin embargo, E (Xn ) = nP (0 < X < 1/n) =
En lo que sigue veremos dos teoremas de vital importancia en teora de probabilidad y medida, que bajo cierto conjunto de hiptesis nos permiten aseguran la convergencia de las esperanzas de las Xn a la esperanza de X .
6.4.1. Teorema de convergencia montona.
Teorema 6.30.) (
Dados
{Xn }nN
, A, P
para todo
w ,
X tales que existe E(X), Xn (w) 0, Xn (w) X(w) E(Xn ) para todo n y adems E (Xn ) = E (X) .
64
n+
lim
En primer lugar observamos que como 0 < Xn X , entonces existe E(Xn ) para todo n. Adems, dado que Xn Xn+1 para todo n entonces, E (Xn ) E (Xn+1 ) por lo que la sucesin {E (Xn )}nN es creciente y por lo tanto tiene lmite. Por otro lado, como Xn X para todo n, entonces E (Xn ) E (X) para todo n, por lo que lim E (Xn ) E (X) . Entonces ser suciente probar que lim E (Xn ) E (X). Para lograrlo, veremos que dado > 0, se cumplir que lim E (Xn ) E (X) . Fijado > 0, aproximaremos
n+ n+
X por una variable discreta Y tal que |X Y | . Denimos los sucesos Bn = {n < X (n + 1)} para n = 0, 1, 2, ... y denimos { n si n < X(w) (n + 1) la variable Y (w) = . Vemos que X Y X 0 si X(w) = 0 por lo que E (X) E (Y ) E (X) . Para obtener el resultado, probaremos que lim E (Xn ) E (Y ) .
Denimos los sucesos Ak = {Xk Y }. Si w Ak entonces Xk (w) Y (w) pero Xk+1 (w) Xk (w) por lo que Xk+1 (w) Y (w), luego w Ak+1 por lo que los Ak son una sucesin creciente de sucesos. Adems, para todo w , se cumple que w Bn para algn n, y como Xk (w) X(w) entonces existe un k0 tal que Xk0 (w) n = Y (w), entonces + Ak = . k=1 Por lo tanto, dejando n jo, los sucesos Ak Bn variando k , crecen a Bn . Por otro lado, observamos que las variables Y 1Ak son discretas, tomando los valores 0, , 2, 3, ... por lo que para cualquier m se tiene que
n+
n+
E (Y 1Ak ) =
+ n=0
nP (Y 1Ak = n) = m +
n=0 n=0
+ n=0
nP (Ak Bn ) m
n=0
m n=0
nP (Ak Bn ).
k+
k+
nP (Ak Bn ) =
Observacin 6.31.
Xn+1
para todo
Xn > 0
Xn
queda
n,
Observacin 6.32.
6.4.2.
E(X) = +,
de convergencia dominada.
w.
Adems existe
E (Y ).
n+
lim
Xn (w) = X(w)
65
Xn
para todo
y la de
y adems
lim
E (Xn ) = E (X) .
En primer lugar vemos que como |Xn | Y para todo n, entonces existe la esperanza de las Xn , adems tomando lmites en la desigualdad, obtenemos que |X| Y, por lo que tambin existe la esperanza de X. Denimos la sucesin Yn = inf Xk entonces Yn X (ya que las Yn tienden a supYn =
kn
Demostracin.
Yn +Y X+Y , por lo que aplicando el teorema de convergencia montona, obtenemos que lim E (Yn + Y ) = E (X + Y ) = E (X) + E (Y ) .
n+
n kn
Zn X y como adems 0 Y Zn Y X , aplicando nuevamente el teorema de convergencia montona y utilizando la linealidad del valor esperado, obtenemos que lim E (Zn ) = E (X) .
n+
kn
Para concluir la demostracin, basta observar ahora que para todo n y todo w, se cumple que Yn (w) Xn (w) Zn (w) por lo que E (Yn ) E (Xn ) E (Zn ) y como lim E (Yn ) = E (X) y lim E (Zn ) = E (X) se obtiene que lim E (Xn ) = E (X) .
n+ n+ n+
Observacin 6.34.
mente.
lim
Xn = X
y
|Xn | Y
Corolario 6.35.
Si
n+
lim
Xn (w) = X(w) k
para todos
w,
6.4.3.
Aplicaciones.
Si
Teorema 6.36.
todo
fn : [a, b] R son funciones integrables Riemann en [a, b] para n N, g : [a, b] R es integrable Riemann y f : [a, b] R lim fn (x) = f (x) y
para todo
n+
Demostracin.
Consideramos X U (0, 1). Denimos entonces las variables Yn = fn (X) e Y = b c.s. 1 f (X). Entonces Yn Y, |Yn | g (X), existe E (g (X)) = ba a g(x)dx < +, luego por el teorema de convergencia dominada, se tiene que lim E (Yn ) = E (Y ) , ahora n+ b b 1 1 vemos que E (Yn ) = E (fn (X)) = ba a fn (x)dx y E (Y ) = E (f (X)) = ba a f (x)dx b b 1 1 entonces lim ba a fn (x)dx = ba a f (x)dx, de donde se deduce el resultado.
n+
66
b(k)
{ } (k) an k,
n,kN
kN
b(k) > 0,
para todo
b(k)
para todos
+ k=1
n, k.
+ k=1
Si
n+
an = a(k) ,
entonces
n+
lim
a(k) n
a(k) .
Demostracin.
b(k) . L
n Denimos la sucesin de variables aleatorias Xn : N R tales que Xn (k) = a(k) y b (k) c.s. X : N R tal que X(k) = a(k) . Entonces Xn X (ya que Xn (k) X(k) para b todo k N). Adems ( ) (k) an b(k) P Xn = (k) = P ({k}) = . b L
(k)
Anlogamente,
( P
a(k) X = (k) b
) = P ({k}) =
b(k) . L
Adems |Xn (k)| 1 para todo k. Entonces, aplicando el teorema de convergencia dominada, se deduce que lim E (Xn ) = E (X) . n+ ( ) + + (k) + (k) an a(k) b(k) an 1 (k) n an E (Xn ) = P Xn = (k) = = b(k) b b(k) L L
k=1 k=1 k=1
y anlogamente,
E (X) =
+ a(k) k=1
( P
b(k)
a(k) X = (k) b +
k=1
) =
b(k)
k=1
1 (k) = a . L L k=1
+
1 n+ L
an =
(k)
+ ) n( 1 x n Como aplicacin, se deja como ejercicio hallar lim ; lim 1 + n e2x dx n2 k2 n+ 0 n+ k=1 ) n( x n x/2 y lim 0 1 n e dx. n+
67
Teorema 7.2.
Si
0<p<q
entonces
Lq Lp .
Demostracin.
1 + E (|X|q ) < +.
Diremos que X admite momentos de orden p si y slo si E (|X|p ) < + o sea, si y slo si X Lp . Del teorema anterior deducimos que si X admite momentos de orden p, entonces admite momentos de cualquier orden menor que p. Por ejemplo, decir que X admite momentos de orden 3, implica que admite momentos de cualquier orden menor que 3.
Teorema 7.3.
que
Si
X, Y Lp
entonces
X + Y Lp
para todos
, R.
Es decir
es un espacio vectorial (ya que es subespacio del conjunto de todas las variables
Si X Lp entonces cualquiera sea R, se tiene que E (|X|p ) = ||p E (|X|p ) < + por lo que X Lp . Ahora, si X, Y Lp observamos que |X + Y | |X|+|Y | 2max{|X| , |Y |} entonces |X + Y |p 2p max{|X|p , |Y |p }, por lo tanto se tiene que E (|X + Y |p ) 2p max{E |X|p , E (|Y |p ) < +} . 68
Demostracin.
Captulo 7. Espacios Lp .
XY =
Si
Observacin 7.4. [
1 2
que
L2 .
Teorema 7.5.
X, Y L2 ,
Desigualdad de Cauchy-Schwartz.
( ) ( ) [E (XY )]2 E X 2 E Y 2 . 0 R
tal que
P (X = 0 Y ) = 1 (o P (Y = 0 X) = 1) .
Demostracin.
tiene que 0 = E (X 0 Y )2 , por lo que se tiene que X = 0 Y casi seguramente. Si fuera Y = 0 casi seguramente, entonces tambin se cumple la igualdad, y adems Y = 0X , lo cual concluye la prueba. La desigualdad de Cauchy Schwartz recin probada, responde a la conocida desigualdad respecto a espacios vectoriales con producto interno. Para ello denimos la funcin , : L2 L2 R tal que X, Y = E (XY ) , entonces, , es un seudo producto interno, es decir que es una funcin bilineal simtrica, tal que X, X = E (X 2 ) 0 pero no cumple la condicin X, X = 0 si y slo si X = 0, ya que en este caso si X, X = E (X 2 ) = 0, entonces X = 0 c.s. por lo que puede haber innitas (dependiendo del espacio de probabilidad) funciones que cumplan X, X = 0. Este problema se puede solucionar si identicamos todas las variables aleatorias que son 0 casi seguramente. Para ello se dene la relacin tal que X Y si y slo si X = Y c.s. Se deja como ejercicio chequear que es una relacin de equivalencia, y que si denimos , : L2 / L2 / R tal que [X] , [Y ] = E (XY ) donde X e Y son representantes de [X] y [Y ] respectivamente, entonces la funcin , est bien denida y dene un producto interno en L2 / .
Captulo 7. Espacios Lp .
Observacin 7.7.
puede tomar
La presencia del cuadrado es para que las diferencias entre positivas, ya que sin el cuadrado, la esperanza de
X y su valor esperado sean (X E (X)) es 0. Por ejemplo, si X es una variable aleatoria discreta tal que Rec(X) = {x1 , x2 , ..., xn } con probabili dades pX (xi ) = 1/n para todo i = 1, 2, 3, ..., n, entonces E (X) = xpX (x) = xRec(X) [ ] x1 +x2 +...+xn = . Luego, V (X) = E (X )2 = n
xRec(X)
(x )2 pX (x) =
que representa el promedio de las diferencias al cuadrado que existen entre los valores que toma la variable
y su valor esperado.
En las aplicaciones, al calcular la esperanza de (X E (X))2 , se pierde la unidad de medida de la variable X , la cual queda expresada en unidades al cuadrado. Para salvar este problema se suele considerar la raz cuadrada de la varianza a la que se le llama desviacin tpica o estandar de la variable.
X =
V(X).
E2 (X) = [E (X)]2 .
Demostracin.
Teorema 7.10.
Demostracin.
Si
X L2 ,
entonces
V (aX + b) = a2 V (X) .
Captulo 7. Espacios Lp .
Teorema 7.11.
mente.
Si
X L2 ,
entonces
V (X) = 0
si y slo si
X = E (X)
casi segura-
Demostracin.
) Si X = E (X) = , entonces[V (X) = E (2 ) E2 () = 2 2 = 0. ] ) Si V (X) = 0, entonces E X E (X)2 = 0 y como (X E (X))2 0 casi seguramente y tiene esperanza 0, entonces debe ser (X E (X))2 0 c.s., por lo que debe ser X = E (X) casi seguramente.
Ejemplo 7.13.
g (X) L , g 0
1
Teorema 7.14.
Dadas y
X aR
g:RR
g(a) > 0,
entonces
P (X > a)
Demostracin.
1 E (g (X)) . g(a)
P (X a).
Si
Desigualdad de Markov.
X Lp (p > 0)
a > 0,
entonces
P (|X| > a)
Demostracin.
1 E (|X|p ) . p a
Basta tomar g(x) = xp para x > 0 y g(x) = 0 para x 0 y aplicar la desigualdad anterior a la variable Y = |X| . 71
Captulo 7. Espacios Lp .
Corolario 7.17.
Desigualdad de Chebyshev.
Si
X L2
a > 0,
entonces
1 V (X) . a2
Basta usar la desigualdad del corolario anterior, para el caso en que p = 2 y para la variable Y = X E (X) .
para la funcin de distribucin de una variable aleatoria, si se conoce nicamente el momento de algn orden de la variable, por ejemplo, el momento de orden uno. La desigualdad de Chebyshev es equivalente a
P (|X E (X)| a) 1
1 V (X) . a2
y por lo tanto, nos proporciona una cota inferior para la probabilidad de que la variable tome valores en un entorno de su valor esperado, conociendo nicamente el valor esperado y la varianza de la variable.
Observacin 7.20.
versales, es decir se cumplen para cualquier tipo de variable aleatoria (con la sla hiptesis de que admitan momentos de algn orden), por lo que suelen dar cotas groseras de las probabilidades. En cada situacin particular, conociendo ms informacin sobre la variable aleatoria
X,
1. Si X, Y L2 , entonces COV (X, Y ) = E (XY ) E (X) E (Y ) . 2. Si X, Y L2 , entonces COV (X, Y ) = COV (Y, X) . 3. Si X L2 , entonces COV (X, X) = V (X) . 4. Si X, Y L2 , entonces COV (aX + b, Y ) = aCOV (X, Y ) para todos a, b R. 72
Captulo 7. Espacios Lp . 5. Si X, Y, Z L2 , entonces COV (X + Y, Z) = COV (X, Y ) + COV (Y, Z) . 6. Si X, Y L2 y son independientes, entonces COV (X, Y ) = 0. 7. Si X1 , X2 , ..., Xn L2 , entonces ( n ) n COV (Xi , Xj ) . V Xi = V (Xi ) + 2
i=1 i=1 i<j
COV(X, Y ) = 0
Si
sean
entonces
Observacin 7.24.
Si
X, Y L2 ,
entonces
y usando que COV (Xi , Xj ) = COV (Xj , Xi ) y que COV (Xi , Xi ) = V (Xi ) , obtenemos
n i=1
COV (Xi , Xi ) +
n i=1 j=i
COV (Xi , Xj ) =
n i=1
V (Xi ) + 2
j<i
COV (Xi , Xj ) .
Si X Bin(n, p) entonces vimos que X = X1 + X2 + ... + Xn donde las Xi son Ber(p) e independientes, por lo tanto
Ejemplo 7.25.
Propiedades.
En las propiedades que siguen se consideran X, Y L2 no constantes. 1. 1 (X, Y ) 1. 2. (X, Y ) = 1 si y slo si existen a, b R, a > 0, tales que Y = aX + b. 73
Captulo 7. Espacios Lp . 3. (X, Y ) = 1 si y slo si existen a, b R, a < 0, tales que Y = aX + b. 4. Si X, Y son independientes, entonces (X, Y ) = 0.
Demostracin.
Denicin 7.27.
Captulo 7. Espacios Lp .
Supongamos que deseamos estimar el porcentaje de fumadores en una poblacin. Para obtener el resultado, se encuestarn de manera independiente, n individuos de la poblacin y se calcular el porcentaje de fumadores en la muestra. Podemos pensar{ entonces que tenemos n variables aleatorias X1 , X2 , ..., Xn , denidas como 1 si la i-sima persona encuestada fuma . Entonces las variables son inXi = 0 si no dependientes con distribucin Ber(p), donde p es el porcentaje de fumadores en la poblacin. p es desconocido, que estimaremos mediante el porcentaje de fumadores +...+Xn en la muestra, el cual es X n = X1 +,X2n ya que el numerador cuenta el total de fumadores (xitos). Supongamos que queremos respondernos a la siguiente pregunta: a cuntos individuos hay que encuestar si deseamos que el porcentaje de la muestra no diera del real en ms de un 1 % con una probabilidad mayor al 95 %? ( ) Por lo tanto queremos hallar n tal que P X n p 0, 01 0, 95. Observamos que las variables, al ser Bernoulli estn en L2 y ya vimos que tienen valor esperado p y varianza p(1 p). Por otro lado, ya vimos que el valor esperado de X n coincide con el de cada Xi , y la 2 varianza de X n(es ) /n = p(1( p)/n. O sea que en el caso de las variables Bernoulli, ) tenemos que E X n = p y V X n = p(1 p)/n. Aplicando el corolario 7.16 (desigualdad de Chebyshev) a la variable X n , llegamos a que ( ) ( ) 1 p(1 p) P X n p 0, 01 1 V Xn = 1 . 2 0, 01 n0, 012 Puesto que p(1 p) 1/4 para todo valor de p, obtenemos que
1 Entonces eligiendo n tal que 1 4n0,012 0, 95, el mismo nos asegurar que ( ) P X n p 0, 01 0, 95. En este caso el menor valor de n que nos asegura esta desigualdad es 50.000.
75
Notacin: Xn X.
Observacin 8.2.
>0
se cumple que
Xn X
n+
P (|Xn X| ) = 0.
Informalmente, la convergencia en probabilidad nos dice que una vez que jamos el valor de > 0 arbitrariamente pequeo, pero jo, la probabilidad de que Xn tome 76
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin. un valor perteneciente al intervalo (X , X + ) se acerca a uno en la medida de que n se tome sucientemente grande.
Dadas una sucesin de variables aleatorias {Xn }nN y una variable aleatoria X de( ) nidas sobre cierto , A, P espacio de probabilidad se dice que la sucesin {Xn }nN converge casi seguramente a X (o en casi todo punto) si y slo si se cumple que ( ) P lim Xn = X = 1.
n+
Notacin: Xn X.
c.s.
Observacin 8.4.
verica que
Dado que el lmite de variables aleatorias es variable aleatoria, se es un suceso. si y slo si lim P k+
{limXn = X} Xn X
c.s.
Teorema 8.5.
> 0.
(+
n=k
) {|Xn X| < } = 1
para todo
Demostracin.
Si w es tal que lim Xn (w) = X(w) entonces, para todo > 0, existe un k tal que para todo n k se cumple que |Xk (w) X(w)| < . Observando( es suciente en que ) la denicin de lmite considerar Q+ entonces tenemos que P
n+ n+
lim Xn = X
1 si y solo si
+ +
{|Xn X| < } = 1.
Q+ k=1 n=k
Como la interseccin en el conjunto de Q+ es numerable, y tiene probabilidad 1, entonces la ltima condicin es equivalente a (+ + ) {|Xn X| < } = 1 para todo Q+ . P
Por otro lado, los conjuntos Bk = + {|Xn X| < } forman una sucesin creciente n=k de(sucesos, ) entonces, la propiedad de continuidad de las probabilidades nos dice que + P k=1 Bk = lim P (Bk ) , por lo que
k+
k=1 n=k
(+ +
k=1 n=k
( +
n=k
) {|Xn X| < } .
Llegamos as a que
Xn X si y slo si lim P
k+
c.s.
( +
n=k
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin. Finalmente, dado que en la dencin de lmite es equivalente a trabajar con > 0 y c.s. observando la demostracin, se deduce que Xn X si y slo si (+ ) lim P n=k {|Xn X| < } = 1 para todo > 0.
La interseccin sobre los
k+
Observacin 8.6.
Q+
asegurar que los conjuntos con los que trabajamos pertenezcan a la modo si trabajamos con los
-lgebra,
de otro
> 0, )
-lgebra. X.
P
{Xn }nN
, A, P
Si
Xn X entonces Xn X.
Demostracin.
c.s.
entonces
( +
n=k
por lo que tomando lmite cuando k tiende a + se deduce el resultado. Veremos en el siguiente ejemplo que la nocin de convergencia casi segura es estrictamente ms fuerte que la de convergencia en probabilidad.
Ejemplo 8.8.
Tomemos un espacio de probabilidad en el cual denimos una va( ) riable Y U (0, 1) . Consideramos la sucesin de intervalos Im,k = 2k , k+1 para m m 2 m = 1, 2, 3, ... y k = 0, 1, 2, 3, ..., 2m 1. Denimos In ordenando los Im,k dando primero el valor de m y luego, para dicho m, variamos en los distintos valores de k = 0, 1, 2, 3, ..., 2m 1. Es decir, para m = 1, tenemos k = 0, 1 por lo que denimos ( 1) ( ) I1 = I1,0 = 0, 2 ; I2 = I1,1 = 1 , 1 . Luego, para m = 2, tenemos k = 0, 1, 2, 3 con 2 ( ) ( 1) lo que denimos I3 , I4 , I5 e I6 (como sigue: I3 = I2,0 = 0, 1 ; I4 = I2,1 = 1 , 2 ; 4 4 ( ) ) I5 = I2,2 = 1 , 3 e I6 = I2,3 = 3 , 1 . As continuamos sucesivamente. 2 4 4 Denimos ahora la sucesin Xn = 1In (Y ). Las longitudes de los intervalos In tienden a cero por lo que se podra esperar que exista algn tipo de convergencia de { P (Y In ) si < 1 las Xn a cero. Dado > 0, se tiene que P (|Xn | ) = y 0 si 1 como P (Y In ) =longitud de In 0, entonces tenemos que Xn 0. Por otro lado, vemos que cualquier nmero (0, 1) pertenece a innitos de los intervalos In y tambin no pertenece a innitos de los intervalos In . Entonces dado cualquier w , se tendr que Y (w) (0, 1) y por lo tanto no existe lim Xn (w). n+ { } Entonces lim Xn = 0 = lo cual prueba que Xn no converge casi seguramente n+ a cero. 78
P
En las siguientes propiedades se consideran dadas las sucesiones de variables aleatorias ( ) {Xn }nN , {Yn }nN y las variables aleatorias X e Y denidas sobre cierto , A, P espacio de probabilidad. Se deja como ejercicio su demostracin. 1. Unicidad. Si Xn X , Xn Y entonces X = Y c.s. 2. Unicidad. Si Xn X , Xn Y entonces X = Y c.s. 3. Si Xn X , Yn Y entonces Xn + Yn X + Y para todos , R. 4. Si Xn X , Yn Y entonces Xn + Yn X + Y para todos , R. 5. Si Xn X y g : R R es continua, entonces g (Xn ) g (X) . 6. Si Xn X y g : R R es continua, entonces g (Xn ) g (X) . 7. Si Xn X , Yn Y entonces Xn Yn XY. 8. Si Xn X , Yn Y y P (Y = 0) = 1, entonces Xn Yn XY. 9. Si Xn X , Yn Y y P (Y = 0) = 1, entonces Xn Yn XY. 10. Si Xn X , Yn Y entonces Xn Yn XY. 11. Si Xn 0, existe k R tal que P (|Yn | > k) = 0 para todo n, entonces P Xn Yn 0. 12. Si Xn 0, existe k R tal que P (|Yn | > k) = 0 para todo n, entonces c.s. Xn Yn 0.
c.s. P c.s. c.s. c.s. c.s. c.s. c.s. P P P P P P c.s. c.s. P P c.s. c.s. c.s. P P P c.s. c.s. P P
, A, P
V (X) .
Entonces
espacio de probabilidad. Si las variables aleatorias {Xn }nN son X L2 y le llamamos = E (X) y 2 =
X n .
Ya vimos sobre el nal del captulo anterior cuando las varaibles son i.i.d. que ( ) ( ) E X n = y V X n = 2 /n para todo n. Entonces aplicando la desigualdad de Chebyshev, obtenemos que, para todo > 0, ( ) ( ) V Xn 2 P Xn = 2 0 2 n n+ por lo que X n . 79
P
Demostracin.
funciona cambiando las hiptesis de i.i.d por las de que todas las variables, tengan iguales esperanza y varianza, y adems sean no correlacionadas.
, A, P
espacio de probabilidad. Si las variables aleatorias {Xn }nN son X L4 y le llamamos = E (X) .
X n .
Basta probar el teorema para el caso en que = 0, ya que una vez que lo tenemos probado en este caso, para deducir el caso general, denimos para cada n, Yn = Xn , entonces la sucesin {Yn }nN es i.i.d con distribucin como la de Y = X , entonces, c.s. c.s. Y n E(Y ) = 0, pero Y n = X n , por lo tanto X n . Suponemos entonces que = 0. c.s. Para probar que X n , segn el teorema 8.4 debemos probar que, dado > 0, ( 0+ { }) se cumple que lim P X n < = 1, lo cual es equivalente a probar que n=k k+ (+ { }) X n > = 0. lim P n=k k+ }) ( ) (+ { X n > + P X n > se deduce que para obtener el Dado que P n=k n=k ( ) resultado es suciente con probar que + P X n > < +. n=1 ) ( La idea ser entonces acotar P X n > superiormente por una sucesin cuya serie sea convergente. Como X L4 , usaremos la desigualdad de Markov con p = 4, por lo que
c.s.
Demostracin.
1 ( 4) P Xn > 4 E Xn . ( 4) Por lo tanto ser suciente probar que + E X n < +. n=1 ( 4) E Xn = ( ) 1 E [(X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn )] . n4
Desarrolando esta suma, y aplicando linealidad del valor esperado, obtenemos que
i=j
i,j
i=j
+
i,j,k
:
i=j=k, i=k
) ( E Xi2 Xj Xk +
i,j,k,l
:
E (Xi Xj Xk Xl ) .
80
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin. Como las variables son i.i.d, tenemos que dentro de cada una de las sumatorias anteriores, los sumandos son todos iguales entre s, entonces nos queda igual a ( 4) ( 3 ) ( 2 2) ( 2 ) n 4 n 4 n n nE X1 +8C2 E X1 X2 +C2 C2 E X1 X2 +6C2 C3 E X1 X2 X3 +4!C4 E (X1 X2 X3 X4 ) . Ahora usando que las variables son i.i.d y recordando que en estos casos, la esperanza de un producto se factoriza como el producto de esperanzas, observamos 3 3 2 2 que E (X1 X2 ) = E (X1 ) E (X2 ) = 0, E (X1 X2 X3 ) = E (X1 ) E (X2 ) E (X3 ) = 0 y E (X1 X2 X3 X4 ) = E (X1 ) E (X2 ) E (X3 ) E (X4 ) = 0. Entonces
( 4) ( 2 ) ( 2 )) 1 ( ( 4) E X n = 4 nE X1 + 3n(n 1)E X1 E X2 n
por lo que
+ + ( 4) 1 E Xn < +. n2 n=1 n=1
Trabajando con desigualdades ms nas, lo cual lleva ms trabajo, es posible demostrar que vale el mismo teorema slo pidiendo que X L1 . Por lo tanto cuando sea necesaria aplicar la ley, lo haremos simplemente vericando que X L1 . Si las variables {Xn }nN son i.i.d con distribucin como la de cierta X L1 , entonces, / tambin tenemos una versin de la ley fuerte. ( ) Teorema 8.12. Dado un , A, P espacio de probabilidad. Si las variables aleatorias {Xn }nN son i.i.d con distribucin como la de cierta X tal que E (|X|) = +,
entonces limsup
X n = +
c.s.
( ) Como E (|X|) = +, entonces E |X| = + para todo k = 1, 2, 3, ... Entonces k ) + ( |X| n = +, para todo k = 1, 2, 3, ... n=1 P k Como las variables son idnticamente distribuidas, tenemos que
+ n=1
Demostracin.
( P
{ } (k) Fijado k , se tiene que los sucesos An = |Xn | k son independientes, luego, por n el lema de Borel-Cantelli se tiene que ( ) P ocurren innitos A(k) = 1 para todo k = 1, 2, 3, ... n
Entonces, si denimos Bk = ocurren innitos An , tenemos que P (Bk ) = 1 para todo k = 1, 2, 3, ... y como interseccin numerable de sucesos de probabilidad 1, tiene (+ ) probabilidad 1, obtenemos que P k=1 Bk = 1. 81
(k)
(k) Observamos adems que B = + B} = ocurre An ({ para innitos valores de n, para k=1 k {{ } } ) |Xn | |Xn | todo k "= es no acotada . Entonces P es no acotada = 1. n n nN } nN { |Xn | Ya que existe probabilidad 1 de que la sucesin sea no acotada, para n
terminar la prueba, denimos Sn ={ 1 + X2 + ... + Xn , y bastar con probar que si X { } } |Xn | es no acotada, entonces X n = |Sn | es no acotada. n n nN nN { { } } |Sn1 | |Sn | acotada, entonces tambin lo sera ya Efectivamente, si fuera n n que |Sn1 | = n tanto { }
|Xn | n |Sn1 | n1 , n1 n nN
entonces,
nN |Xn | n
|Sn Sn1 | n
|Sn | n
|Sn1 | , n
nN
nN
8.2.1.
Aplicaciones.
La cantidad de aplicaciones de la ley fuerte es enorme, veremos en lo que sigue, a modo de ejemplo, algunos corolarios de la ley a modo de aplicacin de la misma.
Corolario 8.13. Si las variables aleatorias {Xn }nN son i.i.d con distribucin Ber(p),
entonces
X n p.
Es obvia ya que las variables Ber(p) estn en L1 y son tales que E (X) = p. Frecuentemente, en estadstica, se tiene un muestreo de alguna variable aleatoria cuya funcin de distribucin es desconocida. Se desea estimar a la funcin FX dada una muestra aleatoria simple X1 , X2 , ..., Xn . Supongamos entonces que tenemos X1 , X2 , ..., Xn , variables aleatorias i.i.d con distribucin como la de X. Se dene a la distribucin emprica asociada a la muestra, a 1 la funcin Fn : R R tal que Fn (x) = n n 1(,x] (Xi ) . i=1 Observamos que 1(,x] (X1 ) , 1(,x] (X2 ) , ..., 1(,x] (Xn ) son independientes (porque las Xi lo son) con distribucin Ber(p = FX (x)) . Observamos que Fn : R R es una funcin de distribucin escalonada, con saltos en los Xi y donde cada salto es de longitud 1/n (en el caso en que las Xi sean todas distintas).
c.s.
Demostracin.
Corolario 8.14.
Fn
FX . x R,
entonces
Demostracin.
Aplicamos la ley fuerte de los grandes nmeros, se cumple que jado ( ) c.s. Fn (x) E 1(,x] (X) = FX (x).
82
Corolario 8.15.
Dadas
f : [a, b] R
{Xn }nN
n
U (a, b) .
Entonces
f (x)dx.
Si denimos para cada n las variables Yn = (b a)f (Xn ) , entonces, tendremos que {Yn }nN son i.i.d en L1 ya que f es continua. Entonces, por la ley fuerte de los grandes nmeros tendremos que
Demostracin.
c.s.
1 f (x) dx = ba
f (x)dx.
Dado un nmero x (0, 1) podemos escribirlo en su expresin binaria como x = + xn donde xi {0, 1} para todo i = 1, 2, 3, ... Si truncamos el nmero x a sus 2n n=1 primeras n cifras en su expansin binaria (sumamos hasta n), observamos que xn = x1 +x2 +...+xn es el porcentaje de veces que aparece el 1, entre los primeros n trminos. n El nmero x se dice normal respecto a la base 2, si xn 1/2. Probaremos que casi todo punto se elige un nmero aleatorio en de nmeros normales tiene
Corolario 8.16.
Nmeros normales.
(0, 1) es normal respecto a la base 2 (es decir que si (0, 1) con distribucin uniforme, entonces el conjunto probabilidad 1).
+ n=1 xn 2n
Demostracin.
Dado x (0, 1), escribimos x =
Observamos que xn = 0 en una unin de 2n1 intervalos de longitud (1/2)n y xn = 1 en la unin de los restantes 2n1 intervalos de longitud (1/2)n . Consideramos el siguiente espacio de probabilidad. = (0, 1), sigma = B(0,1) y P denida mediante la distribucin uniforme. Denimos la sucesin de variables aleatorias Xn : (0, 1) R tales que Xn (x) = xn . Entonces, la probabilidad de que Xn tome el valor 1 es la suma de las longitudes de los 2n1 intervalos disjuntos de longitud (1/2)n lo que es igual a 1/2. Esto prueba que Xn Ber(p = 1/2) para todo n. Adems las variables son independientes ya que
cualesquiera sean k , 1 , 2 , ..., k {0, 1} y n1 < n2 < ... < nk . Hemos probado entonces que la sucesin {Xn }nN son variables i.i.d con distribucin Ber(p = 1/2) por lo tanto, la ley fuerte de los grandes nmeros nos asegura que c.s. X n p = 1/2 lo cual signica que casi todo nmero real perteneciente al intervalo (0, 1) es normal respecto a la base 2. De similar forma, se prueba que si se dene nmero normal respecto a la la base 83
k , cuando el porcentaje de apariciones de cualquier j {0, 1, 2, ..., k 1} converge a 1/k , entonces casi todo nmero (0, 1) es normal respecto a la base k. Por ejemplo, en el caso en que k = 10, tenemos que casi todo punto es normal respecto a su expansin decimal lo cual signica que el promedio de apariciones de los dgitos 0, 1, 2, ..., 9 en su expansin decimal tiende a 1/10.
Ejemplo 8.17. Si {cn }nN R es una sucesin decreciente tal que cn c y denimos
para cada n las variables Xn = cn y X = c, desearamos tener una denicin de convergencia en distribucin tal que Xn converja a X. Las funciones de distribucin de estas variables son { { 0 si x < cn 0 si x < c . FXn (x) = y FX (x) = 1 si x c 1 si x cn Como se ve, FXn (c) = 0 no tiende a FX (c) = 1, mientras que FXn (x) FX (x) para todo x = c. Como se observa, c es el nico punto de discontinuidad de FX . Cuntos puntos de discontinuidad puede tener una cierta funcin de distribucin? Si F : R R es una funcin de distribucin, veremos que admite a lo sumo una cantidad numerable de discontinuidades. Para demostrarlo, observamos que
{x R : F es discontinua en x} =
+ n=1
x R : F (x) F (x ) 1/n
adems, para cada n, el conjunto {x R : F (x) F (x ) 1/n} tiene a lo sumo n elementos, puesto que dado que F es creciente y acotada entre 0 y 1, la suma de los saltos de distintos puntos de discontinuidad no puede exceder a 1. Por lo tanto el conjunto de puntos de discontinuidad de F es numerable por ser unin numerable de conjuntos nitos. Se deja como ejercicio vericar que si F : R R es montona entonces el conjunto de sus puntos de discontinuidad es a lo sumo numerable.
) Dadas {Xn }nN variables aleatorias denidas en n , An , Pn espacios de probabili( ) dad, y X variable aleatoria denida en cierto , A, P espacio de probabilidad. Se dice que la sucesin {Xn }nN converge en distribucin a X si y slo si
n+
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin. Notacin: Xn X. Tambin se dice que la sucesin {Xn }nN converge dbilmente a X, o tambin que FXn converge dbilmente a FX .
d
en
R.
Veremos en el siguiente teorema que cuando trabajamos sobre un mismo espacio de probabilidad, la nocin de convergencia en distribucin es an ms dbil que la nocin de convergencia en probabilidad.
Teorema 8.20.
aleatoria
, A, P
{Xn }nN
y una variable
espacio de probabilidad.
Xn X
entonces
Xn X.
Demostracin.
Dado x punto de continuidad de FX . Fijamos > 0 y le llamamos An, = {X < Xn < X + } . Entonces ( ) FXn (x) = P (Xn x) = P ({Xn x} An, ) + P {Xn x} Ac . n, Con respecto al primer sumando, tenemos que
( ) FXn (x) FX (x + ) + P {Xn x} Ac . n, ( ) Tomando lmite en n, el segundo sumando tiende a cero (ya que P Ac n, tiende a cero), por lo que obtenemos la desigualdad FXn (x) FX (x + ) vlida para todo > 0. Luego, tomamos lmite cuando 0+ y usando que FX es continua por derecha, nos queda limsupFXn (x) FX (x).
n+
85
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin. Si ahora tomamos lmite en n, obtenemos que para todo > 0, liminf FXn (x) FX (x ).
n+
Ahora usando que x es punto de continuidad de FX ,tomamos lmite cuando 0+ y obtenemos que liminf FXn (x) FX (x). Hemos probado entonces que
n+ n+
Ahora veremos en el siguiente ejemplo que la convergencia en probabilidad es estrictamente ms fuerte que la convergencia en distribucin.
Ejemplo 8.21.
Denimos una sucesin de variables X, X1 , X2 , ..., Xn , ... i.i.d con d distribucin N (0, 1). Entonces Xn X ya que FXn = FX para todo n. Sin embargo la sucesin {Xn }nN no converge en probabilidad a X ya que Xn X tiene distribucin N (0, 2) para todo n (ya que es combinacin lineal de normales independientes), y por lo tanto ) ( ) ( P (|Xn X| ) = P ( Xn X ) = 2 2
esta probabilidad, no depende de n y es menor estricto que 1 por lo que no hay convergencia en probabilidad.
86
Observacin 9.2.
eitX = cos(tX) + isen(tX), se tiene que + + ( itX ) itx E e = e dFX (x) = (cos(tx) + isen(tx)) dFX (x) =
Dado que
cos(tx)dFX (x) + i
sen(tx)dFX (x)
= E (cos(tX)) + iE (sen(tX)) . X
siempre existe ya que
Observacin 9.3.
para todo
La funcin caracterstica de
eitX = 1
t.
Si X Poisson(), entonces
Ejemplo 9.4.
X (t) = E e
itX
e dFX (x) =
itx
+ x=0
e pX (x) =
itx
+ x=0
eitx
e x = x!
+ (eit )x x=0
x!
= e ee = e(e
it
it 1
).
Como se ver ms adelante, la funcin caracterstica, juega un papel esencial en la teora de la convergencia en distribucin, convergencia clave en estadstica.
87
9.1. Propiedades.
En todas las siguientes propiedades, se supone dado un espacio de probabilidad ( ) , A, P y en l, una variable aleatoria X : R.
|X (t)| 1
para todo
t R.
Proposicin 9.7.
aX+b (t) = eitb X (at)
para todo
t R.
Demostracin. (
Si
t R.
es uniformemente continua.
( )) ) ( ) ( ) ( ( X (t) X (s) = E eitX E eisX = E eitX eisX = E eisX ei(ts)X 1 . ) ( Si denimos g(h) = E eihX 1 , entonces ( )) ( )) ( ( = E eisX ei(ts)X 1 |X (t) X (s)| = E eisX ei(ts)X 1 ) ( E ei(ts)X 1 = g(t s).
Por lo tanto, bastar con ver que g es continua en cero, es decir que g(h) tiende a cero cuando h 0. Observamos que eihx 1 2 L1 , y como eihX 1 0 c.s, entonces por el ( h0 ) teorema de convergencia dominada, se tiene que lim E eihX 1 = 0.
h0
88
Proposicin 9.10.
adems
Si
X Lk
para cierto
k N, k 1.
para todo
Entonces
X C k
t R.
Demostracin.
La prueba se realiza por induccin. Probmoslo para k = 1. ( ) ( ) E ei(t+h)X E eitX X (t + h) X (t) = = h h ( ( ) ( )) E ei(t+h)X eitX eitX eihX 1 . =E h h Ahora, observamos que lim e
ihx 1
h 0.
Adems,
h0
iXeitX cuando
eitx (eihx 1) h
eihx 1 h
eihs ds
x
0
R. Entonces
eitX (eihX 1) h
Observacin 9.11.
k
veces.
Si Si
X Lk
para cierto
k N, la variable t debajo
partir de
X .
Se deduce de la demostracin que en el caso en que es uniformemente continua.
Observacin 9.13.
cierto
X Lk
para
k,
entonces
Ejemplo 9.14.
Si X N (, 2 ), entonces
X (t) = eitt
2 2 /2
Para demostrarlo, en primer lugar probaremos que si X N (0, 1), probaremos que 2 X (t) = et /2 . Para lograrlo, demostraremos que si denimos la funcin h como 2 h(t) := et /2 X (t), entonces h(t) = 1 para todo t. Como h(0) = 1, bastar probar que h (t) = 0 para todo t. En efecto, dado que 89
Captulo 9. Funciones caractersticas. podemos derivar debajo del signo de esperanza en la funcin caracterstica, obtenemos ( ) ( ) ( ) 2 2 h (t) = tet /2 E eitX +et /2 E iXeitX . Entonces, resta probar que E (t + iX) eitX = 0.
E (t + iX) e
itX
1 = 2
(t + ix)e e
itx x2 /2
1 dx = 2
(t + ix)eitxx
2 /2
dx =
ieitxx
2 /2
|+ = 0.
2 2 /2
Teorema 9.15.
( ) Dado un , A, P espacio de probabilidad y X : R variable aleatoria, entonces 1 FX (x) = lim lim lim zx yh+ 2
h h
Frmula de inversin.
Demostracin.
En primer lugar jamos y < z puntos de continuidad de FX . Denimos ) h ( + ity h ity e eitz itx e eitz X (t)dt = e dFX (x) dt. I(h) := it it h h Dado que la funcin integrando f (t, z) =
eity eitz itx e it
ity eitz
it
y (, por lo tanto |f (t, x)| c para todo (t, x) [h, h] R y entonces z ) h + |f (t, x)| dFX (x) dt 2hc, por lo que podemos intercambiar el orden de h + ( h eit(xy) eit(xz) ) integracin (Fubini), obteniendo que I(h) = dt dFX (x). it h
Ahora, observando que cos(at) es impar y sen(at) es par para todo a R, nos queda t t que ) + ( h h sent(x y) sent(x z) I(h) = 2 dt 2 dt dFX (x) = E (gh (X)) t t 0 0 90
h h siendo gh (x) = 2 0 sent(xy) dt 2 0 sent(xz) dt. t t Tomaremos lmite cuando h + y veremos que podemos aplicar el convergencia dominada. /2 + sen(at) 0 Utilizando el valor de la integral de Dirichlet 0 dt = t /2 entonces el lmite puntual de gh es
h+
Observando que
h
0
sup
h>0
h
0
sent dt t
:= M , entonces
0 h
def
|gh (x)| = 2
0
sent(x y) dt 2 t
sent(x z) dt 4M t
entonces por el teorema de convergencia dominada se obtiene que ( ) lim I(h) = lim E (gh (X)) = E 21{y<X<z} + 1{X=y} + 1{X=z}
h+ h+
Entonces
Si tomamos lmite cuando y (siendo y punto de continuidad de FX ) en la anterior igualdad, obtenemos h ity 1 e eitz FX (z) = lim lim X (t)dt para todo z punto de continuidad de FX . 2 yh+ h it Para concluir, basta jar cualquier x R y tomar lmite en la anterior igualdad cuando z x+ tomando z puntos de continuidad de FX (esto es posible debido a que por ser FX una funcin montona, la cantidad de puntos de discontinuidad es numerable). Entonces nos queda h ity 1 e eitz lim lim lim X (t)dt para todo x R, FX (x) = 2 zx+ yh+ h it donde el lmite en las variables y, z se hacen sobre puntos de continuidad de FX . ( ) Corolario 9.16. Dado un , A, P espacio de probabilidad y X, Y : R variables
aleatorias. Entonces
FX = FY
si y slo si
X = Y .
Demostracin.
Teorema 9.17.
y
Si para cada
X (t)
n+
g:RR
continua y acotada.
para todo
t R.
Para simplicar la escritura, le llamamos Fn a la funcin de distribucin de las Xn y F a la funcin de distribucin de X . Tomemos g : R R continua y acotada, tal que |g(x)| c para todo x R, entonces para cualesquiera a < b, tenemos
|E (g (Xn )) E (g (X))| =
+
gdFn
b
gdF
+
gdFn
a
gdFn +
a
gdFn
a
gdF
gdF +
a
gdF +
b
gdF
|g| dF +
b
|g| dF
cdF +
b
Dado que c (F (a) + 1 F (b)) 0 cuando a y b +, elegimos a sucientemente pequeo y b sucientemente grande tal que c (F (a) + 1 F (b)) < . Por conveniencia tomaremos a, b puntos de continuidad, ya que lo necesitaremos para acotar I1 e I2 . Acotamos de manera similar I1 y obtenemos
I1 =
gdFn
a
Para los a y b obtenidos, dado que son puntos de continuidad de F , se deduce que c (Fn (a) + 1 Fn (b)) c (F (a) + 1 F (b)) < , por lo tanto existe k N tal que c (Fn (a) + 1 Fn (b)) < 2 para todo n k. Por ahora obtenemos I1 + I3 < 3 para todo n k. 92
n+
Captulo 9. Funciones caractersticas. Para culminar la demostracin, probaremos que I2 < 3 para todo n sucientemente grande. Como g es continua en [a, b], entonces es absolutamente continua, por lo que podemos elegir una particin de [a, b] , a = x0 < x1 < x2 < ... < xN = b tal que x1 , x2 , ..., xN 1 sean puntos de continuidad de FX y |g(x) g(xi )| < para todo x [xi , xi+1 ] para todo i = 0, 1, 2, ..., N 1.
I2 =
a
gdFn
a
def
gdF =
N 1 ( xi+1 i=0 xi
g(x)dFn (x)
xi+1
xi+1
) g(x)dF (x) .
xi
g(x)dFn (x)
xi
(g(xi ) + ) (Fn (xi+1 ) Fn (xi )) = Mni xi+1 mi = (g(xi ) ) (F (xi+1 ) F (xi )) g(x)dF (x)
def def
xi
Entonces
mni Mi
xi+1 xi
g(x)dFn (x)
xi+1
xi
(mni Mi )
a
g(x)dFn (x)
a
g(x)dF (x)
N 1 i=0
(Mni mi ) .
Ahora, observamos que como los xi son puntos de continuidad de FX , se obtiene que mni mi y Mni Mi para todo i = 0, 1, 2, ..., N 1, por lo que
n+ n+ N 1 i=0
(mni Mi )
N 1 i=0
n+
(mi Mi ) =
2
y
N 1 i=0
(Mni mi )
n+
(Mi mi ) =
N 1 i=0
93
Captulo 9. Funciones caractersticas. Entonces a partir de cierto n sucientemente grande, se tiene que b b 3 g(x)dFn (x) g(x)dF (x) 3
a a
lo que prueba que I2 3 concluyendo as la prueba. (b) (c) Fijado t R, consideramos las funciones g1 (x) = sen (tx) y g2 (x) = cos(tx) ambas son continuas y acotadas, por lo que E (g1 (Xn )) = E (sen(tXn )) E (g1 (X)) =
E (sen(tX)) , y E (g2 (Xn )) = E (cos(tXn )) E (g2 (X)) = E (cos(tX)) . Entonces n+ ( itX ) ( itX ) n E e E e y como t es arbitrario, entonces Xn (t) X (t) para
todo t R. (c) (a) Nuevamente, por simplicidad, le llamamos Fn a la funcin de distribucin de Xn d y F a la funcin de distribucin de X. Para demostrar que Fn F , bastar con d probar que existe una subsucesin tal que Fnj F. Esto se debe a que una vez probado que Fnj F, si {Fn }nN no convergiera dbilmente a F , entonces, existira x0 punto de continuidad de F tal que Fn (x0 ) F (x0 ), entonces como {Fn (x0 )}nN es una sucesin acotada, existe una subsucesin {Fnk }kN tal que Fnk (x0 ) a para cierto a = F (x0 ). Entonces extraemos una subsucesin de {Fnk }kN , que converge dbilmente a F , Fnkj F. Entonces, dado que x0 es punto de continuidad de F , se { } tendra que Fnkj (x0 ) F (x0 ), pero Fnkj (x0 ) es subsucesin de {Fnk (x0 )}kN y por lo tanto Fnkj (x0 ) a = F (x0 ), lo cual es absurdo. j+ { } d En lo que sigue, construiremos una subsucesin Fnj jN de {Fn }nN tal que Fnj F. Consideramos una numeracin de los racionales, Q = {qk }kN . Para cada k , existe una subsucesin de {Fn (qk )}nN que es convergente, llammosle gk a dicho lmite. Mediante el procedimiento de la diagonal, podemos asegurar que existe una sucesin de naturales n1 < n2 < ... < nj < ... tal que Fnj (qk ) g(qk ) para todo k. j+ { g(qk ) si x = qk Denimos la funcin G : R R tal que G(x) = lim g(q) si x Q . En / primer lugar debemos ver que G est bien denida, es decir que existe el lmite para el caso en que x es irracional. Para ello, observamos que G restringida a Q, es montona creciente, esto se debe a que si q < q entonces Fnj (q) Fnj (q ) para todo j , luego, se toma lmite en j . De aqu se deduce que G es montona creciente. Podra no ser continua por derecha, pero veamos en lo que sigue, que Fnj (x) G(x) en todo punto de continuidad de G. En efecto, si x es punto de continuidad de G, entonces, dado > 0, existen dos racionales q y q tales que q < x < q con G(q ) < G(x) < G(q) + , entonces
j+ qx qQ j+ jN d k+ d n+ n+
n+
94
Captulo 9. Funciones caractersticas. limsup Fnj (x) lim Fnj (q ) = G(q ) < G(x) +
j+
de donde se deduce que lim Fnj (x) = G(x). En los puntos donde G no sea continua,
j+
la podemos redenir de modo que quede continua por derecha (esto es posible porque G es creciente). Probaremos que sta funcin G redenida de modo que quede continua por derecha, es una funcin de distribucin, para lo cual bastar ver que tiene lmites 0 y 1 a y + respectivamente. Como Xnj X en todo punto, entonces, por el teorema de convergencia dominada dado que Xnj (s) 1 para todo s, obtenemos
Xnj (s)ds
j+ 0
(
0
isu
) ds dF (u) =
eiut 1 iu
dF (u).
Adems, observando que la demostracin de que (a) (b) sigue valiendo si la convergencia dbil, es denida sobre funciones acotadas, si denimos gt : R R tal que iut gt (u) = e iu1 , entonces, dado que para todo t, gt es continua y acotada, se tiene que ( ) E gt (Xnj ) E (gt (X)), es decir
j+
eiut 1 iu
) dFnj (u)
j+
eiut 1 iu
isu
) t ( dF (u) ds =
0
isu
1 t
1 X (s)ds = t
eiut 1 iu
) dG(u)
+ y tomando lmite cuando t 0 se obtiene que 1 = (0) = dG(u) = G (+) G () y como adems G es creciente y acotada entre 0 y 1, entonces necesariamente G (+) = 1 y G () = 0. Se concluye entonces que G es una funcin de distribucin. d Ahora, como tenemos que Fnj G, sabemos que existe un espacio de probabilidad y en l una variable aleatoria Y tal que G = FY . Como (a) implica (c), se deduce que
95
Xn (t)
por lo tanto X = Y , lo cual implica que FX = FY , es decir F = G. d Queda probado hasta ahora que existe una subsucesin de {Fn }nN tal que Fnj F. Para concluir la prueba debemos ver que Fn F. Ahora, si {Fn }nN no convergiera en distribucin a F , entonces existira a R punto de continuidad de F y una sub{ } { } sucesin Fnj jN tal que Fnj (a) F (a). Podemos suponer que Fnj (a) jN es convergente ya que de lo contrario como es una sucesin acotada en R, admiitira una subsucesin convergente y trabajaramos con dicha subsucesin si fuera necesario. Suponemos entonces que lim Fnj (a) = b = F (a). Por lo recin probado, existe una j+ { } subsucesin de Fnj jN que converge en distribucin a cierta funcin de distribucin G. Observamos adems que debe ser G = F ya que por hiptesis, las funciones caractersticas asociadas a esta subsucesin convergen a la funcin caracterstica asociada a F . Entonces como a es punto de continuidad de F, esta subsucesin evaluada en a, { } debera converger a F (a), pero por ser subsucesin de Fnj (a) jN converge a b.
j+ d
n+
n+
Demostracin.
) ( n Xn d N (0, 1) .
Suponemos en un primer caso que = 0 y = 1. 2 Recordando que la funcin caracterstica de N (0, 1) es (t) = et /2 para todo t R, y usando el teorema que caracteriza la convergencia en distribucin mediante la convergencia de las funciones caractersticas para todo t, bastar probar que
nX n (t) et
n+
2 /2
t R.
Usando que aX (t) = X (at) y luego que las Xi son independientes e idnticamente distribudas, se obtiene
nX n
Ahora si tenemos en cuenta que admite dos derivadas continuas (ya que X L2 ) desarrollamos por Taylor alrededor de cero y obtenemos
Captulo 9. Funciones caractersticas. Pero X (0) = 1, X (0) = iE (X) = 0, X (0) = E (X 2 ) = 1, entonces queda [ ( )]n [ ]n (ct,n ) 2 n ln 1+ X 2n t t X (ct,n ) 2 nXn (t) = X = 1+ t =e . 2n n Ahora, teniendo en cuenta que X es continua y que |ct,n | |t| / n, se deduce que X (ct,n ) X (0) = 1. Entonces
n+ (ct,n ) 2 n ln 1+ X 2n t
n+
= lim en
n+
X (ct,n ) 2 t 2n
= et
2 /2
lo que concluye la prueba en el caso = 0 y = 1. El caso general se deduce deniendo las variables Yn := Xn . Entonces {Yn }n1 es una sucesin de v.a.i.i.d con distribucin FY , Y L2 , E (Y ) = 0, V (Y ) = 1. Entonces d se tiene que nYn = n X n N (0, 1) lo que concluye la prueba.
n+
lim
) n( Xn x ) (
) = (x) .
Entonces, si
N (, 2 /n) ,
por lo tanto si
Observacin 9.20.
N (n, n ) .
Ejemplo 9.21. Si X Bin(n, p) y n es sucientemente grande, entonces X es aproximadamente N (np, np(1 p)) ya que podemos escribir X como X = X1 +X2 +...+Xn donde X1 , X2 , ..., Xn son i.i.d Ber(p) . Si tiramos 100 veces una moneda, calcularemos de manera aproximada mediante le empleo del teormea central del lmite la probabilidad de obtener entre 40 y 60 caras. Para el clculo, denimos X = antidad de caras en los 100 lanzamientos", entonces X Bin(n = 100, p = 1/2). Deseamos hallar P (40 X 60) . Dado que np = 50 y np(1 p) = 25, tenemos que la distribucin de X es) aproximadamente N (50; 25) y ) ( ( por lo tanto P (40 X 60) 6050 4050 = 0, 954 50. El valor exacto en = 5 5 este caso es 0,9648. 97
Ejemplo 9.22.
Captulo 9. Funciones caractersticas. Como aplicacin, podemos volver a calcular n, de forma aproximada, tal que ( ) P X n p 0, 01 0, 95 para el caso en que X1 , X2 , ..., Xn son i.i.d Ber(p). Esto ya fue resuelto como aplicacin de la desigualdad de Chebyshev, ahora podremos dar otra solucin, aproximada, mediante el empleo del teorema central del lmite. Aproximando la distribucin de X n por N (p, p(1 p)/n) obtenemos ( ) ( ) P X n p 0, 01 = P p 0, 01 X n p + 0, 01 =
por lo que bastar con hallar n tal que 2 (0, 02 n) 1 0, 95 lo cual se cumple si ( )2 1,96 y slo si 0, 02 n 1 (0, 975) = 1, 96, es decir que basta con tomar n 0,02 = 9604.
Observacin 9.23.
un valor de
aplicacin de la desigualdad de Chebyshev, se debe a que como ya fue dicho en su momento, la desigualdad de Chebysehv es una desigualdad universal, aplicable a toda 2 variable aleatoria en L y por lo tanto es natural esperar que en ciertas situaciones nos de acotaciones groseras de la probabilidad buscada.
98
Denicin 10.1.
99
Captulo 10.
Estimacin puntual.
Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, ) con Rk , se dice que : es un estimador de si y slo si (X1 , X2 , ..., Xn ) es un estadstico que es usado para estimar el verdadero valor de . En general para abreviar, le llamaremos a (X1 , X2 , ..., Xn ) . Observamos que depende de n y es importante tener un estimador que cumpla propiedades de convergencia al verdadero valor de cuando el tamao de muestra n +. Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, ) con Rk , se dice que = (X1 , X2 , ..., Xn ) es un estimador dbilmente consistente si y slo si P c.s. y se dice que es fuertemente consistente si y slo si . Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, ) con Rk , ( ) se dice que = (X1 , X2 , ..., Xn ) es un estimador insesgado si y slo si E = y ( ) asintticamente insesgado si y slo si lim E = .
n+
Si X1 , X2 , ..., Xn es una M.A.S de cierta X L1 , por la ley fuerte de los grandes c.s. nmeros, sabemos que X n = E (X) lo cual nos dice que = X n es un estimador ( ) fuertemente consistente de , adems, sabemos que E X n = lo que prueba que el estimador es adems insesgado. Por otro lado, si X L2 , el estimador natural de 2 es la varianza muestral, es decir n )2 ( 1 2 2 c.s. Sn = n Xi X n , se deja como ejercicio vericar que Sn 2 , lo cual prueba
i=1 2 que = Sn es un estimador fuertemente consistente de 2 , adems se deja como 2 ejercicio tambin vericar que E (Sn ) = n1 2 lo que prueba que es asintticamente n insesgado. n )2 ( n 1 2 Xi X n es un estimador fuertemente consistente Se observa que n1 Sn = n1
y adems insesgado de 2 .
i=1
100
Captulo 10.
10.2.1. Mtodo de los momentos.
Estimacin puntual.
Si X1 , X2 , ..., Xn es una M.A.S de cierta X Lk con distribucin FX (x, ) con Rk entonces se plantean las siguientes k ecuaciones E (X) = X n n E (X 2 ) = 1 X 2 i n i=1 Observamos que las k igualdades se pueden ver como un . . ( ) . n E Xk = 1 Xk i n sistema de k ecuaciones con k incgnitas, donde las incgnitas son 1 , 2 , ..., k que aparecen del lado izquierdo en las igualdades, ya que al depender la distribucin de ( ) X de los parmetros 1 , 2 , ..., k , entonces sus momentos E (X) , E (X 2 ) , ..., E X k quedan en funcin de 1 , 2 , ..., k . Si estas k ecuaciones con k incgnitas, admitieran una solucin, 1 , 2 , ..., k , esta n n 2 k 1 1 Xi , ..., n Xi quedando as los llamados solucin quedar en funcin de X n , n estimadores por momentos de 1 , 2 , ..., k . Se observa que ste mtodo est basado en la ley de los grandes nmeros ya que la n 2 1 misma nos arma que X n converge casi seguramente a E (X) , n Xi converge casi seguramente a E (X
2 1 ) ... n n i=1 i=1 i=1 i=1
Xik
i=1
rece natural pensar que si este sistema admite solucin, la misma se debera esperar que sea fuertemente consistente. Si X1 , X2 , ..., Xn es una M.A.S de cierta X U (0, b) entonces para hallar el estimador por el mtodo de los momentos, dado que hay un slo parmetro a estimar, planteamos una ecuacin con una incgnita: E (X) = X n , la misma nos b queda 2 = X n por lo que el estimador por momentos de b nos queda b = 2X n . Como se observa en este caso, el estimador queda fuertemente consistente ya que
Ejemplo 10.6.
X n E (X) =
c.s.
Adems es insegado ya que ( ) ( ) ( ) b E b = E 2X n = 2E X n = 2 = b. 2 Bajo ciertas hiptesis de regularidad, se puede probar que el estimador de un parmetro = (1 , 2 , ..., k ) por momentos, en caso de existir es fuertemente consistente y asintticamente insesgado.
10.2.2. Mtodo de mxima verosimilitud.
Si X1 , X2 , ..., Xn es una M.A.S de cierta X discreta con funcin de probabilidad pX (x, ) ( o absolutamente continua con funcin de densidad fX (x, )) se dene la 101
Captulo 10.
Estimacin puntual.
n i=1
pX (xi , )
El mtodo de mxima verosimilitud, consiste en resolver el siguiente problema de optimizacin: dada X1 , X2 , ..., Xn M.A.S de cierta X con distribucin FX (x, ) con Rk el estimador mximo verosmil de es la solucin al problema (si existe)
Es decir que para hallar el estimador mximo verosmil de , se debe maximizar la funcin L (X1 , X2 , ..., Xn , ) como funcin de (generalmente se la llama L () para recordar que miramos la funcin de veosimilitud como funcin de ) y luego el valor de donde se obtiene dicho mximo (que depende de la muestra) es el estimador buscado. Dado que la funcin logaritmo es creciente, el valor de donde se maximiza L () es el mismo que el valor de donde se maximiza h () =log L () (el logaritmo es neperiano) muchas veces es ms sencillo maximizar h. Supongamos que luego de realizado el muestreo, obtuvimos la muestra (x1 , x2 , ..., xn ) es decir que (x1 , x2 , ..., xn ) es la realizacin de una M.A.S (X1 , X2 , ..., Xn ) . Supongamos adems que X es discreta con funcin de probabilidad pX (x, ), entonces
L (x1 , x2 , ..., xn , ) =
n i=1
pX (xi , ) =
n i=1
P (X = xi , ) =
i.d.
n i=1
P (Xi = xi , ) =
indep
Ejemplo 10.7.
n i=1
h(p) =
log pX (xi , p) =
log p (1 p)
xi
1xi
102
Captulo 10.
n i=1
Estimacin puntual.
( xi log p +
n i=1
n i=1
) xi log (1 p) .
n i=1
Luego,
h (p) =
1 xi p
1 n n i=1
( n
) xi
1 . 1p
xi {0, 1}, entonces X n {0, 1} para todo n, entonces analizando el signo de h vemos que h se maximiza para p = X n .
Ejemplo 10.8.
n i=1
L (b) =
Dado que L es una funcin decreciente cuando b > x1 , x2 , ..., xn (es decir cuando b >max{x1 , x2 , ..., xn }) y 0 cuando no, se deduce que la funcin L se optimiza para b =max {X1 , X2 , ..., Xn } . Bajo ciertas condiciones de regularidad, es posible demostrar que existe el estimador mximo verosmil y es fuertemente consistente, tambin es posible demostrar la convergencia en distribucin a una variable normal.
103
Denicin 11.1.
Si X1 , X2 , ..., Xn es una muestra aleatoria simple de X cuya funcin de distribucin es FX (x, ) siendo R. Dado (0, 1), supongamos que a (X1 , X2 , ..., Xn ) y b (X1 , X2 , ..., Xn ) son dos estadsticos tales que P ( [a (X1 , X2 , ..., Xn ) ; b (X1 , X2 , ..., Xn )]) = 1 , diremos entonces que I = [a (X1 , X2 , ..., Xn ) ; b (X1 , X2 , ..., Xn )] es un intervalo de conanza de nivel 1 para el parmetro .
1 )
Observacin 11.3.
X1 , X2 , ..., Xn es realizada en los nmeros x1 , x2 , ..., xn , el intervalo I = [a(x1 , x2 , ..., xn ); b(x1 , x2 , ..., xn )] no es aleatorio y por lo tanto, la probabilidad de que I es 0 o 1 segn el parmetro I o I , entonces vale observar que el intervalo / I = [a(X1 , X2 , ..., Xn ); b(X1 , X2 , ..., Xn )] es aleatorio, mientras que el intervalo I = [a(x1 , x2 , ..., xn ); b(x1 , x2 , ..., xn )] es jo, para distinguir una situacin de otra, se le
Observemos tambin que una vez que la muestra suele llamar a ste ltimo, intervalo de conanza mientras que al otro se le suele denominar intervalo aleatorio. En lo que sigue, seremos informales en la escritura y les llamaremos a ambos intervalos de conanza, a pesar de que debemos tener clara su diferencia.
104
Captulo 11.
Intervalos de conanza.
En el caso en que X1 , X2 , ..., Xn es una muestra aleatoria simple de X N (, 2 ) donde 2 es desconocido, si bien la igualdad calculada es vlida, carece de valor ya z que en este caso a (X1 , X2 , ..., Xn ) = X n 1/2 no es un estadstico (tampoco lo n es b) por lo que no es vlido como intevalo de conanza. Para obtener un intervalo en estos caso introducimos dos nuevas familias de variables aleatorias.
Denicin 11.4.
Se dice que X tiene una distribucin tstudent con n grados de libertad cuando tiene la siguiente densidad: ( ) n+1 1 2( ) fX (x) = n+1 n ( n 2 1 + x2 ) 2 n
Notacin: X tn . Se observa que si X tn entonces E (X) = 0 para n > 1 (si n 1, entonces no existe n la esperanza) y se puede vericar que V (X) = n2 para n > 2 (si n 2, no admite momentos de orden 2). 105
Captulo 11.
Intervalos de conanza.
Se dice que X tiene una distribucin 2 con n grados de libertad cuando tiene la siguiente densidad:
Denicin 11.5.
fX (x) =
1 2n/2 (n/2)
Notacin: X 2 . n Se puede vericar que si X 2 , entonces E (X) = n y V (X) = 2n. n Para obtener un intervalo de conanza para en estos casos, nos serviremos del siguiente teorema (que no demostraremos).
n1
2 Sn =
1 n
n (
Xi
n1(X n ) Sn )2 X n la
i=1
Entonces, veamos que en este caso podemos determinar k , no dependiendo de parmetros desconocidos, de modo que el intervalo de conanza de nivel 1 sea de la ] [ n1(X n ) forma X n kSn ; X n + kSn . Para abreviar, le llamamos T a la variable . Sn Entonces
Teorema 11.7.
2 (n 1) (2
muestral.
Si
X1 , X2 , ..., Xn
es una muestra de
con
n1
106
Captulo 11.
c.s.
Intervalos de conanza.
2 Dado que Sn 2 podramos nuevamente intentar buscar un intervalo en la forma 2 2 [Sn k; Sn + k] pero la idea no funciona, por lo tanto veremos si podemos encontrar 2 2 valores a y b tales que el intervalo quede en la forma [aSn ; bSn ] . Planteamos entonces la 2 2 2 2 ecuacin 1 = P ( [aSn ; bSn ]) y hallaremos a y b tales que P ( 2 < aSn ) = /2 2 2 y P ( 2 > bSn ) = /2. Para simplicar le llamaremos 2 a la distribucin de nS2n . Entonces ( ) ( 2 ) (n) ( 2 ) 2 nSn n 2 2 P < aSn = P Sn > =P > = 1 F2 = /2 a 2 a a
por lo que
n a
n F 1 (/2) 2
y nuevamente, llamndole
2 (n) = F 1 (p) siendo la funcin de distribucin asociada a una variable 2 (n) y p observando que en este caso la variable con la cual estamos distribuye 2 (n 1) obtenemos a = 2 n . Trabajando anlogamente con la otra igualdad se obtiene (n1)
que b = queda
/2
n 2 (n1) 1/2
En numerosas situaciones, se tiene una muestra X1 , X2 , ..., Xn de cierta X desconocida. Si el tamao de muestra es grande, y suponemos que X L2 y deseamos estimar = E (X) mediante un intervalo de conanza, entonces podemos aplicar el teorema central del lmite y realizar algunos clculos similares a los realizados, obtenindose as intervalos de conanza de nivel aproximadamente iguales a 1 . Efectivamente, debido al teorema central del lmite podemos armar que (en el caso n sucientemente grande) la distribucin de X n es aproximadamente N (, 2 /n). Por ( [ ]) lo tanto, P X n k; X n + k = ( ) ( ) ( ) TCL +k k = P k Xn + k = / n / n ( ) ( ) ( ) k n k n k n = 2 1 = 1 , ] [ z z por lo que obtendramos que el intervalo I = X n 1/2 ; X n + 1/2 es tal que n n P ( I) 1 . Ahora, como el intervalo depende de un parmetro desconocido = ( ), no nos sirve como intervalo de conanza, pero recordando que n es grande, 2 podemos sustituir por un estimador consistente del mismo, por ejemplo Sn = Sn obtenindose de esa forma el intervalo [ ] Sn z1/2 Sn z1/2 ; Xn + Xn n n
que es, ahora si, un intervalo de conanza de un nivel aproximadamente igual a 1 . Como caso particular podemos obtener un intervalo de conanza aproximado para p 107
Captulo 11.
Intervalos de conanza.
cuando X Ber(p) en el caso en que n es grande. Efectivamente, cuando X Ber(p) 2 1 2 entonces = E (X) = p, adems, como Xi = Xi2 , entonces Sn = n n Xi2 X n = i=1 ( ) 2 X n X n = X n 1 X n , obtenindose as un intervalo de conanza para p ( ) ( ) X n 1 X n z1/2 X n 1 X n z1/2 X n ; Xn + n n cuyo nivel es aproximadamente 1 .
11.3. Resumen.
Recordemos que dado p (0, 1) usamos las siguientes notaciones para F 1 (p) : zp si F es la funcin de distribucin de una variable N (0, 1); tp (n) si F es la distribcuin de una variable tn (tstudent con n grados de libertad) y 2 cuando F es la fucnin p de distribucin de una variable 2 dada X1 , X2 , ..., Xn muestra de X , hemos obtenido n intervalos de conanza para los siguientes casos. 1. Intervalo de conanza para = E (X) al nivel 1 .
a)
Si X N (, 2 ) con 2 conocido, ] [ z1/2 z1/2 ; Xn + . Xn n n Si X N (, 2 ) con 2 desconocido, [ ] Sn t1/2 (n 1) Sn t1/2 (n 1) Xn ; Xn + . n1 n1 Si X L2 y n es sucientemente grande, un intervalo aproximado es [ ] Sn z1/2 Sn z1/2 Xn ; Xn + . n n
b)
c)
2. Intervalo de conanza para p al nivel 1 cuando X Ber(p) y n es sucientemente grande, un intervalo aproximado es
( ) ( ) X n 1 X n z1/2 X n 1 X n z1/2 X n . ; Xn + n n
3. Intervalo de conanza para 2 en el caso en que X N (, 2 ) .