Documente Academic
Documente Profesional
Documente Cultură
X o X
n
X, en medida
para denotar la convergencia en medida. Si (, F, ) es un espacio de probabilidad este tipo de conver-
gencia se conoce como convergencia en probabilidad y se denota
X
n
P
X o X
n
X, en probabilidad.
Ese tipo de convergencia es mas debil que la convergencia casi segura, como lo muestran la siguiente
la proposicion y el ejemplo que le sigue.
Proposicion 5.3 Sean X
n
, n 1 y X como en la denicion 5.1 y supongamos que () < . Si X
n
converge a X c.s. entonces tambien converge en medida.
Demostracion. Si X
n
X c.s. entonces para cualquier > 0
0 = ({|X
n
X| > } para innitos n)
= (lmsup{|X
n
X| > })
= lm
n
(
kn
{|X
k
X| > })
lm
n
({|X
n
X| > }).
(|
n
| > ) 0, n ,
es decir, si
n
converge en probabilidad al verdadero valor de . El estimador es (fuertemente) consistente
si esta convergencia se da con probabilidad 1.
5.3.2. Consecuencias de la Convergencia en Medida
A un cuando hemos visto que convergencia en medida es mas debil que convergencia c.s., el siguiente
teorema, debido a Riesz, muestra que si tenemos convergencia en medida, siempre hay una subsucesion
que converge c.s. al mismo lmite.
Teorema 5.1 (Riesz) Si la sucesion X
n
converge en medida a X en , existe una subsucesion (X
n
k
)
que converge c.s. a X.
Demostracion. Como la sucesion de funciones converge c.s. podemos hallar n
1
N tal que
({ : |X
n
1
() X()| 2
1
}) < 2
1
.
Para cada k > 1 hallamos n
k
> n
k1
tal que
({ : |X
n
k
() X()| 2
k
}) < 2
k
.
Veamos que la subsucesion (X
n
k
) converge c.s. a X. Sea
S
k
=
_
ik
{ : |X
n
i
() X()| 2
i
}.
Observamos que S
i
es una sucesion decreciente de conjuntos. Sea
S =
k1
S
k
.
Por sub-aditividad tenemos que la medida de S
k
esta acotada por
(S
k
) 2
k
+ 2
k1
+ 2
k2
+ = 2
1k
y en consecuencia la medida de S es
(S) = lm
k
(S
k
) = 0.
Veamos que si S entonces X
n
k
() X(). Sea > 0, escogemos K de modo que 2
K
< y
/ S
K
. Entonces para todo k K, / S
k
y en consecuencia
|X
n
k
() X()| < 2
k
< .
X y (X
n
k
) es una subsucesion, entonces X
n
k
X y Y
n
Y
1. X
n
+Y
n
X +Y .
2. X
n
Y
n
XY .
88 CAP
k
) tal que
X
n
k
c.s.
X.
Como Y
n
Y , dada la subsucesion (n
k
), existe una subsucesion (n
k
i
) tal que
X
n
k
i
c.s.
X, Y
n
k
i
c.s.
Y,
y en consecuencia tenemos
X
n
k
i
Y
n
k
i
c.s.
XY.
Por lo tanto, toda subsucesion de (X
n
Y
n
) tiene una subsucesion que converge c.s.
Proposicion 5.5 (Ley Debil de Grandes N umeros) Si (X
n
, n 1) son i.i.d. con E(X
n
) = y
Var(X
n
) =
2
, entonces
1
n
n
i=1
X
i
P
Demostracion. Basta usar la desigualdad de Chebyshef.
5.4. Convergencia en L
p
En esta seccion estudiamos un nuevo tipo de convergencia que tiene gran importancia en el analisis
funcional. Recordemos que una funcion medible X pertenece al espacio L
p
si
_
|X|
p
d < . Para p 1
y X, Y L
p
denimos una distancia en este espacio por
d
p
(X, Y ) =
_
_
|X Y |
p
d
_
1/p
.
Para ver que d
p
es una distancia demostraremos mas adelante la desigualdad triangular, que se conoce
como la desigualdad de Minkowski. Por otro lado, es claro que d
p
(X, Y ) = d
p
(Y, X). Ademas si X = Y
tenemos que d
p
(X, Y ) = 0 pero el recproco no es cierto: Si d
p
(X, Y ) = 0 solo podemos concluir que
X
c.s.
= Y . Por lo tanto d
p
solo sera una pseudo-distancia.
Para tener una distancia podemos tomar la relacion de equivalencia X
c.s.
= Y sobre el espacio L
p
y
en lugar de considerar las funciones medibles X consideramos las clases de equivalencia
X. El espacio
cociente, formado por las clases de equivalencia, lo denotamos L
p
y d
p
si sera una distancia sobre este
espacio. En lo que sigue vamos a obviar este procedimiento y hablaremos de d
p
como una distancia sobre
el espacio L
p
.
Hay una norma que induce esta distancia:
||X||
p
=
_
_
(|X|
p
)
_
1/p
.
5.4. CONVERGENCIA EN L
P
89
Denicion 5.6 Decimos que la sucesion (X
n
, n 1) converge a X en L
p
si todas las variables estan en
L
p
y
_
|X
n
X|
p
d 0
cuando n . Usamos la notacion
X
n
L
p
X.
Proposicion 5.6 Convergencia en L
p
implica convergencia en medida.
Demostracion. Tenemos
(|X
n
X| ) =
_
1
{|X
n
X|>}
d
=
_
1
{|X
n
X|
p
>
p
}
d
_
|X
n
X|
p
p
1
{|X
n
X|
p
>
p
}
d
p
_
|X
n
X|
p
d 0
cuando n .
El siguiente ejemplo muestra que el recproco no es cierto.
Ejemplo 5.4
De nuevo, el espacio de medida es el espacio de probabilidad de Lebesgue ([0, 1], B, ) y denimos
X
n
= 2
n
1
(0,
1
n
)
.
Entonces
P(|X
n
| > ) = ((0,
1
n
)) =
1
n
0
pero
E(|X
n
|
p
) = 2
np
1
n
.
Convergencia en L
p
no implica convergencia c.s., como lo muestra el ejemplo 5.2. Para cualquier p > 0,
como la variable X
n
solo toma valores 0 o 1, el valor esperado E(|X
n
|
p
) es igual a la longitud del intervalo
correspondiente a X
n
, y esta longitud tiende a 0.
Convergencia casi segura tampoco implica convergencia en L
p
, como lo muestra el ejemplo 5.3. A un
cuando la medida del espacio sea nita, es posible dar ejemplo de sucesiones que convergen c.s. pero no
convergen en L
p
.
Desigualdades
Teorema 5.2 (Desigualdad de Holder) Sea p, q n umeros reales tales que p, q > 1 y
1
p
+
1
q
= 1. (5.2)
Sean X L
p
, Y L
q
, entonces el producto XY es integrable y
_
|XY | d
_
_
|X|
p
d
_
1/p
_
_
|Y |
q
d
_
1/q
. (5.3)
90 CAP
_
|X||X +Y |
p/q
d +
_
|Y ||X +Y |
p/q
d
||X||
p
|| |X +Y |
p/q
||
q
+||Y ||
p
|| |X +Y |
p/q
||
q
=(||X||
p
+||Y ||
p
)|| |X +Y |
p/q
||
q
=(||X||
p
+||Y ||
p
)
_
_
|X +Y |
p
d
_
1/q
=(||X||
p
+||Y ||
p
)||X +Y ||
p/q
p
=(||X||
p
+||Y ||
p
)||X +Y ||
p1
p
Si el ultimo factor es distinto de 0, podemos dividir por el para obtener el resultado. Si es igual a 0,
ambos lados de la desigualdad valen 0.
La desigualdad anterior es la desigualdad triangular para || ||
p
.
5.4. CONVERGENCIA EN L
P
91
Teorema 5.4 (Desigualdad de Jensen) Sea (, F, P) un espacio de probabilidad, g : R R una
funcion convexa y X una variable aleatoria integrable tal que g(X) tambien es integrable. Entonces
E(g(X)) g(E(X)).
Demostracion. Sea g una funcion convexa, sabemos que dado cualquier punto de la graca de g podemos
hallar (al menos) una recta que es tangente a la curva en ese punto y tal que la recta siempre esta por
debajo de la curva que representa a g. Esta recta (que en general no es unica) se conoce como la recta
de soporte de g. Sea r(x) = ax +b la recta de soporte de g en el punto (E(X), g(E(X))) sobre la graca
de funcion g. Entonces
aX() +b g(X()).
Tomando esperanza obtenemos
a E(X) +b E(g(X)).
Pero como la recta r(x) es tangente a la funcion g en (E(X), g(E(X))), a E(X) +b = E(g(X)).
Ejemplo 5.5
Sea (, F, P) un espacio de probabilidad, X una variable aleatoria y 0 < < . Denimos
r =
> 1, s =
.
Entonces
1
r
+
1
s
=
= 1.
Ahora ponemos Z = |X|
) (E|X|
r
)
1/r
1 = (E|X|
)
/
de modo que
(E(|X|
))
1/
(E|X|
)
1/
y
||X||
||X||
.
Concluimos que X L
X L
= (E(|X|
))
1/
es no-decreciente en .
Como consecuencia tenemos que si X
n
L
p
X y r < p, X
n
L
r
X.
Teorema 5.5 Para p 1 el espacio L
p
es completo, es decir, si (X
n
) es una sucesion de Cauchy en L
p
,
existe X L
p
tal que X
n
L
p
X.
Demostracion. Dado > 0 sea N = N() N tal que si n, m N,
_
|X
n
X
m
|
p
d <
p+1
. (5.4)
Llamemos N
k
= N(2
k
) y supongamos que N
k+1
> N
k
para todo k. Denimos los conjuntos
A(, m, n) = { : |X
m
() X
n
()| }
92 CAP
i
(X
N
i+1
X
N
i
) converge fuera de B =
k1
B
k
y (B) = 0. En consecuencia existe
X tal que X
N
i
X c.s.
Para un entero jo r ponemos Y
i
= |X
N
i
X
r
|
p
, Y = |X X
r
|
p
y obtenemos una sucesion Y
i
de
funciones medibles no-negativas con lminf Y
i
= lmY
i
= Y c.s. Por el lema de Fatou tenemos
_
Y d lminf
i
_
|X
N
i
X
r
|
p
d <
si r > N(). En consecuencia Y es integrable, es decir (X X
r
) L
p
, lo cual implica que X L
p
.
Ademas probamos que
_
|X X
r
|
p
d < si r > N()
de modo que X
r
L
p
X.
Observacion 5.2 Es importante resaltar que el resultado anterior es falso para la integral de Riemann
sobre intervalos nitos. No es difcil construir ejemplos de sucesiones de funciones cuyas potencias de
orden p son integrables seg un Riemann, que son de Cauchy en L
p
pero cuyo lmite es discontinuo en un
conjunto de medida positiva y por lo tanto no pueden ser integrables seg un Riemann.
Como consecuencia del teorema anterior observamos que los espacios L
p
son espacios normados que
son completos respecto a la metrica inducida por la norma. Un espacio con estas propiedades se conoce
como un espacio de Banach.
Si p > 1 y q > 1 son conjugados decimos que los espacios L
p
y L
q
son conjugados. Por la desigualdad
de Holder sabemos que si X L
p
y Y L
q
entones el producto XY es integrable. Observamos que el
conjugado de p = 2 es q = 2, es decir que L
2
es su propio espacio conjugado, y ademas es el unico caso
en el que esto ocurre. Esto quiere decir que si tomamos dos funciones de L
2
, su producto es integrable,
y por lo tanto podemos denir un producto interno en L
2
: Para X, Y L
2
,
X, Y =
_
XY d.
Es facil ver que esta denicion satisface las condiciones de un producto interno (pasando al espacio
cociente L
2
si es necesario). Ademas, la norma asociada a este producto interno es la norma || ||
2
, que
denimos anteriormente, ya que
X, X =
_
|X|
2
d = ||X||
2
2
.
Por lo tanto L
2
es un espacio de Banach que tiene un producto interno que induce la norma del espacio.
Un espacio con estas propiedades se conoce como un espacio de Hilbert.
5.5. Convergencia en Distribucion
Denicion 5.7 Si F es una f.d. denimos el conjunto de puntos de continuidad o conjunto de continuidad
de F por
C(F) = {x R : F es continua en x}
Un intervalo nito I con extremos a < b es un intervalo de continuidad para F si a, b C(F).
5.5. CONVERGENCIA EN DISTRIBUCI
ON 93
Denicion 5.8 Sea (X
n
, n 1) una sucesion de v.a. con f.d. F
X
n
, n 1. X
n
converge en distribucion
a la v.a. X cuando n si
F
X
n
(x) F
X
(x) cuando n , x C(F
X
).
Notacion: X
n
d
X o X
n
w
X cuando n .
Observacion 5.3 Como en esta denicion solo intervienen las funciones de distribuciones, las variables
no necesariamente estan denidas en un mismo espacio de probabilidad.
Abusando la notacion, escribiremos X
n
w
N(0, 1) en lugar de X
n
w
X cuando n donde
X N(0, 1).
Ejemplo 5.6
Sea X
n
1/n
, es decir, la delta de Dirac concentrada en el punto 1/n. Si la denicion 5.8 tiene sentido
deberamos tener X
n
d
0
cuando n . Tenemos
F
X
n
(x) =
_
0, si x < 1/n,
1, si x 1/n,
_
0, si x 0,
1, si x > 1/n.
Por lo tanto F
X
n
F
0
(x) cuando n para todo x C(F
0
) pero no para todo x. Si en cambio
tuvieramos Y
n
1/n
entonces
F
Y
n
(x) =
_
0, si x < 1/n,
1, si x 1/n,
_
0, si x < 0,
1, si x 1/n.
y en este caso si tenemos convergencia para todo x.
Teorema 5.6 Sean X y X
n
, n 1 v.a. Si X
n
P
X entonces X
n
d
X.
Demostracion. Sea > 0, entonces
F
X
n
(x) = P(X
n
x) = P(X
n
x, |X
n
X| ) +P(X
n
x, |X
n
X| > )
P(X x +, |X
n
X| ) +P(|X
n
X| > )
P(X x +) +P(|X
n
X| > ),
y por la convergencia en probabilidad
limsup
n
F
X
n
(x) F
X
(x +).
De manera similar, cambiando X
n
por X, x por x , X por X
n
y x + por x, sigue que
liminf
n
F
X
n
(x) F
X
(x ).
Estas dos relaciones valen para todo x y todo > 0. Suponiendo ahora que x C(F
X
) y haciendo 0
obtenemos que
F
X
(x) = F
X
(x
) liminf
n
F
X
n
(x) limsup
n
F
X
n
(x) F
X
(x).
94 CAP
) liminf
n
F
X
n
(x) limsup
n
F
X
n
(x) F
X
(x).
Como F
X
(x) F
X
(x
y P(X
n
= n) =
1
n
0 cuando n .
La convergencia con probabilidad 1 sigue del Lema de Borel-Cantelli ya que
n=1
P(|X
n
| > )
_
< cuando > 1,
= cuando 1,
En cuanto a la convergencia en L
p
E|X
n
|
p
= 0
p
_
1
1
n
_
+n
p
1
n
= n
p
_
_
0, para p < ,
= 1, para p = , cuando n ,
, para p > .
Observamos que E|X|
p
ni converge a 0 ni diverge a innito cuando p = , sino que es igual a 1.
Teorema 5.7 Sea (X
n
, n 1) una sucesion de v.a.i. y c una constante, entonces
X
n
d
c
(n ) X
n
P
c (n ).
Demostracion. Supongamos que X
n
d
c
cuando n y sea > 0. Entonces
P(|X
n
c| > ) = 1 P(c X
n
c +)
= 1 F
X
n
(c +) +F
X
n
(c ) P(X
n
= c )
1 F
X
n
(c +) +F
X
n
(c )
0 cuando n ,
ya que F
X
n
(c +) F
X
(c +) = 1, F
X
n
(c ) F
X
(c ) = 0, y c , c + C(F
X
).
5.5. CONVERGENCIA EN DISTRIBUCI
ON 95
5.5.1. Caracterizacion de la Convergencia en Distribucion
Teorema 5.8 Sea {X
n
, n 1} una sucesion de v.a. y supongamos que X
n
d
X cuando n .
Si h es una funcion continua a valores reales o complejos denida en el intervalo acotado [a, b], donde
a, b C(F
X
), entonces
Eh(X
n
) Eh(X) cuando n . (5.6)
Demostracion. El caso complejo sigue del caso real. Usaremos el lema de aproximacion. Sea A
C(F
X
) R un subconjunto denso numerable. Si h(x) = 1
(c,d]
para c, d A, a c < d b, (5.6) se
reduce a demostrar que P(c < X
n
d) P(c < X d), lo cual es cierto por hipotesis. Por linealidad
la conclusion vale para funciones escalera cuyos escalones tengan extremos en A. Sea ahora h [a, b], y
sea g una funcion simple aproximante, entonces
| Eh(X
n
) E(h(X)| | Eh(X
n
) Eg(X
n
)| +| Eg(X
n
) Eg(X)| +| Eg(X) Eh(X)|
E|h(X
n
) g(X
n
)| +| Eg(X
n
) Eg(X)| + E|g(X) h(X)|
+| Eg(X
n
) Eg(X)| +.
Como ya hemos visto que para funciones simples el termino central tiende a cero cuando n obten-
emos
limsup
n
| Eh(X
n
) Eh(X)| < 2,
lo cual demuestra el teorema.
Teorema 5.9 Sea {X
n
, n 1} una sucesion de v.a. y supongamos que X
n
d
X cuando n . Si h
es una funcion a valores reales o complejos, continua y acotada, entonces
Eh(X
n
) Eh(X) cuando n . (5.7)
Demostracion. De nuevo, el caso complejo sigue del caso real. Supongamos que |h| M, entonces
| Eh(X
n
) Eh(X)| | Eh(X
n
)1
{|X
n
|K}
Eh(X)1
{|X|K}
| +| Eh(X
n
)1
{|X
n
|>K}
| +| Eh(X)1
{|X|>K}
|
| Eh(X
n
)1
{|X
n
|K}
Eh(X)1
{|X|K}
| + E|h(X
n
)|1
{|X
n
|>K}
+ E|h(X)|1
{|X|>K}
| Eh(X
n
)1
{|X
n
|K}
Eh(X)1
{|X|K}
| +MP|X
n
| > K) +MP(|X| > K)
Sea > 0 y escojamos K C(F
X
) sucientemente grande como para que 2MP(|X| > K) < . Usando el
teorema 5.8 para el primer termino y la convergencia en distribucion para los otros dos, obtenemos que
limsup
n
| Eh(X
n
) Eh(X)| < 2MP(|X| > K) < .
_
0 para x < a
k
,
x(a
k
)
k
para x [a
k
, a],
1 para x [a, b],
b+
k
x
k
para x [b, b +
k
],
0 para x > b +
k
96 CAP
_
0 para x < a,
xa
k
para x [a, a +
k
],
1 para x [a +
k
, b
k
],
bx
k
para x [b
k
, b],
0 para x > b
los mismos argumentos nos dan
liminf
n
F
n
(a, b] F([a +
k
, b
k
]),
y como ahora h
k
(x) 1
(a,b)
, tenemos nalmente
liminf
n
F
n
(a, b] F(a, b]. (5.10)
Las ecuaciones (5.9) y (5.10) demuestran que X
n
d
X cuando n .
Como corolario obtenemos los siguientes resultados:
Corolario 5.4 Sea {F
n
, n 0} una familia de funciones de distribucion. Las siguientes armaciones
son equivalentes
(1) F
n
d
F
0
.
(2) Para toda funcion real f acotada y uniformemente continua,
_
f dF
n
_
f dF
0
,
cuando n .
Demostracion. Basta observar que las funciones g
k
y h
k
que usamos en la demostracion del teorema
anterior son continuas con soporte compacto y por lo tanto son uniformemente continuas.
Teorema 5.11 Sean X e Y v.a.
X
d
= Y Eh(X) = Eh(Y )
para toda funcion h continua y acotada.
Teorema 5.12 Sean X y {X
n
, n 1} v.a. y supongamos que X
n
d
X cuando n . Entonces
E|X| liminf
n
E|X
n
|.
5.5. CONVERGENCIA EN DISTRIBUCI
ON 97
Demostracion. Sea K C(F
X
) un n umero positivo. Por el teorema 5.8 tenemos
liminf
n
E|X
n
| liminf
n
E|X
n
|1
{|X
n
|K}
= E|X|1
{|X|K}
.
La conclusion sigue haciendo K tender a innito a traves de una sucesion de puntos de continuidad de
F
X
.