ATP0204

t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Carlos Tenreiro
Apontamentos de
Teoria das Probabilidades
Coimbra, 2002
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Vers ao de Dezembro de 2004
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Nota previa
Os presentes apontamentos tem por base as notas do curso de
Teoria das Probabilidades que leccionamos no segundo semestre dos
anos lectivos de 2000/01 e 2001/02, a alunos do Ramo Cientco,
especializa cao em Matematica Pura, do terceiro ano da licenciatura
em Matematica da Universidade de Coimbra. Uma versao prelimi-
nar destes apontamentos foi utilizada como texto de apoio ao curso
no ultimo dos anos lectivos referidos.
Ao longo dos dez captulos que constituem este texto, desenvol-
vemos temas habituais num primeiro curso de Teoria das Probabi-
lidades, cujo principal objectivo e o estabelecimento dos teoremas
limite classicos: leis dos grandes n umeros de Kolmogorov e teorema
do limite central de Lindeberg.
Estando os alunos ja familiarizados com topicos como o do pro-
longamento de medidas, da integra cao relativamente a uma me-
dida, dos espa cos L
p
de Lebesgue, das medidas produto, da trans-
forma cao de medidas, ou dos teoremas de Radon-Nikodym e da
decomposi cao de Lebesgue, a abordagem às probabilidades feita
nesta disciplina, e fortemente inuenciada por tal facto.
Ao fazermos referencia a um dos resultados anteriores, ou a ou-
tro qualquer resultado de Medida e Integra cao que sabemos ser do
conhecimento do aluno, remetemos o leitor para os nossos Apon-
tamentos de Medida e Integra cao (Coimbra, 2000) que neste texto
designaremos pelas iniciais AMI.
Carlos Tenreiro
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Indice
I Distribuicoes de probabilidade 1
1 Espa cos de probabilidade 3
1.1 Modelo matematico para uma experiencia aleatoria . . . . . . . . . . . . 3
1.2 Propriedades duma probabilidade . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Modela cao de algumas experiencias aleatorias . . . . . . . . . . . . . . . 8
1.4 Algumas constru coes de espa cos de probabilidade . . . . . . . . . . . . . 14
1.5 Produto de espa cos de probabilidade . . . . . . . . . . . . . . . . . . . . 16
1.6 Probabilidade condicionada . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7 Produto generalizado de probabilidades . . . . . . . . . . . . . . . . . . 22
1.8 Breve referencia à simula cao de experiencias aleatorias . . . . . . . . . . 24
1.9 Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2 Variaveis aleatorias e distribui coes de probabilidade 29
2.1 Variaveis aleatorias e suas leis de probabilidade . . . . . . . . . . . . . . 29
2.2 Classica cao das leis de probabilidade sobre R
d
. . . . . . . . . . . . . . 34
2.3 Fun cao de distribui cao duma variavel aleatoria real . . . . . . . . . . . . 36
2.4 Fun cao de distribui cao dum vector aleatorio . . . . . . . . . . . . . . . . 41
2.5 Transforma cao de vectores absolutamente contnuos . . . . . . . . . . . 43
2.6 Distribui coes condicionais . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.7 Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3 Independencia 49
3.1 Independencia de classes de acontecimentos aleatorios . . . . . . . . . . 49
3.2 Independencia de vari aveis aleatorias . . . . . . . . . . . . . . . . . . . . 51
3.3 Soma de variaveis aleatorias independentes . . . . . . . . . . . . . . . . 54
3.4 Leis zero-um de Borel e de Kolmogorov . . . . . . . . . . . . . . . . . . 57
3.5 Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
i
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
ii Apontamentos de Teoria das Probabilidades
4 Integra cao de variaveis aleatorias 61
4.1 Esperan ca matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.3 Covariancia e correla cao . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.4 Integra cao de vectores aleatorios . . . . . . . . . . . . . . . . . . . . . . 70
4.5 Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
II Leis dos grandes n umeros 73
5 Convergencias funcionais de variaveis aleatorias 75
5.1 Convergencia quase certa . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.2 Convergencia em probabilidade . . . . . . . . . . . . . . . . . . . . . . . 76
5.3 Convergencia em media de ordem p . . . . . . . . . . . . . . . . . . . . . 78
5.4 Convergencia funcional de vectores aleatorios . . . . . . . . . . . . . . . 81
5.5 Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6 Leis dos grandes n umeros e series de variaveis aleatorias independen-
tes 83
6.1 Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.2 Primeiras leis dos grandes n umeros . . . . . . . . . . . . . . . . . . . . . 85
6.3 Leis fracas dos grandes n umeros . . . . . . . . . . . . . . . . . . . . . . . 88
6.4 Leis fortes e series de variaveis independentes . . . . . . . . . . . . . . . 89
6.5 Lei forte dos grandes n umeros de Kolmogorov . . . . . . . . . . . . . . . 92
6.5.1 Necessidade da condi cao de integrabilidade . . . . . . . . . . . . 92
6.5.2 Suciencia da condi cao de integrabilidade . . . . . . . . . . . . . 93
6.6 O teorema das tres series . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.7 Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
III Teorema do limite central 99
7 Fun cao caracterstica 101
7.1 Integra cao de variaveis aleatorias complexas . . . . . . . . . . . . . . . . 101
7.2 Deni cao e primeiras propriedades . . . . . . . . . . . . . . . . . . . . . 102
7.3 Derivadas e momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.4 Injectividade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.5 Formulas de inversao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.6 Independencia e soma de vectores aleatorios . . . . . . . . . . . . . . . . 108
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Indice iii
7.7 Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8 Vectores aleatorios normais 111
8.1 Deni cao e existencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.2 Fun cao caracterstica e independencia das margens . . . . . . . . . . . . 112
8.3 Continuidade absoluta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
8.4 Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9 Convergencia em distribui cao 117
9.1 Deni cao e unicidade do limite . . . . . . . . . . . . . . . . . . . . . . . 117
9.2 Caracteriza coes e primeiras propriedades . . . . . . . . . . . . . . . . . . 118
9.3 Rela coes com os outros modos de convergencia . . . . . . . . . . . . . . 121
9.4 O teorema de Prohorov . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.5 O teorema da continuidade de LevyBochner . . . . . . . . . . . . . . . 125
9.6 Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
10 O teorema do limite central 129
10.1 Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.2 O teorema do limite central classico . . . . . . . . . . . . . . . . . . . . 132
10.3 O teorema do limite central de Lindeberg . . . . . . . . . . . . . . . . . 134
10.4 O teorema do limite central multidimensional . . . . . . . . . . . . . . . 137
10.5 Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Tabela de valores da distribui cao normal standard 139
Bibliograa Geral 143
Indice Remissivo 144

t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Parte I
Distribuicoes de probabilidade
1
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Captulo 1
Espacos de probabilidade
Modelo matem atico para uma experiencia aleat oria. Propriedades duma probabilidade.
Modelac ao de algumas experiencias aleat orias. Algumas construc oes de espacos de pro-
babilidade. Produto innito de espacos de probabilidade. Probabilidade condicionada.
Teorema de Bayes. Produto generalizado de probabilidades. Breve referencia ` a simula-
c ao de experiencias aleat orias.
1.1 Modelo matematico para uma experiencia aleatoria
Em 1933 A.N. Kolmogorov
1
estabelece as bases axiomaticas do calculo das proba-
bilidades. O modelo proposto por Kolmogorov permitiu associar o calculo das proba-
bilidades à teoria da medida e da integra cao, possibilitando assim a utiliza cao dos
resultados e tecnicas da analise no desenvolvimento da teoria das probabilidades.
Ao conjunto das realiza coes possveis duma experiencia aleatoria Kolmogorov
come cou por associar um conjunto , a que chamamos espa co dos resultados ou
espa co fundamental, em que cada elemento caracteriza completamente uma
realiza cao possvel da experiencia aleatoria. Identicou os acontecimentos aleat orios
associados à experiencia com subconjuntos do espa co fundamental, associando a cada
acontecimento o conjunto dos pontos que correspondem a resultados da ex-
periencia aleatoria favoraveis à realiza cao desse acontecimento. Como casos extremos
temos o acontecimento impossvel e o acontecimento certo representados natu-
ralmente pelos conjuntos e , respectivamente. Os subconjuntos singulares de
dizem-se acontecimentos elementares.
As opera coes usuais entre conjuntos, reuniao, intersec cao, diferen ca, etc, permitem
exprimir ou construir acontecimentos em fun cao ou a partir de outros acontecimentos:
1
Kolmogorov, A.N., Grundbegrie der Wahrscheinlichkeitrechnung, 1933.
3
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
4 Apontamentos de Teoria das Probabilidades
AB acontecimento que se realiza quando pelo menos um dos acontecimentos A ou
B se realiza; A B acontecimento que se realiza quando A e B se realizam; A
c
acontecimento que se realiza quando A nao se realiza; A B acontecimento que se

realiza quando A se realiza e B nao se realiza;
n=1
A
n
acontecimento que se realiza
quando pelo menos um dos acontecimentos A
n
se realiza;
n=1
A
n
acontecimento
que se realiza quando todos os acontecimentos A
n
se realizam; liminf A
n
aconteci-
mento que se realiza quando se realizam todos os acontecimentos A
n
com excep cao
dum n umero nito deles; limsupA
n
acontecimento que se realiza quando se realiza
um innidade de acontecimentos A
n
.
Finalmente, com a axiomatiza cao do conceito de probabilidade, Kolmogorov estabe-
lece regras gerais a que deve satisfazer a atribui cao de probabilidade aos acontecimentos
duma experiencia aleatoria.
Concretizemos este procedimento, considerando a experiencia aleatoria que consiste
no lan camento de um dado equilibrado. Representando por i a ocorrencia da face
com i pontos, o espa co dos resultados e = 1, 2, 3, 4, 5, 6. Os acontecimentos
aleatorios sada de n umero par, sada de n umero inferior a 3, etc., podem ser
identicados com os subconjuntos do espa co dos resultados 2, 4, 6, 1, 2, etc., respe-
ctivamente. Em resposta às perguntas qual e a probabilidade de sair um n umero par no
lan camento de um dado? e qual e a probabilidade de sair um n umero m ultiplo de 3 no
lan camento de um dado?, esperamos associar a cada um dos conjuntos 2, 4, 6 e 3, 6,
um n umero real que exprima a maior ou menor possibilidade de tais acontecimentos
ocorrerem. Uma forma natural de o fazer, sera associar a um acontecimento a propor cao
de vezes que esperamos que esse acontecimento ocorra em sucessivas repeti coes da
experiencia aleatoria. Sendo o dado equilibrado, e atendendo a que em sucessivos
lan camentos do mesmo esperamos que o acontecimento 2, 4, 6 ocorra tres vezes em
cada seis lan camentos e que o acontecimento 3, 6 ocorra duas vezes em cada seis
lan camentos, poderamos ser levados a associar ao primeiro acontecimento o n umero
3/6 e ao segundo o n umero 2/6.
A deni cao de probabilidade de Kolmogorov que a seguir apresentamos, e moti-
vada por considera coes do tipo anterior relacionadas com o conceito frequencista de
probabilidade, isto e, com as propriedades da frequencia relativa de acontecimentos
aleatorios em sucessivas repeti coes duma experiencia aleatoria. Em particular, se por
P(A) denotarmos a probabilidade do acontecimento A, P(A) devera ser um n umero
real do intervalo [0, 1], com P() = 1 e P(A B) = P(A) + P(B), se A e B sao
incompatveis, isto e, se A B = . Estamos agora ja muito perto de no cao de
probabilidade considerada por Kolmogorov. Alem da propriedade de aditividade sobre
P, Kolmogorov assume que P e -aditiva. O domnio natural de deni cao duma tal
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
aplica cao e assim uma -algebra. Recordemos que uma classe / de partes de e
uma -algebra se contem o conjunto vazio, e e estavel para a complementa cao e para a
reuniao numeravel. Uma -algebra contem claramente , e e estavel para a intersec cao
numeravel bem como para a intersec cao e reuniao nitas.
Deni cao 1.1.1 Uma probabilidade P sobre uma - algebra / de partes de e uma
aplicac ao de / em [0, 1] tal que:
a) P() = 1;
b) Para todo o A
n
/, n = 1, 2, . . . disjuntos dois a dois
P
_

_
n=1
A
n
_
=
n=1
P(A
n
) (-aditividade).
Ao terno (, /, P) chamamos espa co de probabilidade. Quando a uma ex-
periencia aleatoria associamos o espa co de probabilidade (, /, P) dizemos tambem
que este espa co e um modelo probabilstico para a experiencia aleatoria em causa.
Os elementos de / dizem-se acontecimentos aleatorios. Fazendo em b), A
1
= e
A
n
= , para n 2, obtemos P() = P() +
n=2
P(), o que implica P() = 0. Por
outras palavras, uma probabilidade e uma medida denida num espa co mensuravel
(, /) em que a medida de todo o espa co e igual à unidade (ver AMI, 2.1).
A axiomatiza cao da no cao de probabilidade, nao resolve o problema da atribui cao
de probabilidade aos acontecimentos de uma experiencia aleatoria particular. Apenas
xa as regras gerais a que uma tal atribui cao deve satisfazer.
Nos exemplos que a seguir consideramos, a associa cao dum modelo probabilstico
às experiencias aleatorias que descrevemos pode ser feita de forma simples.
Exemplo 1.1.2 Retomando o exemplo do lan camento de um dado equilibrado, como
todos os elementos de = 1, 2, 3, 4, 5, 6 tem a mesma possibilidade de ocorrer, sera
natural tomar P denida em / = T() por P(x) = 1/6, para x . Duma forma
geral, se o espa co dos resultados duma experiencia aleatoria e nito e todos os seus
elementos tem a mesma possibilidade de ocorrer, sera natural tomar
P(A) =
A
, para A ,
isto e,
P(A) =
n umero de resultados favor aveis a A
n umero de resultados possveis
,
que nao e mais do que a deni cao classica de probabilidade.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Exemplo 1.1.3 Suponhamos que extramos ao acaso um ponto do intervalo real [a, b].
Neste caso = [a, b]. Sendo o n umero de resultados possveis innito, nao podemos
proceder como no exemplo anterior. No entanto, como intervalos com igual compri-
mento tem a mesma possibilidade de conter o ponto extrado, sera natural tomar para
probabilidade dum subintervalo ]c, d] de [a, b], o quociente entre o seu comprimento e
o comprimento de [a, b], isto e, P(]c, d]) = (d c)/(b a), para a c < d b. Mais
geralmente, se Qe uma regiao mensuravel de R
d
com volume 0 < (Q) < +, onde e
a medida de Lebesgue em R
d
, a extrac cao ao acaso dum ponto de Q pode ser modelada
pela probabilidade
P(A) =
(A)
(Q)
=
volume de A
volume de Q
, para A B(Q),
dita probabilidade geometrica.
Exerccios
1. (Paradoxo dos dados
2
) No lan camento de tres dados equilibrados, 9 e 10 pontos podem
ser obtidos de seis maneiras diferentes: 1 2 6, 1 3 5, 1 4 4, 2 2 5, 2 3 4, 3 3 3, e 1 3 6, 1 4
5, 2 2 6, 2 3 5, 2 4 4, 3 3 4, respectivamente. Como pode este facto ser compatvel com a
experiencia que leva jogadores de dados a considerarem que a soma 9 ocorre menos vezes
que a soma 10?
2. (Paradoxo do dia de aniversario) Se nao mais que 365 pessoas estao a assistir a um
espectaculo, e possvel que todas elas tenham um dia de aniversario diferente. Com 366
pessoas e certo que pelo menos duas delas tem o mesmo dia de aniversario. Admitindo que
os nascimentos se distribuem uniformemente pelos 365 dias do ano, e que ha n ( 365)
pessoas a assistir ao espectaculo, calcule a probabilidade p
n
de pelo menos duas delas
terem o mesmo dia de aniversario. Verique que p
23
> 0.5 e que p
56
> 0.99.
Suponha agora que tambem esta a assistir ao espectaculo. Qual e a probabilidade q
n
de
alguem com seu dia de aniversario estar tambem a assistir ao espectaculo? Verique que
q
23
< 0.059 e que q
56
< 0.141.
3. Num segmento de recta de comprimento L dois pontos sao escolhidos ao acaso. Qual e a
probabilidade da distancia entre eles nao exceder x, com 0 x L?
4. Qual e a probabilidade das razes da equa cao quadratica x
2
+ 2Ax +B = 0 serem reais,
se (A, B) e um ponto escolhido ao acaso sobre o rectangulo [R, R] [S, S]?
5. Suponhamos que extramos ao acaso um ponto x do intervalo [0, 1], e que nao estamos
interessados em x mas no seu quadrado y. Se pretendemos calcular a probabilidade de y
pertencer ao subintervalo ]c, d] de [0, 1], conclua que devera tomar = [0, 1] e P tal que
P(]c, d]) =
c, para 0 c d 1.
2
Este problema foi colocado a Galileu Galilei, o que o levou a escrever Sopra le scoperte dei dadi
(Sobre uma descoberta acerca de dados) entre 1613 e 1623.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
1.2 Propriedades duma probabilidade
As propriedades seguintes sao consequencia do facto duma probabilidade ser uma
medida denida num espa co mensuravel (, /) em que a medida de todo o espa co e
igual à unidade. A sua demonstra cao e deixada ao cuidado do aluno.
Proposi cao 1.2.1 (Aditividade nita) Se A
1
, . . . , A
n
s ao acontecimentos aleat orios
disjuntos dois a dois, ent ao P(
n
k=1
A
k
) =
n
k=1
P(A
k
).
Proposi cao 1.2.2 Para A, B /, temos:
a) P(A
c
) = 1 P(A);
b) Se A B, ent ao P(B A) = P(B) P(A);
c) Se A B, ent ao P(A) P(B) (monotonia);
d) P(A B) = P(A) + P(B) P(A B).
Proposi cao 1.2.3 (Subaditividade completa) Se A
n
/, para n = 1, 2, . . ., ent ao
P(
n=1
A
n
)
n=1
P(A
n
).
Proposi cao 1.2.4 (Continuidade) Se A
n
/, para n = 1, 2, . . ., e A
n
A ent ao
P(A
n
)P(A).
Dizemos que uma fun cao de conjunto P denida numa classe B de partes de ,
e ascendentemente contnua (resp. descendentemente contnua) em A B,
se para toda a sucessao (A
n
) em B com A
n
A (resp. A
n
A), se tem P(A
n
)
P(A). P diz-se ascendentemente contnua (resp. descendentemente contnua) se for
ascendentemente contnua (resp. descendentemente contnua) em todo o A B.
Do resultado seguinte ca claro que quando exigimos que uma probabilidade seja
nao so aditiva mas tambem -aditiva, o que estamos a exigir a P e uma propriedade de
continuidade. Recordemos que uma semi-algebra ( de partes dum conjunto e um
semi-anel de partes de que contem , isto e, e uma classe nao-vazia de subconjuntos
de que contem , que e estavel para a intersec cao nita, e o complementar de qualquer
elemento de ( e reuniao nita disjunta de elementos de ( (ver AMI, 1.2).
Teorema 1.2.5 Seja P uma func ao de conjunto n ao-negativa e aditiva numa semi-
- algebra B de partes de com P() = 1. As armac oes seguintes s ao equivalentes:
i) P e -aditiva em B;
ii) P e ascendentemente contnua;
iii) P e ascendentemente contnua em ;
iv) P e descendentemente contnua;
v) P e descendentemente contnua em .
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Exerccios
1. (Formula de Daniel da Silva ou da Inclusao-Exclusao:) Se A
1
, . . . , A
n
, para n 2,
sao acontecimentos, mostre que
P
_
n
_
i=1
A
i
_
=
n
i=1
P(A
i
)
1i<jn
P(A
i
A
j
)
+
1i<j<kn
P(A
i
A
j
A
k
) +. . . + (1)
n+1
P(A
1
. . . A
n
).
2. (Paradoxo das coincidencias
3
) Numa festa de natal os n funcionarios de uma empresa
decidem dar entre si presentes. Cada um tras um presente que e misturado com os outros
e distribudo ao acaso pelos funcionarios. Este procedimento e utilizado acreditando-se
que a probabilidade p
n
de alguem receber o seu proprio presente e pequena se o n umero de
funcionarios e grande. Calcule p
n
e mostre que p
n
1 e
1
. Verique que p
n
0.6321,
para n 7.
(Sugestao: Utilize a formula de Daniel da Silva aplicada aos acontecimentos A
i
=o
i-esimo funcionario recebe o seu presente.)
3. (Desigualdades de Bonferroni) Se A
1
, . . . , A
n
sao acontecimentos, mostre que:
(a) P
_
n
_
i=1
A
i
_
i=1
P(A
i
)
1i<jn
P(A
i
A
j
).
(b) P
_
n
_
i=1
A
i
_
i=1
P(A
i
)
1i<jn
P(A
i
A
j
) +
1i<j<kn
P(A
i
A
j
A
k
).
4. Se (A
n
) e uma sucessao de acontecimentos mostre que P(
n=1
A
n
) = 1 sse P(A
n
) = 1,
para todo o n N.
1.3 Modelacao de algumas experiencias aleatorias
Dando continuidade ao paragrafo 1.1, apresentamos agora mais alguns exemplos de
modela coes de experiencias aleatorias.
Exemplo 1.3.1 Consideremos n lan camentos sucessivos duma moeda equilibrada. Se
representarmos por 1 a sada de cara e por 0 a sada de coroa, o espa co dos
resultados e = 0, 1
n
= (x
1
, . . . , x
n
) : x
i
= 0 ou 1. Tal como no Exemplo 1.1.2,
sendo a moeda equilibrada, todos os elementos de tem a mesma possibilidade de
ocorrer. Poderemos assim tomar P denida em / = T() por
P((x
1
, . . . , x
n
)) = 1/2
n
, para (x
1
, . . . , x
n
) 0, 1
n
.
3
Este problema e pela primeira vez considerado por Pierre Remond de Montmort em Essay dAnalyse
sur les Jeux de Hazard, 1708.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Exemplo 1.3.2 Consideremos agora n lan camentos sucessivos duma moeda nao neces-
sariamente equilibrada, isto e, em cada lan camento a probabilidade de obtermos 1 (cara)
e p e a probabilidade de obtermos 0 (coroa) e 1 p. Qual e o espa co de probabilidade
que devemos associar a esta experiencia aleatoria? O espa co dos resultados e, tal como
no exemplo anterior, = 0, 1
n
. No entanto, os elementos de nao tem agora,
para p ,= 1/2, a mesma possibilidade de ocorrer. Para determinarmos a probabilidade
que devemos associar a esta experiencia, tentemos reduzir-nos ao exemplo anterior
considerando uma experiencia auxiliar que consiste em n extrac coes sucessivas de uma
bola dum saco com bolas identicas em que p estao numeradas com 1 e (1 p)
sao numeradas com 0 (se p e racional e sempre possvel determinar ; por exemplo, se
p = 0.1 basta tomar = 10 e passamos a ter uma experiencia que consiste na repeticao
n vezes duma outra, esta com 10 resultados igualmente provaveis, em que um deles e
do tipo 1 e os restantes sao de tipo 0). A ocorrencia do acontecimento (x
1
, . . . , x
n
)
com
n
i=1
x
i
= k, corresponde na experiencia auxiliar à ocorrencia de um conjunto
de resultados elementares em n umero de (p)
k
((1 p))
nk
. Sendo
n
o n umero total
de acontecimentos elementares, e sendo estes igualmente provaveis, entao P devera ser
dada por
P(x
1
, . . . , x
n
)) = (p)
k
((1 p))
nk
/
k
= p
k
(1 p)
nk
,
isto e,
P(x
1
, . . . , x
n
)) = p
n
i=1
x
i
(1 p)
n
n
i=1
x
i
,
para (x
1
, . . . , x
n
) 0, 1
n
.
Exemplo 1.3.3 Consideremos n repeti coes, sempre nas mesmas condi coes, duma ex-
periencia aleatoria com k resultados possveis 1, . . . , k, sendo p
1
, . . . , p
k
as respectivas
probabilidades de ocorrencia, onde
k
i=1
p
i
= 1. Seguindo o raciocnio anterior o espa co
dos resultados e = 1, . . . , k
n
e P devera ser dada por
P((x
1
, . . . , x
n
)) = p
n
i=1
1I
{1}
(x
i
)
1
. . . p
n
i=1
1I
{k}
(x
i
)
k
,
para (x
1
, . . . , x
n
) 1, . . . , k
n
, onde 1I
A
representa a fun cao indicatriz do conjunto A.
Nos exemplos que a seguir apresentamos nao e simples, sem mais, associar ou mesmo
garantir a existencia dum modelo probabilstico para a experiencia aleatoria em causa.
Os dois primeiros casos sao classicos tendo sido considerados por Carl Friedrich Gauss
4
e por Francis Galton
5
, respectivamente. Em ambos, a probabilidade P e denida pela
exibi cao da sua densidade f, dita de probabilidade, relativamente à medida de
4
Gauss, C.F., Theoria motus corporum celestium in sectionibus conicis solem ambientium, 1809.
5
Galton, F., Typical laws of heredity in man, 1877.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Lebesgue, isto e, P = f (ver AMI, 7.1). O ultimo exemplo e ilustrativo duma
classe de modelos probabilsticos conhecidos por processos estocasticos. A teoria
dos processos estocasticos nao sera desenvolvida neste curso.
Exemplo 1.3.4 (Distribui cao dos erros de medida) Consideremos o erro x = y
cometido ao tomarmos o valor observado y como medida do verdadeiro valor , des-
conhecido. Por razoes que detalharemos no Captulo 9, a experiencia aleatoria que
consiste na observa cao de y, pode ser descrita pela probabilidade denida, para a b,
por
P(]a, b]) =
_
]a,b]
1
2
2
e
(x)
2
/(2
2
)
d(x),
onde o parametro > 0 pode ser interpretado como uma medida da precisao das
observa coes. Na Figura 1.1 apresentam-se os gracos da fun cao integranda anterior
para varios valores de , a que chamamos densidade normal de parametros e
2
.
-4 -2 2 4
0.2
0.4
0.6
0.8
= 0.5
= 1
= 2
+ +
Figura 1.1: Densidade normal univariada
Exemplo 1.3.5 (Densidade normal bivariada) Quando se estuda a rela cao entre
as alturas dos lhos (y) e dos pais (x) convenientemente normalizadas, e habitual
descrever as observa coes realizadas (x, y), atraves da probabilidade denida, para a b
e c d, por
P(]a, b]]c, d]) =
_
]a,b]]c,d]
1
2
_
1
2
e
(x
2
2xy+y
2
)/(2(1
2
))
d(x)d(y),
onde o parametro ] 1, 1[ quantica a associa cao ou dependencia existente entre
as quantidades numericas em estudo. Nas Figuras 1.2 e 1.3, e para os valores = 0
e = 0.75, respectivamente, apresentam-se o graco e as curvas de nvel relativos à
fun cao integranda anterior.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
-2
0
2
-2
0
2
0
0.05
0.1
0.15
-2
0
2
= 0
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
3
Figura 1.2: Densidade normal bivariada
Exemplo 1.3.6 Suponhamos que lan camos uma moeda equilibrada ate ocorrer cara.
Nesta situa cao, sera natural tomarmos para conjunto dos resultados = 0, 1
=
(x
1
, x
2
, . . .) : x
i
= 0 ou 1, isto e, o conjunto de todas as sucessoes de zeros e uns. Para
podermos responder a qualquer pergunta sobre esta experiencia, por exemplo, a de sa-
bermos qual e a probabilidade de nao ocorrer cara em nenhum dos lan camentos (ou
melhor, para que esta pergunta fa ca sentido), temos, tal como nos exemplos anteriores,
de garantir que lhe esta associado um espa co de probabilidade que a descreve. Admi-
tindo que P e uma tal probabilidade denida numa apropriada -algebra de partes de
, e que F
n
e um acontecimento que depende apenas dos n primeiros lan camentos, sera
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
-2
0
2
-2
0
2
0
0.05
0.1
-2
0
2
= 0.75
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
3
Figura 1.2 (cont.): Densidade normal bivariada
natural que P satisfa ca P(F
n
) = P
n
(F
n
), onde P
n
e a probabilidade em
n
= 0, 1
n
de-
nida no Exemplo 1.3.1. A existencia duma tal probabilidade sera estabelecida no 1.5.
Se F
n
e o acontecimento F
n
=ocorre pela primeira vez cara no n-esimo lan camento,
a probabilidade de nao ocorrer cara em nenhum dos lan camentos sera entao dada
pela probabilidade do acontecimento (
n=1
F
n
)
c
, isto e, por 1
n=1
P(F
n
) = 1
n=1
P
n
(F
n
), sendo assim igual a zero a probabilidade nao ocorrer cara em nenhum
dos lan camentos.
Exemplo 1.3.7 (Processo de Poisson) Consideremos o n umero de ocorrencias de
um determinado fenomeno aleatorio no intervalo de tempo ]0, t] para todo o t > 0.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Pensemos, por exemplo, na chegada de chamadas a uma central telefonica, na chegada
de clientes a uma caixa de supermercado, na emissao de partculas por uma substancia
radioactiva, etc. Se o fenomeno ocorre nos instantes t
1
, t
2
, t
3
, . . . com t
1
< t
2
< t
3
< ,
o resultado da experiencia nao e mais do que uma fun cao de ]0, +[ em N
0
, cujo graco
e apresentado na Figura 1.3. O conjunto dos resultados possveis da experiencia pode
ser assim identicado com o conjunto das fun coes escalonadas de ]0, +[ em N
0
, nao-
-decrescentes e contnuas à direita.
6
-
1
2
3
n umero de
ocorrencias
0 t
1
t
2
t
3
tempo
b
r b
r b
r
Figura 1.3: Acontecimento elementar dum processo de Poisson
Admitamos que: H1) a probabilidade de se vericarem k ocorrencias num determinado
intervalo de tempo nito depende apenas da sua amplitude; H2) dados dois intervalos
de tempo nitos e disjuntos, a probabilidade de se vericarem k ocorrencias num deles
nao nos da qualquer informa cao sobre a probabilidade de se vericarem j ocorrencias no
outro; H3) nao ha ocorrencias simultaneas. Poderamos demonstrar que as hipoteses
anteriores determinam, numa apropriada -algebra de partes de , uma famlias de
probabilidades indexada por um parametro real > 0 que pode ser interpretado como
o n umero medio de chegadas num intervalo de tempo unitario.
Exerccios
1. Vou lan car dois dados equilibrados n vezes consecutivas e aposto com outro jogador que
pelo menos um par de 6 ira sair. Para que o jogo me seja favoravel deverei lan car o dado
24 ou 25 vezes?
2. (Problema da divisao das apostas
6
) Dois jogadores jogamuma serie de partidas justas
ate que um deles obtenha 6 vitorias. Por motivos exteriores ao jogo, este e interrompido
quando um dos jogadores somava 5 vitorias e o outro 3 vitorias. Como devemos dividir
o montante apostado por ambos os jogadores?
6
Este problema e o anterior foram colocados por Antoine Gombaud, chevalier de Mere, a Blaise
Pascal. O problema da divisao das apostas e resolvido por este e por Pierre de Fermat numa celebre
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
3. Eu e outro jogador aceitamos lan car sucessivamente dois dados nas condi coes seguintes:
eu ganho se tirar 7 pontos, ele ganha se tirar 6 pontos e e ele que lan ca em primeiro lugar.
Que probabilidade tenho eu de ganhar?
4. (Problema da runa do jogador
7
) A e B tem cada um 12 moedas e jogam com tres
dados. Se saem 11 pontos, A da uma moeda a B, e se saem 14 pontos, B da uma moeda
a A. Ganha aquele que primeiro car com todas as moedas. Qual e a probabilidade de
A ganhar?
(Sugestao: Para m 12, . . . , 12, denote por p
m
a probabilidade de A ganhar quando
possui 12 +m moedas, e verique que p
m
satisfaz uma rela cao de recorrencia linear.)
5. Uma caixa contem b bolas brancas e p bolas pretas. Uma bola e extrada ao acaso da
caixa, e sem ser nela reposta, uma segunda bola e extrada ao acaso. Qual o espa co de
probabilidade que associa à experiencia descrita? Qual e a probabilidade: De ambas as
bolas serem brancas? Da primeira bola ser branca e da segunda ser preta? Da segunda
ser preta? Da segunda ser preta, sabendo que a primeira bola e branca?
1.4 Algumas construcoes de espacos de probabilidade
Recordamos neste paragrafo constru coes de espa cos de probabilidade ja nossas co-
nhecidas da disciplina de Medida e Integra cao. Alguns dos exemplos apresentados nos
paragrafos anteriores sao casos particulares das constru coes seguintes.
Exemplo 1.4.1 Se =
i
: i I, com I nito ou numeravel, e p
i
, i I, sao
n umeros reais nao-negativos com
iI
p
i
= 1, entao
P(A) =
i:
i
A
p
i
, para A T(),
e uma probabilidade em (, T()). As probabilidades consideradas nos Exemplos 1.1.2,
1.3.1 e 1.3.2, sao casos particulares desta. No caso em que I = 1, 2, . . . , n e p
i
= 1/n,
para todo o i I, obtemos a deni cao classica de probabilidade.
Exemplo 1.4.2 Se F : RR e uma fun cao nao-decrescente, contnua à direita com
F(x) 0 ou 1, se x ou x +, respectivamente, entao existe uma e uma so
probabilidade P sobre (R, B(R)) tal que
P(] , x]) = F(x), para todo o x R.
troca de correspondencia no verao de 1654. A resolucao do problema por Pascal e publicada em Traite
du Triangle Arithmetique, 1665. Este problema era ja na altura classico, sendo referido por Luca
Paccioli em Summa de arithmetica, geometria, proportioni et proportionalita, 1494.
7
Este problema e o anterior sao dois dos problemas resolvidos por Christian Huygens em De ratioci-
niis in aleae ludo (Sobre a logica do jogo de dados), 1657. O problema da runa do jogador foi colocado
por Pascal a Fermat, tendo chegado posteriormente ao conhecimento de Huygens.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
F diz-se fun cao de distribui cao de P (ver AMI, 2.9). A probabilidade denida no
Exemplo 1.1.3 e um caso particular desta, em que F(x) = (xa)/(b a), se a x b,
F(x) = 0, se x < 0, e F(x) = 1, se x > b.
Exemplo 1.4.3 O exemplo anterior pode ser generalizado ao caso multidimensional.
Para x = (x
1
, . . . , x
d
) e y = (y
1
, . . . , y
d
) em R
d
, escrevemos x y (resp. x < y) se
x
i
y
i
(resp. x
i
< y
i
) para todo o i = 1, . . . , d. Tal com em R, os conjuntos dos pontos
x tais que a < x b ou dos pontos x tais que x b, serao denotados por ]a, b] ou
], b], respectivamente. Dado um rectangulo semi-aberto à esquerda ]a, b], denotamos
por V o conjunto dos seus vertices, isto e, o conjunto dos pontos da forma (x
1
, . . . , x
d
)
com x
i
= a
i
ou x
i
= b
i
, para i = 1, . . . , d. Se x V , designamos por sgn(x) o sinal de
x, que e denido por sgn(x) = (1)
{i:x
i
=a
i
}
. Dada uma fun cao F : R
d
R, tal que: i)
F e nao-decrescente, isto e, F]a, b] =
xV
sgn(x)F(x) 0, se a < b; ii) F e contnua
à direita, isto e, lim
xy, yx
F(x) = F(y), para todo o y R
d
; iii) F(x) 0 ou 1, se
min
i=1,...,d
x
i
ou +, respectivamente; entao existe uma e uma so probabilidade
P sobre (R
d
, B(R
d
)) tal que
P(] , x]) = F(x), para todo o x R
d
.
F diz-se fun cao de distribui cao de P. A demonstra cao da existencia de P pode ser
encontrada em Billingsley, 1986, pg. 177180. A unicidade e consequencia imediata do
lema da igualdade de medidas (cf. AMI, 2.6).
Exemplo 1.4.4 Se e uma medida em (, /) e f e uma aplica cao B(R)-mensuravel
denida em (, /), nao-negativa com
_
fd = 1, entao
P(A) =
_
A
fd, para A /,
e uma probabilidade. P diz-se probabilidade com densidade f relativamente a , e f
diz-se densidade de probabilidade de P relativamente a (ver AMI, 7.1).
Note que a constru cao descrita no Exemplo 1.4.1 e um caso particular desta se
tomarmos f =
iI
p
i
1I
{
i
}
e a medida contagem em . Verique que o mesmo
acontece com as constru coes consideradas nos Exemplos 1.1.3, 1.3.4 e 1.3.5. No caso
da extrac cao ao acaso dum ponto do intervalo [a, b], P tem densidade f relativamente
à medida de Lebesgue em R, onde
f(x) =
_
1
b a
, se a x b
0, senao
(1.4.5)
A densidade assim denida diz-se densidade uniforme sobre o intervalo [a, b].
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Exemplo 1.4.6 Se Q e uma probabilidade num espa co mensuravel (E, B), e f e uma
aplica cao mensuravel de (E, B) em (, /), entao P denida por
P(A) = Q(f
1
(A)), para A /,
e uma probabilidade, dita probabilidade imagem de Q por f (ver AMI, 7.1). Este
e, em particular, o caso da probabilidade denida no Exerccio 1.1.5 (porque?).
Exemplo 1.4.7 Se P
i
e uma probabilidade sobre (
i
, /
i
), para i = 1, . . . , d, po-
demos denir sobre o espa co produto (, /) = (
d
i=1

i
,
d
i=1
/
i
) a probabilidade
P =
d
i=1
P
i
, dita probabilidade produto das probabilidade P
1
, . . . , P
d
(ver AMI,
6.1, 6.2). Sabemos que P e a unica probabilidade sobre (, /) que satisfaz
P(A
1
. . . A
d
) =
d
i=1
P
i
(A
i
),
para todo o A
i
/
i
, i = 1, . . . , d. A probabilidade construda no Exemplo 1.3.2 e um
caso particular desta bastando tomar, para i = 1, . . . , n, (
i
, /
i
) = (0, 1, T(0, 1))
e P
i
(1) = p = 1 P
i
(0). O mesmo acontece com a probabilidade denida no
Exemplo 1.3.5 quando = 0.
1.5 Produto de espacos de probabilidade
No Exemplo 1.3.6, deixamos em aberto a questao da existencia de uma probabilidade
denida num produto innito de espa cos de probabilidade vericando propriedades
semelhantes às da probabilidade produto denida num produto nito de espa cos de
probabilidade (cf. Exemplo 1.4.7). Respondemos neste par agrafo a essa questao.
No que se segue, (
t
, /
t
, P
t
), t T, e uma qualquer famlia de espa cos de proba-
bilidade, e vamos denotar por
tT

t
, o produto cartesiano dos espa cos anteriores,
isto e, o conjunto de todos os elementos da forma (
t
, t T), onde
t

t
, para
t T. Quando T = 1, . . . , n ou T = N escrevemos habitualmente
1
. . .
n
ou
1

2
. . ., respectivamente. Se
t
= , para todo o t T, usamos a nota cao
T
,
n
ou
, respectivamente.
Sendo S T, e
S
a aplica cao projec cao de
tT

t
em
tS

t
denida por
S
(
t
, t T) = (
t
, t S), todo o subconjunto de
tT

t
da forma
1
S
(A), com
A
tS

t
, diz-se cilindro de base A. Um tal cilindro diz-se de dimensao nita
se S e nito.
Deni cao 1.5.1 Chamamos - algebra produto das - algebras /
t
, t T, ` a - algebra
tT
/
t
, gerada pelos cilindros de dimens ao nita cujas bases s ao rect angulos men-
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
sur aveis. Por outras palavras, se
o =
_
1
S
(A) : S T, S < , A =
tS
A
t
com A
t
/
t
, para t S
_
=
_
tS
A
t
: A
t
/
t
e A
t
=
t
excepto para um n umero nito de ndices
_
=
_
ST, S<
1
S
_
tS
/
t
_
,
ent ao
tT
/
t
= (o).
O espa co mensuravel (
tT

t
,
tT
/
t
) diz-se produto dos espa cos mensur aveis
(
t
, /
t
), t T. Como anteriormente, denotamos a -algebra anterior por /
1
. . .
/
n
ou /
1
/
2
. . ., quando T = 1, . . . , n ou T = N. Se /
t
= /, para todo o t T,
usaremos as nota coes /
T
, /
n
ou /
.
Proposi cao 1.5.2 A - algebra produto
tT
/
t
e a - algebra gerada pelas aplica c oes
projec c ao
S
:
tT

t
(
tS

t
,
tS
/
t
), com S T nito.
Dem: Como (
S
; S T, S < ) = (
ST,S<
1
S
(
tS
/
t
)), obtemos o
(
S
; S T, S < ), ou ainda,
tS
/
t
(
S
; S T, S < ). Para estabelecer
a inclusao contraria vamos mostrar que
1
S
(
tS
/
t
)
tS
/
t
. Como
tS
/
t

(
tT
/
t
) e
1
S
(
tS
/
t
) o, obtemos
1
S
(
tS
/
t
) =
1
S
((
tT
/
t
)) =
(
1
S
(
tT
/
t
)) (o) =
tS
/
t
.
Proposi cao 1.5.3
tT
/
t
e tambem gerada pelas aplicac oes
t
:
tT

t
(
t
, /
t
),
com t T.
Dem: Para S T nito e A
t
/
t
, para t S, temos
1
S
(
tS
/
t
) =
tS
1
t
(A
t
)
(
t
; t T). Assim, o (
t
; t T), e tambem
tS
/
t
(
t
; t T). A inclusao
contraria e imediata pela proposi cao anterior.
Proposi cao 1.5.4 Uma aplicac ao f = (f
t
, t T) : (E, T) (
tS

t
,
tS
/
t
) e
mensur avel sse f
t
: (E, T)(
t
, /
t
) e mensur avel para todo o t T.
Dem: Sendo f mensuravel, a mensurabilidade de f
t
, para t T, e consequencia da
proposi cao anterior, uma vez que f
t
=
t
f. Reciprocamente, para A =
tT
A
t
, com
A
t
/
t
e A
t
=
t
, excepto para um conjunto nito S de ndices, temos f
1
(A) =
x E : f
t
(x) A
t
, t S =
tS
f
1
t
(A
t
) T, pela mensurabilidade de cada uma
das aplica coes f
t
.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
A proposi cao anterior permite-nos concluir, em particular, que a -algebra gerada
por f, (f), nao e mais do que a -algebra gerada pela famlia de aplica coes f
t
, t T,
isto e, (f) = (f
t
, t T).
O resultado seguinte estabelece a existencia duma probabilidade sobre
tT
/
t
que sobre os cilindros de dimensao nita cujas bases sejam rectangulos mensuraveis
tS
A
t
, coincide com a probabilidade produto
tS
P
t
.
Teorema 1.5.5 Existe uma unica probabilidade P sobre (
tT

t
,
tT
/
t
) tal que
para todo o S T nito, e A =
tS
A
t
, com A
t
/
t
para t S,
P(
1
S
(A)) =
tS
P
t
(A
t
) =
_
tS
P
t
_
(A).
A probabilidade P denota-se por
tT
P
t
e denomina-se probabilidade produto das
probabilidades P
t
, t T. O espaco (
tT

t
,
tT
/
t
,
tT
P
t
) diz-se produto
cartesiano dos espa cos de probabilidade (
t
, /
t
, P
t
), t T.
Dem: Seguindo a demonstra cao apresentada em Monfort, 1980, pg. 105108, limitamo-
-nos a dar conta das suas principais etapas. O primeiro passo da demonstra cao consiste
em mostrar que o e uma semi- algebra de partes de =
tT

t
e que P denida pela
formula anterior e a aditiva e satisfaz P() = 1. Usando o Teorema 1.2.5, estabelece-se
a seguir a -aditividade de P em o. Finalmente, utilizando o teorema do prolonga-
mento (ver AMI, 2.5), conclumos que existe um unico prolongamento -aditivo de P
a
tT
/
t
, o que conclui a demonstra cao.
Exerccios
1. Suponha que lan ca uma moeda um n umero innito de vezes sempre nas mesmas condi c oes
e que em cada lan camento a probabilidade de obter cara e igual a p ]0, 1[. Calcule a
probabilidade:
(a) de nao ocorrer cara em nenhum dos lan camentos;
(b) de ocorrer cara um n umero innito de vezes;
(c) de obter uma innidade de vezes uma sequencia particular e nita de caras e
coroas.
2. Uma moeda equilibrada e lan cada ate ocorrer cara pela primeira vez, e suponhamos
que estamos interessados no n umero de lan camentos efectuados.
(a) Que espa co de probabilidade associaria a esta experiencia?
(b) Sendo E o acontecimento ocorrencia de cara pela primeira vez depois dum
n umero par de coroas e F o acontecimento ocorrencia de cara pela primeira
vez depois dum n umero mpar de coroas, calcule a probabilidade de E e de F.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
1.6 Probabilidade condicionada
Retomemos o Exemplo 1.1.2 e suponhamos agora que lan camos o dado e que, apesar
de nao sabermos qual foi a face que ocorreu, sabemos que saiu face par, isto e, ocorreu o
acontecimento B = 2, 4, 6. Com esta nova informa cao sobre a experiencia aleatoria,
o espa co de probabilidade inicialmente considerado nao e mais o espa co adequado à
descri cao da mesma. Sera natural substituir a probabilidade P pela probabilidade P
B
denida por P
B
(A) = A B/B.
Duma forma geral, se (, /, P) e o espa co de probabilidade associado a uma ex-
periencia aleatoria, e se sabemos que B /, com P(B) > 0, se realiza ou vai realizar,
a probabilidade dum acontecimento A / depende naturalmente da sua rela cao com
B. Por exemplo, se A B, A realizar-se-a, e se A B = , A nao se realizara. Sera
assim natural medir a probabilidade de A se realizar por um n umero proporcional a
P(A B), isto e, devemos associar a esta experiencia o novo espaco de probabilidade
(, /, P
B
) onde
P
B
(A) =
P(A B)
P(B)
, para A /.
Notemos que P
B
e efectivamente uma probabilidade sobre /.
Deni cao 1.6.1 Para B /, com P(B) > 0, e A /, P
B
(A) diz-se probabilidade
condicionada de A sabendo B ou probabilidade condicionada de A dado B.
P
B
(A) denota-se tambem por P(A[B).
O conhecimento de P(B) e de P
B
(A) permitem calcular a probabilidade da inter-
sec cao AB. O resultado seguinte generaliza tal facto à intersec cao dum n umero nito
de acontecimentos.
Teorema 1.6.2 (Formula da probabilidade composta) Se A
1
, . . . , A
n
, com n
2, s ao acontecimentos aleat orios com P(A
1
. . . A
n1
) > 0, ent ao
P(A
1
. . . A
n
) = P(A
1
)P(A
2
[A
1
)P(A
3
[A
1
A
2
) . . . P(A
n
[A
1
. . . A
n1
).
Dem: Para n = 2 o resultado e consequencia imediata da deni cao de probabilidade
condicionada. Para n > 2, se A
1
, . . . , A
n
sao acontecimentos aleatorios com P(A
1

. . . A
n1
) > 0, basta ter em conta que P(A
1
. . . A
n
) = P(A
1
. . . A
n1
)P(A
n
[A
1
. . . A
n1
).
Consideremos agora um acontecimento B cuja realiza cao esta relacionada com a
dos acontecimentos de uma famlia nita A
1
, . . . , A
n
de acontecimentos disjuntos dois
a dois, e admitamos que conhecemos as probabilidades P(B[A
i
) de B na eventualidade
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
do acontecimento A
i
se realizar. O resultado seguinte mostra como efectuar o calculo
da probabilidade de B desde que conhe camos a probabilidade de cada um dos aconteci-
mentos A
i
.
Teorema 1.6.3 (Formula da probabilidade total) Sejam A
1
, . . . , A
n
acontecimen-
tos aleat orios dois a dois disjuntos de probabilidade positiva e B / tal que B
A
1
. . . A
n
. Ent ao
P(B) =
n
i=1
P(A
i
)P(B[A
i
).
A modela cao duma experiencia aleatoria consiste, como vimos ate agora, na xa cao
dum espa co de probabilidade que descreve completamente (ou acreditamos que des-
creve) a experiencia em causa. A realiza cao dum acontecimento aleatorio particular,
nao tras qualquer informa cao suplementar sobre futuras realiza coes da experiencia uma
vez que acreditamos que esta e completamente descrita pelo espa co de probabilidade
considerado. Outra perspectiva e no entanto possvel. Se admitirmos que o espa co de
probabilidade considerado nao descreve completamente a experiencia em causa, mas que
a descreve apenas de uma forma aproximada, a realiza cao dum acontecimento aleatorio
particular pode melhorar o conhecimento que temos sobre a experiencia aleatoria. Nesse
caso sera de todo o interesse saber como devemos calcular a probabilidade dum acon-
tecimento à luz desta nova informa cao.
Retomando os comentarios que precederam o resultado anterior, signica isto que se
conhecermos as probabilidades P([A
i
) para i = 1, . . . , n, e as probabilidades
1
, . . . ,
n
de cada um dos acontecimentos A
1
, . . . , A
n
, respectivamente, sera natural considerar
numa primeira abordagem à modela cao da experiencia aleatoria o espa co de proba-
bilidade (, /, P
) onde, para C /, P
e denida por P
(C) =
n
i=1
i
P(C[A
i
)
(verique que, para todo o i, P
([A
i
) = P([A
i
) e P
(A
i
) =
i
). Se admitirmos
que a realiza cao dum acontecimento B nos vai permitir conhecer melhor o fenomeno
aleatorio em estudo, e que as probabilidades P([A
i
) nao sao alteradas com a observa cao
de B, devemos entao, numa segunda etapa, substituir
1
, . . . ,
n
por
1
, . . . ,
n
, onde
i
= P
(A
i
[B), e considerar o novo espa co de probabilidade (, /, P
) onde P
(C) =
n
i=1
i
P(C[A
i
), para C /. Os
i
e os
i
dizem-se probabilidades a priori e a
posteriori dos A
i
, respectivamente.
O resultado seguinte permite concluir que cada
i
, pode ser calculado a partir das
probabilidades a priori
1
, . . . ,
n
e das probabilidades condicionais P([A
1
), . . . , P([A
n
).
Mais precisamente,
i
= P(B[A
i
)
i
/
n
j=1
j
P(B[A
j
), para i = 1, . . . , n.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Teorema 1.6.4 (Teorema de Bayes) Nas condic oes do teorema anterior, se P(B) >
0, ent ao, para i = 1, . . . , n,
P(A
i
[B) =
P(B[A
i
)P(A
i
)
n
j=1
P(A
j
)P(B[A
j
)
.
Os dois resultados anteriores sao validos para uma innidade numeravel de aconteci-
mentos A
1
, A
2
, . . . com probabilidades positivas. Em particular, se (A
i
) e uma parti cao
de , a condi cao B A
1
A
2
. . ., e sempre vericada.
Exerccios
1. Demonstre os Teoremas 1.6.3 e 1.6.4.
2. Uma urna contem r bolas brancas e s bolas pretas. Uma bola e extrada ao acaso da
urna, e e de seguida reposta na urna com mais t bolas da sua cor. Este processo e repetido
novamente. Qual e a probabilidade: Da segunda bola extrada ser preta? Da primeira
bola ser branca sabendo que a segunda e branca?
3. Numa determinada especie animal, os especimes com genotipos PP e PC sao pretos e
os especimes com genotipos CC sao castanhos. Um animal de cor preta, que sabemos
resultar dum cruzamento PC PC, e cruzado com um animal castanho, sendo os tres
descendentes deste cruzamento todos pretos.
(a) Quais as probabilidades do progenitor preto ter genotipos PP e PC, respectiva-
mente?
(b) Calcule as probabilidades anteriores, no caso do progenitor de cor preta resultar
dum cruzamento PP PC.
(c) Poderao as probabilidades anteriores ser calculadas no caso de apenas sabermos que
o progenitor de cor preta resultou dum cruzamento PC PC ou PP PC?
4. (Paradoxo do teste para despiste duma doen ca rara) Um teste ao sangue e uti-
lizado para despiste duma doen ca rara: em 98.5% dos casos o teste da um resultado
positivo quando a doen ca esta presente (sensibilidade do teste); em 97.5% dos casos o
teste da um resultado negativo quando a doen ca nao esta presente (especicidade do
teste); 0.41% da popula cao sofre dessa doen ca.
(a) Qual a probabilidade do teste indicar que uma pessoa sofre da doen ca, sem sabermos
nada acerca dessa pessoa?
(b) Qual a probabilidade de efectivamente estar doente uma pessoa cujo teste indica
que sofre dessa doen ca?
(c) Calcule a probabilidade do teste fornecer um diagnostico correcto.
5. Um homem acusado num caso de paternidade possui uma caracterstica genetica presente
em 2% dos adultos do sexo masculino. Esta caracterstica so pode ser transmitida de
pai para lho e quando presente no progenitor e sempre transmitida para cada um dos
seus descendentes. Admitindo que a probabilidade p do homem ser o pai da crian ca em
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
causa e de 0.5, determine a probabilidade do homem ser pai da crian ca sabendo que esta
possui a referida caracterstica genetica. Calcule esta ultima probabilidade para p = 0.01
e p = 0.001.
6. Um saco contem duas moedas: uma normal com cara de um lado e coroa do outro, e
outra com cara dos dois lados. Uma moeda e tirada ao acaso do saco.
(a) Se pretendesse calcular a probabilidade de obter cara em dois lan camentos da mo-
eda, qual era o espa co de probabilidade que consideraria?
(b) A moeda tirada do saco e lan cada n vezes, e os resultados obtidos sao todos cara.
Qual e a probabilidade da moeda que lan camos ser a que tem cara nos dois lados?
(c) Se pretendesse calcular a probabilidade de obter cara nos proximos dois lan camentos
da moeda, qual era o espa co de probabilidade que consideraria?
(Sugestao: Utilize o Teorema de Bayes.)
7. (Probabilidade das causas) Sobre uma mesa estao sete urnas em tudo identicas que
denotamos por U
0
, . . . , U
7
, contendo a urna U
i
, i bolas pretas e 6 i bolas brancas.
De uma das urnas escolhida ao acaso, sao feitas duas tiragens com reposi cao, tendo-se
observado duas bolas brancas. Qual e a composi cao mais provavel da urna escolhida?
1.7 Produto generalizado de probabilidades
Dados dois espa cos de probabilidade (
1
, /
1
, P
1
) e (
2
, /
2
, P
2
), sabemos ja que
e possvel denir no produto cartesiano (
1

2
, /
1
/
2
) uma unica probabilidade
P
1
P
2
que satisfaz (P
1
P
2
)(A
1
A
2
) = P
1
(A
1
)P
2
(A
2
), para todo o A
1
/
1
e
A
2
/
2
. Grosso modo, e tendo em mente os Exemplos 1.3.1, 1.3.2 e 1.3.5 (com = 0),
podemos dizer que um resultado particular (x, y) da experiencia aleatoria descrita pela
probabilidade P
1
P
2
resulta da realiza cao de duas experiencias aleatorias descritas
pelas probabilidades P
1
e P
2
, respectivamente, em que a probabilidade de ocorrencia
de y como resultado da segunda experiencia nao depende da ocorrencia do resultado x
na primeira experiencia.
Tal situa cao nao se verica no Exemplo 1.3.5 quando ,= 0. Na modela cao da
experiencia aleatoria a descrita, em vez de optarmos por denir uma probabilidade P
no produto cartesiano dos espa cos associados às alturas normalizadas dos pais e dos
lhos, poderiamos optar por decompor o problema em dois problemas mais simples,
come cando por modelar a experiencia aleatoria associada à observa cao das alturas nor-
malizadas dos pais atraves duma probabilidade P
1
com densidade normal de parametros
0 e 1 (por exemplo), isto e,
P
1
(A
1
) =
_
A
1
1
2
e
x
2
/2
d(x),
para A
1
B(R), modelando a seguir a experiencia aleatoria associada ` a observa cao das
alturas dos lhos correspondentes a um progenitor cuja altura normalizada e igual a x,
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
-4 -2 2 4
0.1
0.2
0.3
0.4
0.5
0.6
x = 2 x = 0 x = 1
= 0.75
Figura 1.4: Densidade da probabilidade de transi cao no caso normal bivariado
por uma probabilidade P
1
2
(x, ) com densidade normal cujos parametros dependem de
x. Tomando a densidade normal de parametros x e 1
2
, obteramos
P
1
2
(x, A
2
) =
_
A
2
1
_
2(1
2
)
e
(yx)
2
/(2(1
2
))
d(y),
para A
2
B(R).
Colocado num contexto geral, o problema que naturalmente se levanta e saber se
e possvel a partir duma probabilidade P
1
denida sobre (
1
, /
1
), e duma famlia de
probabilidades P
1
2
(x, ) sobre (
2
, /
2
) indexada por x
1
, denir uma probabilidade
P sobre /
1
/
2
que preserve as interpreta coes anteriores atribudas a P
1
e a P
1
2
, isto e,
P
1
(A
1
) devera ser a probabilidade P de A
1
2
, e P
1
2
(x, A
2
) devera ser a probabilidade
condicional de
1
A
2
dado x
2
, sempre que este ultimo acontecimento tenha
probabilidade nao-nula.
O resultado seguinte estabelece a possibilidade de denir uma tal probabilidade
sobre /
1
/
2
. Note que quando a famlia de probabilidades P
1
2
(x, ), x
1
, se reduz
a um unico elemento P
2
, a probabilidade P nao e mais do que P
1
P
2
.
Deni cao 1.7.1 Chamamos probabilidade de transi c ao sobre
1
/
2
, a uma
aplicac ao P
1
2
de
1
/
2
em [0, 1] tal que para todo o x
1
, P
1
2
(x, ) e uma probabilidade
sobre (
2
, /
2
), e para todo o A
2
/
2
, P
1
2
(, A
2
) e /
1
-mensur avel.
Teorema 1.7.2 Sejam (
1
, /
1
, P
1
) um espaco de probabilidade, (
2
, /
2
) um espa co
mensur avel e P
1
2
uma probabilidade de transic ao sobre
1
/
2
. Ent ao, existe uma
unica probabilidade P sobre /
1
/
2
tal que
P(A
1
A
2
) =
_
A
1
P
1
2
( x, A
2
)dP
1
(x),
para todo o A
1
/
1
e A
2
/
2
.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Dem: A formula anterior dene P sobre a semi-algebra /
1
/
2
de partes de
1
2
.
Alem disso, P(
1
2
) = 1 e P e -aditiva em /
1
/
2
(para estabelecer a -aditividade
de P adapte a demonstra cao do Teorema 6.2.1 de AMI, sobre a existencia da medida
produto). Para concluir basta agora usar o teorema do prolongamento (cf. AMI, 2.6)
que garante a existencia de um e um so prolongamento -aditivo de P a /
1
/
2
.
Exerccios
1. (Problema do concurso das portas)

E-lhe proposto o seguinte jogo. Tem à sua frente
tres portas das quais uma contem um premio, estando as outras duas vazias. Come ca por
escolher um das portas. Sem lhe ser dada nenhuma informa cao sobre o que contem a porta
que escolheu, uma das outras duas, a que nao tem o premio, e aberta.

E-lhe agora pedido
para escolher entre as duas portas fechadas restantes. Qual o espa co de probabilidade
que devemos associar a esta experiencia? Calcule a probabilidade de ganhar o premio
considerando cada uma das seguintes estrategias:
(a) na segunda escolha mantem a porta inicialmente escolhida;
(b) na segunda escolha muda de porta;
(c) na segunda escolha escolhe ao acaso uma nova porta (entre as duas que ainda est ao
fechadas).
2. Retome os Exerccios 1.6.2 e 1.6.6. Identique os modelos de probabilidade associados ` as
experiencias aleatorias a descritas.
3. Mostre que a probabilidade denida no Exemplo 1.3.5 e um caso particular do produto
generalizado de probabilidades, podendo ser denida a partir duma probabilidade P
1
sobre B(R) com densidade normal de parametros 0 e 1, e duma probabilidade de transi c ao
P
1
2
sobre R B(R), onde P
1
2
(x, ) tem densidade normal de parametros x e 1
2
(ver
Figura 1.4).
1.8 Breve referencia à simulacao de experiencias aleatorias
Algumas das experiencias aleatorias descritas no 1.1 podem ser facilmente simu-
ladas com a ajuda dum computador. Na base de todo o processo esta a simula cao da
extrac cao ao acaso de pontos do intervalo ]0, 1[ (ver Exemplo 1.1.3).

E por ela que
come camos.
Os algoritmos utilizados para esse m passam pela obten cao duma sucessao x
0
, x
1
, x
2
,
. . . , x
n
, . . . de inteiros entre 1 e m1, com m grande, que pare ca comportar-se como se
da extrac cao ao acaso de pontos do conjunto 1, . . . , m1 se tratasse. O metodo mais
usado para gerar uma tal sucessao, e o metodo de congruencia linear. Come cando
com uma semente x
0
, x
n+1
e obtido de x
n
atraves da formula
x
n+1
= ax
n
+b (mod m),
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
onde a e b sao constantes convenientemente escolhidas, de modo que se obtenha, por
um lado, uma sucessao com um perodo grande, e, por outro lado, que a sucessao imite
a extrac cao ao acaso de pontos de 1, . . . , m1. Para obter uma sucessao de n umeros
em ]0, 1[ basta dividir cada x
n
por m. Os n umeros assim obtidos dizem-se n umeros
pseudo-aleatorios, ou mais simplesmente, n umeros aleatorios.
Sendo a sucessao anterior completamente determinada pela semente x
0
, para obter
diferentes sucessoes, diferentes valores de x
0
tem de ser escolhidos, ou pelo utilizador,
ou, de forma automatica, com base no relogio do computador. A partir da fun cao
random do compilador de Pascal dum computador Compaq (Workstation Alpha
Unix) obtivemos os seguintes 50 n umeros aleatorios (primeiras seis casas decimais):
0.750923, 0.514810, 0.989085, 0.676017, 0.582768, 0.992278, 0.900570, 0.276358,
0.154543, 0.896320, 0.631060, 0.799246, 0.093678, 0.344508, 0.520097, 0.426544,
0.189514, 0.070280, 0.458262, 0.145676, 0.270472, 0.428466, 0.193471, 0.095973,
0.438925, 0.171107, 0.073370, 0.986646, 0.940340, 0.777523, 0.356934, 0.691263,
0.292333, 0.346020, 0.367280, 0.875102, 0.338298, 0.267851, 0.151460, 0.492841,
0.164171, 0.782520, 0.292087, 0.257849, 0.127028, 0.812184, 0.684393, 0.316542,
0.882464, 0.142655.
Quando nada e dito em contrario o compilador atras referido usa o n umero 7774755
como semente. Para uma semente (n umero natural) escolhida pelo utilizador devera
utilizar a instru cao seed(semente), e para uma semente baseada no relogio da maquina
use seed(wallclock).
Utilizando o gerador de n umeros aleatorios podemos tambem simular a experiencia
descrita no Exemplo 1.1.2. Se for r o n umero aleatorio gerado, basta associar-lhe a
face do dado com o n umero 6r +1, onde x denota a parte inteira de x. Por outras
palavras, ocorre a face i do dado se r pertence ao subintervalo [(i 1)/6, i/6[ de [0, 1[.
A partir dos n umeros aleatorios anteriores obtemos os resultados seguintes resultados
para o lan camento simulado dum dado equilibrado:
5, 4, 6, 5, 4, 6, 6, 2, 1, 6, 4, 5, 1, 3, 4, 3, 2, 1, 3, 1, 2, 3, 2, 1, 3,
2, 1, 6, 6, 5, 3, 5, 2, 3, 3, 6, 3, 2, 1, 3, 1, 5, 2, 2, 1, 5, 5, 2, 6, 1
De forma analoga, ainda a partir dos n umeros aleatorios anteriores, obtemos os
resultados seguintes para o lan camento simulado duma moeda equilibrada:
1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0
As tecnicas que conjugam os metodos de simula cao anterior e a interpreta cao fre-
quencista de probabilidade para efectuar calculos sao conhecidos na literatura como
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
metodos de Monte Carlo. Alguns exemplos sao apresentados nos exerccios seguin-
tes.
Exerccios
1. Como poderia simular num computador a extrac cao ao acaso dum ponto do quadrado
[0, 1][0, 1]? Utilizando a interpreta cao frequencista de probabilidade (que justicaremos
mais à frente), como poderia calcular de forma aproximada a area do crculo inscrito nesse
quadrado?
2. Simule as experiencias descritas nos Exerccios 1.1.1 e 1.3.1 num computador, e ensaie
uma resposta às pergunta feitas nesses exerccios apenas com base nessa simula cao.
3. Escreva um algoritmo para simular a extrac cao ao acaso dum ponto do intervalo [a, b[,
para a e b quaisquer.
4. No casino de Monte Carlo a roda da roleta e dividida em 37 casas iguais, 18 vermelhas,
18 pretas e uma verde. Se um jogador aposta 1 euro na cor vermelha tem probabilidade
18/37 de ganhar e 19/37 de perder. Por simula cao, e para n = 200, 1000 e 2000, obtenha
aproxima coes para a probabilidade do ganho lquido do jogador ao m de n partidas ser
nao-negativo.
1.9 Bibliograa
Billingsley, P. (1986). Probability and Measure, Wiley.
James, B.R. (1981). Probabilidades: um curso de nvel intermedi ario, IMPA.
Kallenberg, O. (1997). Foundations of Modern Probability, Springer.
Kolmogorov, A.N. (1950). Foundations of the Theory of Probability, Chelsea Publishing
Company (tradu cao do original Grundbegrie der Wahrscheinlichkeitrechnung,
datado de 1933).
Monfort, A. (1980). Cours de Probabilites, Economica.
Resnick, S.I. (1999). A Probability Path, Birkhauser.
Sobre a historia das Probabilidades (e nao so)
Borel, E. (1950).

Elements de la Theorie des Probabilites,

Editions Albin Michel.
Hald, A. (1990). A History of Probability and Statistics and their applications before
1750, Wiley.
Hald, A. (1998). A History of Mathematical Statistics from 1759 to 1930, Wiley.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Sobre n umeros aleatorios e simula cao de experiencias aleatorias
Grycko, E., Pohl, C., Steinert, F. (1998). Experimental Stochastics, Springer.
Knuth, D.E. (1981). The Art of Computer Programming, vol. II, Addison-Wesley.
Tompson, J.R. (2000). Simulation: a Modelers Approach, Wiley.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Captulo 2
Variaveis aleatorias e
distribuicoes de probabilidade
Vari aveis aleat orias e suas distribuic oes de probabilidade. Classicac ao das distri-
buic oes de probabilidade sobre R
d
. Func ao de distribuic ao duma vari avel aleat oria real
e dum vector aleat orio. Transformac ao de vectores aleat orios absolutamente contnuos.
Distribui c oes condicionais.
2.1 Variaveis aleatorias e suas leis de probabilidade
Observado um resultado particular duma experiencia aleatoria, estamos por vezes
interessados nao no resultado em si mesmo, mas numa fun cao desse resultado. Pense
no que acontece quando joga ao Monopolio e lan ca os dados: interessa-lhe a soma dos
pontos obtidos e nao os pontos ocorridos em cada um dos dados. Por outras palavras,
sendo (, /, P) um modelo probabilstico para a experiencia aleatoria em causa, e
observado um ponto , interessamo-nos por uma fun cao de . Surge assim de
forma natural a no cao de variavel aleatoria.
Deni cao 2.1.1 Chamamos vari avel aleat oria em (E, B), onde E e um conjunto
n ao-vazio munido duma - algebra B de partes de E, a toda a aplicac ao mensur avel X
com valores em (E, B) denida num espaco de probabilidade (, /, P).
Uma variavel aleatoria (v.a.) X diz-se variavel aleatoria real (v.a.r.) se E =
R, vector aleatorio (ve.a.) se E = R
d
para algum n umero natural d, sucess ao
aleatoria se E = R
, e processo estocastico ou fun cao aleatoria se E = R

T
com
T um conjunto innito de ndice. De acordo com a Proposi cao 1.5.4, se X
t
, t T,
e uma famlia qualquer de variaveis aleatorias reais denidas num mesmo espa co de
probabilidade, entao X = (X
t
, t T) e uma variavel aleatoria em (R
T
, B(R)
T
).
29
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Deni cao 2.1.2 Se X e uma vari avel aleat oria denida em (, /, P) com valores em
(E, B), chamamos lei de probabilidade ou distribui c ao de probabilidade de X, ` a
medida imagem de P por X. Denotando por P
X
uma tal medida, temos P
X
= PX
1
,
isto e,
P
X
(B) = P(X
1
(B)) = P( : X() B), para B B.
Por simplicidade de escrita, escreveremos P(X B) em vez de P( : X()
B). P
X
e claramente uma probabilidade sobre (E, B). Se X e Y sao variaveis aleatorias
com valores num mesmo espa co mensuravel (mas nao necessariamente denidos num
mesmo espa co de probabilidade), escrevemos X Y sempre que X e Y tenham a
mesma distribui cao, isto e, sempre que P
X
= P
Y
. Se X e Y estao denidas num mesmo
espa co de probabilidade e X = Y P-quase certamente (q.c.), isto e, P(X = Y ) = 1,
entao X Y . O recproco nao e verdadeiro (ver Exerccio 2.1.7).
Notemos que a -algebra X
1
(B), que nao e mais do que a -algebra gerada por
X, (X) (cf. AMI 3.6), contem toda a informa cao sobre X necessaria ao calculo da
sua distribui cao de probabilidade. Quando armamos que uma variavel aleatoria tem
distribui cao sobre (E, B), estamos a dizer que existe um espa co de probabilidade de
base (, /, P) e uma variavel aleatoria X nele denida tal que P
X
= . Normalmente
apenas (E, B, ) tem interesse e nenhum relevo e assumido pelo espa co de base (ver
Exerccio 2.1.1).
Exemplo 2.1.3 Consideremos um espa co de probabilidade (, /, P) e seja A /,
com P(A) = p. A fun cao X = 1I
A
, e uma v.a. com valores em (0, 1, T(0, 1)).
Claramente (X) = (A) = , A, A
c
, e a lei de probabilidade P
X
de X e dada por
P
X
(B) = 0 se B = , P
X
(B) = p se B = 1, P
X
(B) = 1 p se B = 0 e P
X
(B) = 1
se B = 0, 1. Qualquer variavel aleatoria com esta distribui cao sera representada por
B(p). Assim, indicamos X B(p) e dizemos que X e uma variavel de Bernoulli de
parametro p. Dizemos tambem que X tem (ou segue) uma lei (ou distribui cao) de
Bernoulli de parametro p.
Proposi cao 2.1.4 Se X e uma vari avel aleat oria em (E, B) e g : (E, B) (F, () e
uma aplicac ao mensur avel, a distribuic ao P
X
de X e g determinam a distribuic ao de
g(X). Mais precisamente, P
g(X)
e a medida imagem de P
X
por g:
P
g(X)
= P
X
g
1
.
Dem: Para C (, P
g(X)
(C) = P(X
1
(g
1
(C))) = P
X
(g
1
(C)) = (P
X
g
1
)(C).
Se X
1
, . . . , X
n
sao variaveis aleatorias denidas num mesmo espa co de probabilidade
com valores em (E
1
, B
1
), . . . (E
n
, B
n
), respectivamente, sabemos que X = (X
1
, . . . , X
n
)
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
2 Vari aveis aleat orias e distribuic oes de probabilidade 31
e uma variavel aleatoria com valores em (
n
i=1
E
i
,
n
i=1
B
i
). O resultado anterior per-
mite concluir que conhecendo a distribui cao P
X
de X conhecemos tambem as dis-
tribui coes P
X
j
ditas distribui coes marginais de X, uma vez que X
j
=
j
X
com
j
: (
n
i=1
E
i
,
n
i=1
B
i
) (E
j
, B
j
) a projec cao
j
(x
1
, . . . , x
n
) = x
j
. As variaveis
aleatorias X
j
dizem-se margens de X.
O conhecimento das distribui coes marginais de X nao permite, duma forma ge-
ral, caracterizar a distribui cao de X. Com efeito, os vectores (X
1
, X
2
) e (Y
1
, Y
2
)
com valores em (0, 1
2
, T(0, 1
2
)) e distribui coes distintas denidas, para (i, j)
0, 1
2
, por P
(X
1
,X
2
)
((i, j)) = 1/8, se i = j, P
(X
1
,X
2
)
((i, j)) = 3/8, se i ,= j, e
P
(Y
1
,Y
2
)
((i, j)) = 1/4, para todo o (i, j), tem por distribui coes marginais variaveis de
Bernoulli de parametro 1/2.
A seguir apresentamos alguns exemplos importantes de vari aveis aleatorias que estao
relacionadas com os espa cos de probabilidade considerados no Captulo 1.
Exemplo 2.1.5 Considere um modelo probabilstico (, /, P) que descreva a repeti cao
n vezes duma experiencia sempre nas mesmas condi coes. Cada experiencia tem dois
resultados possveis que vamos designar por sucesso e insucesso, sendo p [0, 1] a
probabilidade de sucesso em cada experiencia. Se X e a v.a. que nos da o n umero de
sucessos obtidos nas n repeti coes da experiencia, entao P
X
e uma probabilidade sobre
(0, 1, . . . , n, T(0, 1, . . . , n)), com
P
X
(k) =
_
n
k
_
p
k
(1 p)
nk
, para k = 0, 1, . . . , n.
Dizemos que X segue uma distribui cao binomial de parametros n e p, e indicamos
X B(n, p).
20 40 60 80 100
0.02
0.04
0.06
0.08
0.1
0.12
p = 0.1
p = 0.5 p = 0.8
Figura 2.1: Distribui cao binomial (n = 100)
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
(Obs: A distribui cao binomial e um modelo para problemas de amostragem com re-
posi cao, como no caso dum problema controlo de qualidade em que um lote de pe cas
e aceite se uma amostra escolhida ao acaso do lote nao contiver muitas pe cas defei-
tuosas.)
Exemplo 2.1.6 Seja (, /, P) o modelo probabilstico que descreve n repeti coes, sem-
pre nas mesmas condi coes, duma experiencia aleatoria com k resultados possveis
1, . . . , k, sendo p
1
, . . . , p
k
as respectivas probabilidades, onde
k
i=1
p
i
= 1 (ver Exemplo
1.3.3). Para i = 1, . . . , k, denotemos por X
i
o n umero de ocorrencias do resultado i nas
n repeti coes da experiencia. X = (X
1
, . . . , X
k
) e um vector aleatorio em 0, 1, . . . , n
k
,
e, para (x
1
, . . . , x
k
) 0, 1, . . . , n
k
, temos
P
X
((x
1
, . . . , x
k
)) =
n!
x
1
! . . . x
k
!
p
x
1
1
. . . p
x
k
k
.
Dizemos neste caso que X e um ve.a. multinomial de parametros n N e (p
1
, . . . , p
k
),
e indicamos X M(n, p
1
, . . . , p
k
).
Exemplo 2.1.7 Se X e uma v.a. com valores no intervalo [a, b] (a < b), cuja distri-
bui cao de probabilidade tem densidade, relativamente à medida de Lebesgue em R,
dada por (1.4.5), dizemos que X e uma v.a. uniforme sobre o intervalo [a, b] e
escrevemos X U([a, b]) (ver Exemplo 1.1.3).
Exemplo 2.1.8 Se X e uma v.a. real cuja densidade de probabilidade e normal de
parametros e
2
(cf. Exemplo 1.3.4), dizemos que X e uma v.a. normal de par ame-
tros e
2
e escrevemos X N(,
2
). Se = 0 e
2
= 1, X diz-se normal
standard, ou, por razoes que veremos mais à frente, normal centrada e reduzida.
(Obs: A distribui cao normal e a mais usada das distribui coes de probabilidade, des-
crevendo, por exemplo, o efeito global aditivo de um n umero elevado de pequenos efeitos
independentes, como e o caso dos erros de instrumenta cao. A justica cao teorica para
o papel de relevo que esta distribui cao assume na modela cao deste tipo de fenomenos
aleatorios, e o denominado teorema do limite central que estudaremos no Captulo 9.)
Exemplo 2.1.9 Se (X, Y ) e um ve.a. em R
2
com densidade de probabilidade dada por
f(x, y) =
1
2
1
2
_
1
2
exp
_
1
2(1
2
)
_
(x m
1
)
2
2
1
2(x m
1
)(y m
2
)
2
+
(y m
2
)
2
2
2
__
,
para (x, y) R
2
, dizemos que (X, Y ) e um ve.a. normal de parametros m
1
, m
2
R,
1
,
2
> 0 e 1 < < 1 (ver Exemplo 1.3.5).
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Exerccios
1. Se X e uma v.a. com valores em (E, B), sabemos que a sua lei de probabilidade e uma
probabilidade sobre (E, B). Mostre agora que se Q e uma probabilidade sobre (E, B),
existe uma v.a. X com valores em (E, B) denida num apropriado espa co de probabilidade
(, /, P) tal que P
X
= Q.
2. Sejam P
n
, n N, medidas de probabilidade sobre (E, B) e P denida em (, /) =
(E
, B
) por P =
n=1
P
n
. Considere a sucessao (X
n
) denida, para = (
1
,
2
, . . .)
, por X
n
() =
n
(projec cao), e mostre que P
Xn
= P
n
, para todo o n N.
3. Sejam T um qualquer conjunto de ndices e X = (X
t
, t T) e Y = (Y
t
, t T) vari aveis
aleatorias com valores em (
tT
E
t
,
tT
B
t
). Mostre que X Y sse (X
t1
, . . . , X
tn
)
(Y
t1
, . . . , Y
tn
), para todo o n N e t
1
, . . . , t
n
T.
4. Determine a lei de probabilidade da variavel aleatoria que nos da a soma dos pontos
obtidos no lan camento de dois dados equilibrados.
5. Se X e uma v.a. binomial de parametros n e p, mostre que n X e uma v.a. binomial
de parametros n e 1 p.
6. Retome o Exerccio 1.8.4 e denote por S
n
o ganho lquido do jogador ao m de n partidas.
Apresente uma formula para o calculo de P(S
n
0). Utilize-a quando n = 200, 1000 e
2000. Compare os resultados com os obtidos por simula cao.
7. Sejam X e Y variaveis aleatorias denidas em (, /, P) = ([0, 1], B([0, 1]), ) por
X() = e Y () = 1 .
Mostre que X Y e no entanto P(X = Y ) = 0.
8. Considere um modelo probabilstico (, /, P) que descreva a repeti cao duma experiencia
sempre nas mesmas condi coes. Cada experiencia tem dois resultados possveis que vamos
designar por sucesso e insucesso, sendo p [0, 1] a probabilidade de sucesso em cada
experiencia. Seja X a v.a. que nos da o n umero de lan camentos efectuados para obtermos
o primeiro sucesso. Mostre que X tem uma distribui cao geometrica de parametro
p [0, 1], isto e,
P
X
(k) = (1 p)
k1
p, para k N.
9. No contexto do exerccio anterior seja X a v.a. que nos da o n umero de insucessos observa-
dos antes de obtermos o r-esimo sucesso. Mostre que X tem uma distribui cao binomial
negativa, dita tambem distribui cao de Pascal, e escrevemos X BN(r, p), isto e,
P
X
(k) = (
k+r1
r1
)p
r
(1 p)
k
, para k N
0
.
10. Para cada n N, seja X
n
uma v.a. binomial de parametros n N e p
n
]0, 1[, onde
np
n
> 0, e X uma v.a. de Poisson de parametro , isto e, P
X
e uma probabilidade
sobre (N
0
, T(N
0
)) denida por
P
X
(n) = e

n
n!
, para n N
0
.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
(a) Para todo o k N, mostre que
P
Xn
(k)
P
Xn
(k 1)
k
.
(b) (Convergencia da binomial para a Poisson) Para todo o k N
0
, conclua que
P
Xn
(k)P
X
(k),
o que justica a designa cao de lei dos acontecimentos raros que e atribuda ` a dis-
tribui cao de Poisson.
(Obs: A distribui cao de Poisson e usada em problemas de las de espera para descre-
ver o n umero de chegadas de clientes a um posto de atendimento num determinado
intervalo de tempo, ou, mais geralmente, para representar a realiza cao de aconte-
cimentos independentes que ocorrem com frequencia constante.

E tambem usada
para descrever o n umero de defeitos em pe cas semelhantes de um dado material.)
2.2 Classicacao das leis de probabilidade sobre R
d
No paragrafo anterior vimos exemplos de leis de probabilidade discretas, como as
dos Exemplos 2.1.3, 2.1.5 e 2.1.6, e de leis de probabilidade absolutamente contnuas,
como as dos Exemplos 2.1.7, 2.1.8 e 2.1.9. Recordemos que uma medida sobre B(R
d
)
se diz: absolutamente contnua relativamente à medida de Lebesgue, e escrevemos
, se para todo o A B(R
d
) com (A) = 0, entao (A) = 0; discreta, se existe S
quando muito numeravel tal que (S
c
) = 0; difusa, se (x) = 0, para todo o x R
d
;
alheia relativamente à medida de Lebesgue, e escrevemos , se existe A B(R
d
)
tal que (A) = (A
c
) = 0; singular, se e difusa e alheia relativamente à medida de
Lebesgue.
O teorema da decomposi cao de Lebesgue ja nosso conhecido da disciplina de Me-
dida e Integra cao, e que enunciamos de seguida para medidas nitas, permitir-nos-a
classicar de forma simples as leis de probabilidade sobre R
d
(ver AMI, 8.6).
Teorema da decomposi cao de Lebesgue: Se e uma medida nita em (R
d
, B(R
d
)),
ent ao =
0
+
1
onde
0
e
1
s ao medidas em R
d
tais que
0
e
1
. A
decomposic ao anterior de , a que chamamos decomposi c ao de Lebesgue de em
relac ao a , e unica.
Teorema 2.2.1 Seja X um vector aleat orio em (R
d
, B(R
d
)). Ent ao existem medidas
ac
,
d
e
s
sobre B(R
d
) tais que
P
X
=
ac
+
d
+
s
,
onde
ac
,
d
e discreta e
s
e singular. A decomposic ao anterior e unica. A
ac
,
d
e
s
, chamamos parte absolutamente contnua, discreta e singular de P
X
,
respectivamente.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Dem: Pelo teorema da decomposi cao de Lebesgue, P
X
=
0
+
1
, onde
0
e
1
. Denotando por S, o conjunto dos pontos x para os quais
0
(x) ,= 0, um
tal conjunto e quando muito numeravel (porque?). Tomando agora, para A B(R
d
),
2
(A) =
0
(A S) e
3
(A) =
0
(A S
c
), obtemos
0
=
2
+
3
, com
2
discreta
e
3
singular. Atendendo à unicidade da decomposi cao P
X
=
0
+
1
, basta, para
concluir, mostrar a unicidade da decomposi cao
0
=
2
+
3
. Suponhamos entao que
0
=
2
+
3
, com
2
discreta e
3
singular. Sendo S
quando muito numeravel tal que
2
((S
)
c
) = 0, e
3
e
3
difusas, temos
2
(A) =
2
(A(SS
)) =
xA(SS
2
(x) =
xA(SS
2
(x) =
2
(A (S S
)) =
2
(A), para A B(R
d
). Finalmente, sendo
2
nita,
3
=
0

2
=
0

2
=
3
.
Deni cao 2.2.2 Se X e uma vari avel aleat oria em (R
d
, B(R
d
)) e
ac
,
d
e
s
as partes
absolutamente contnua, discreta e singular de P
X
, respectivamente, dizemos que X (ou
a sua lei de probabilidade) e absolutamente contnua se
d
=
s
= 0, discreta se
ac
=
s
= 0, e singular se
ac
=
d
= 0.
Atendendo ao teorema de Radon-Nikodym (ver AMI, 8.4), sabemos que
ac
ad-
mite a representa cao
ac
(A) =
_
A
fd, A B(R
d
), para alguma fun cao f mensuravel
de (R
d
, B(R
d
)) em (R, B(R)), nao-negativa e integravel.
`
A fun cao f, que e unica a
menos dum conjunto de medida de Lebesgue nula, chamamos derivada de Radon-
Nikodym de
ac
relativamente a . Assim, X e absolutamente contnua sse P
X
(A) =
_
A
fd, para todo o A B(R
d
), para alguma fun cao f mensuravel, nao-negativa com
_
fd = 1. Neste caso f diz-se densidade de probabilidade de X (ou de P
X
).
Tendo em conta a deni cao de medida discreta, podemos dizer que X e discreta
sse existe um subconjunto S de R
d
, quando muito numeravel, tal que P
X
(S) = 1. Ao
mais pequeno conjunto S (no sentido da inclusao) com estas propriedades chamamos
suporte de X (ou de P
X
) e denotamo-lo por S
X
. Claramente, S
X
= x R
d
:
P
X
(x) > 0. A fun cao g : R
d
R denida por g(x) = P
X
(x)1I
S
X
(x), diz-se
fun cao de probabilidade de X. Notemos que g e a derivada de Radon-Nikodym de
P
X
relativamente à medida contagem denida em R
d
.
Como veremos de seguida, subvectores de vectores absolutamente contnuos sao
absolutamente contnuos e subvectores de vectores discretos sao ainda discretos.
Teorema 2.2.3 Se (X
1
, . . . , X
d
) e um vector aleat orio absolutamente contnuo de den-
sidade f, ent ao, para todo o i
1
, . . . , i
m
1, . . . , d, (X
i
1
, . . . , X
im
) e absolutamente
contnuo de densidade
g(x
i
1
, . . . , x
im
) =
_
R
dm
f(x
1
, . . . , x
d
)d
dm
,
onde
dm
representa a medida de Lebesgue em R
dm
.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Dem: Para B B(R
m
), temos P
(X
i
1
,...,X
im
)
(B) = P((X
1
, . . . , X
d
)
1
{i
1
,...,im}
(B)) =
_
1
{i
1
,...,im}
(B)
f(x
1
, . . . , x
d
)d
d
=
_
1I
B
(x
i
1
, . . . , x
im
)f(x
1
, . . . , x
d
)d
d
=
_
R
m
1I
B
(x
i
1
, . . . ,
x
im
)
_
R
dm
f(x
1
, . . . , x
d
)d
dm
d
m
=
_
B
g(x
i
1
, . . . , x
im
)d
m
.
Teorema 2.2.4 Se (X
1
, . . . , X
d
) e um vector aleat orio discreto com suporte S e fun c ao
de probabilidade g, ent ao, para todo o i
1
, . . . , i
m
1, . . . , n, (X
i
1
, . . . , X
im
) e dis-
creto com suporte
i
1
,...,im
(S) e func ao de probabilidade
h(x
i
1
, . . . , x
im
) =
_
R
dm
g(x
1
, . . . , x
d
)d
dm
=
(x
1
,...,x
d
)
1
i
1
,...,im
({(x
i
1
,...,x
im
)})
g(x
1
, . . . , x
d
),
onde
dm
representa a medida contagem em R
dm
.
Exerccios
1. Seja (X, Y ) o ve.a. denido no Exemplo 2.1.9. Mostre que X N(m
1
,
2
1
).
2. Se X M(n, p
1
, . . . , p
k
), mostre que X
i
B(n, p
i
), para i = 1, . . . , k.
3. Considere os vectores aleatorios (X, Y ) de densidade
f(x, y) =
1
2
e
(x
2
+y
2
)/2
,
e (U, V ) de densidade
g(x, y) =
1
e
(x
2
+y
2
)/2
1I
(], 0]], 0]) ([0, +[[0, +[)
(x, y),
para (x, y) R
2
. Mostre que X U e Y V , e, no entanto, (X, Y ) , (U, V ).
2.3 Funcao de distribuicao duma variavel aleatoria real
Apresentamos neste paragrafo um instrumento importante no estudo da distribui cao
de probabilidade duma variavel aleatoria real X denida num espa co de probabilidade
(, /, P).
Deni cao 2.3.1 Chamamos fun c ao de distribui c ao de X, e denotamo-la por F
X
,
` a func ao de distribui c ao de P
X
, isto e,
F
X
(x) = P
X
(] , x]) = P(X x), x R.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Proposi cao 2.3.2 F
X
satisfaz as seguintes propriedades:
a) F
X
e n ao-decrescente e contnua ` a direita.
b) F
X
(x)0 ou 1, se x ou x+, respectivamente.
c) P
X
(a) = F
X
(a) F
X
(a
), P
X
(]a, b]) = F
X
(b) F
X
(a), P
X
([a, b]) = F
X
(b)
F
X
(a
), P
X
(]a, b[) = F
X
(b
) F
X
(a) e P
X
([a, b[) = F
X
(b
) F
X
(a
), para todo o
< a < b < +.
d) F
X
e contnua em x R sse P
X
(x) = 0.
e) O conjunto dos pontos de descontinuidade de F
X
e quando muito numer avel.
f ) F
X
caracteriza P
X
(isto e, F
X
= F
Y
sse X Y )
Dem: Demonstraremos apenas a alnea f). A demonstra cao das restantes alneas ca
ao cuidado do aluno. Se X Y entao P
X
= P
Y
e consequentemente F
X
= F
Y
.
Reciprocamente, se F
X
= F
Y
para a, b R, temos P
X
(]a, b]) = F
X
(b) F
X
(a) =
F
Y
(b) F
Y
(a) = P
Y
(]a, b]), ou ainda, P
X
= P
Y
pelo lema da igualdade de medidas
(ver AMI, 2.6).
Notemos que, atendendo à alnea d), X e difusa sse F
X
e contnua em R. Alem
disso, das alneas d) e e), e da decomposi cao de Lebesgue, conclumos que a parte
discreta de P
X
tem por suporte o conjunto dos pontos de descontinuidade de F
X
.
O resultado seguinte da-nos duas caracteriza coes da continuidade absoluta duma
variavel aleatoria real em termos da sua fun cao de distribui cao. A sua demonstra cao
ca como exerccio.
Teorema 2.3.3 Se X e uma vari avel aleat oria real, s ao equivalentes as seguintes pro-
posic oes:
i) X e absolutamente contnua.
ii) F
X
(x) =
_
],x]
fd, para alguma func ao n ao-negativa e mensur avel f, com
_
fd = 1.
O resultado anterior e o teorema da diferencia cao de Lebesgue que a seguir enun-
ciamos (ver Rudin, 1974, pg. 176, e AMI, 9.3), permitem-nos, no caso de X ser abso-
lutamente contnua, garantir a diferenciabilidade quase em todo o ponto de F
X
, bem
como relacionar F
X
com a densidade de probabilidade de X.
Teorema da diferencia cao de Lebesgue: Se F(x) =
_
],x]
f d, para x R, onde
f : RR e B(R)-mensur avel e integr avel, ent ao F possui derivada em quase todo o
ponto de R e F
= f, -q.t.p.
Teorema 2.3.4 Se X e uma vari avel aleat oria real absolutamente contnua de densi-
dade f, ent ao F
X
possui derivada em -quase todo o ponto de R e F
X
= f, -q.t.p.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Mesmo no caso em que X nao e necessariamente uma v.a. absolutamente contnua,
e possvel obter o resultado seguinte (ver Rudin, 1974, pg. 176).
Teorema 2.3.5 Se X e uma vari avel aleat oria real ent ao F
X
possui derivada em -
quase todo o ponto de R e F
X
= f
ac
, -q.t.p., onde f
ac
e a derivada de Radon-Nikodym
da parte absolutamente contnua de P
X
.
Terminamos este paragrafo estabelecendo duas condi coes sucientes para a conti-
nuidade absoluta duma variavel aleatoria em termos da sua fun cao de distribui cao.
Teorema 2.3.6 Se X e uma vari avel aleat oria real e F
X
satisfaz pelo menos uma das
condi c oes a)
_
F
X
d = 1 ou b) F
X
e continuamente diferenci avel em R, ent ao X e
absolutamente contnua.
Dem: a) Atendendo aos Teoremas 2.2.1 e 2.3.5, podemos escrever P
X
= F
X
+
d
+
s
.
Se F
X
e tal que
_
F
X
d = 1, obtemos entao P
X
(R) = 1+
d
(R) +
s
(R), ou ainda,
d
=
s
= 0, isto e, X e absolutamente contnua. b) Pelo teorema fundamental do calculo,
_
]a,b]
F
X
d =
_
]a,b]
F
X
(t)dt (integral de Riemann) = F
X
(b) F
X
(a) = P
X
(]a, b]), para
todo o a < b em R. Como F
X
e nao-negativa conclumos que F
X
e -integravel e que
_
F
X
d = 1.
Exerccios
1. Sejam a R e X uma v.a. constantemente igual a a (dizemos que X e degenerada).
Mostre que P
X
=
a
, isto e, a lei de probabilidade de X e a medida de Dirac no ponto
a, e determine a fun cao de distribui cao F
X
de X.
2. Seja X uma v.a. uniforme discreta sobre o conjunto 1, 2, . . . , n, isto e, X toma valores
no conjunto 1, 2, . . . , n e
P
X
(j) = 1/n, para j = 1, . . . , n.
Determine a fun cao de distribui cao de X.
3. Sejam U uma v.a.r. centrada e reduzida, isto e, U N(0, 1), e X denida por X =
U +, com R e > 0 xos. Mostre que X N(,
2
).
4. SejamX uma v.a. uniforme sobre o intervalo [a, b], e Y a v.a.r. denida em ([0, 1], B([0, 1]), )
por Y () = (1 )a +b.
(a) Determine a fun cao de distribui cao de X.
(b) Mostre que Y X.
5. Denotemos por X a v.a. que descreve a extrac cao ao acaso dum ponto do intervalo
[0, 1]. Determine a fun cao de distribui cao de X
2
e conclua que X
2
e absolutamente
contnua. Descrevera X
2
a extrac cao ao acaso dum ponto do intervalo [0, 1]?
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
6. Sendo X uma v.a. normal de parametros 0 e 1, mostre que X
2
admite por densidade de
probabilidade
f(x) =
_
1
2
x
1/2
e
x/2
, se x 0
0, se x < 0.
7. Considere a v.a. X de ([0, 1], B([0, 1), ) em (R, B(R)), denida por X() = , se 0
< 1/2, X() = 1/2, se 1/2 3/4, e X() = 2, se 3/4 < 1. Determine
a fun cao de distribui cao de X e identique as partes absolutamente contnua, discreta e
singular de P
X
.
8. Dizemos que uma v.a.r. X tem uma distribui cao exponencial de parametro > 0, e
escrevemos X E(), se admite uma densidade de probabilidade da forma
f(x) =
_
e
x
, se x > 0
0, se x 0.
1 2 3 4
0.2
0.4
0.6
0.8
1
1.2
1.4
= 1.5
= 1
= 0.5
Figura 2.2: Distribui cao exponencial
(a) Determine a fun cao de distribui cao F
X
.
(b) Mostre que se U U([0, 1[), entao, para > 0, X
1
ln(1 U).
(Obs: A distribui cao exponencial e usada como modelo para o tempo de funcionamento
duma componente ou sistema, quando assumimos que o n umero de falhas por unidade de
tempo e constante, ou para descrever o tempo que medeia entre chegadas consecutivas
de clientes a um posto de atendimento, quando assumimos que o n umero de chegadas
por unidade de tempo e constante.)
9. (Representa cao de Skorokhod duma v.a.r.) Sejam X uma v.a.r. com fun c ao de
distribui cao F e
F
(x) = infs R : F(s) x,

para x ]0, 1[ (F
diz-se inversa generalizada de F ou fun cao quantil de F).

(a) Mostre que:
i. F
(x) u sse x F(u), para u R; ii. Se U U(]0, 1[), entao F
(U) X.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
(b) Se X esta denida num espa co de probabilidade (E, T, Q), mostre que existe uma
v.a. real Y denida em (]0, 1[, B(]0, 1[), ) tal que X Y .
(c) Sendo F contnua, mostre que:
i. F(F
(x)) = x; ii. F(X) U([0, 1]).

10. Se X e uma v.a.r. com fun cao de distribui cao F contnua em R e estritamente crescente
quando 0 < F(x) < 1, sabemos do exerccio anterior que F
1
(U) X, quando U
U(]0, 1[). Atendendo a que pode simular uma v.a. uniforme sobre o intervalo ]0, 1[ (ver
1.8), implemente a simula cao das variaveis aleatorias reais seguintes cuja densidade de
probabilidade se indica (ver Figuras 2.3-2.6):
(a) Cauchy de parametros e :
f(x) = ((1 + (x )
2
/
2
))
1
, x R ( R, > 0);
(b) Laplace de parametros e :
f(x) = e
|x|
/2, x R ( R, > 0);
-4 -2 2 4
0.1
0.2
0.3
0.4
= 1.5
= 1
= 0.75
+ +
Figura 2.3: Distribui cao de Cauchy
-4 -2 2 4
0.1
0.2
0.3
0.4
0.5
0.6
0.7
= 1.5
= 1
= 0.75
+ +
Figura 2.4: Distribui cao de Laplace
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
(c) Logstica de parametros e :
f(x) = e
(x)/
(1 +e
(x)/
)
2
/, x R ( R, > 0);
(d) Weibull de parametros e :
f(x) =
x
1
e
(x)
, x 0 (, > 0).
-6 -4 -2 2 4 6
0.05
0.1
0.15
0.2
0.25
0.3
= 1.5
= 1
= 0.75
+ + +
Figura 2.5: Distribui cao logstica
0.5 1 1.5 2 2.5 3
0.2
0.4
0.6
0.8
1
1.2
= 3
= 1.5
= 1
Figura 2.6: Distribui cao de Weibull ( = 1)
2.4 Funcao de distribuicao dum vector aleatorio
Neste paragrafo generalizamos a no cao de fun cao de distribui cao ao caso multivari-
ado. A nota cao que a seguir utilizamos foi introduzida no Exemplo 1.4.3.
Deni cao 2.4.1 Chamamos fun c ao de distribui c ao do vector aleat orio X = (X
1
, . . . ,
X
d
), e denotamo-la por F
X
, ` a func ao de distribuic ao de P
X
, isto e,
F
X
(x) = P
X
(] , x]) = P(X x), x R
d
.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Proposi cao 2.4.2 F
X
goza das seguintes propriedades:
a) F
X
e contnua ` a direita e n ao-decrescente coordenada a coordenada;
b) F
X
(x)0 ou 1, se min
i=1,...,d
x
i
ou +, respectivamente;
c) Para a b, P
X
(]a, b]) =
xV
sgn(x)F
X
(x), onde V e o conjunto dos vertices
de ]a, b];
d) F
X
caracteriza P
X
.
Dem: As alneas a) e b) obtem-se como no caso real. A alnea c) e consequencia da
decomposi cao ]a, b] =] , b]
d
i=1
] , (b
1
, . . . , b
i1
, a
i
, b
i+1
, . . . , b
d
)] e da Formula
de Daniel da Silva. A alnea d) obtem-se de c) e do lema da igualdade de medidas.
Sendo F
X
contnua à direita e nao-decrescente coordenada a coordenada, a con-
tinuidade de F num ponto e equivalente à continuidade à esquerda nesse ponto. No
resultado seguinte estabelecemos uma condi cao necessaria e suciente para que um
ponto de R
d
seja ponto de continuidade de F
X
.
Teorema 2.4.3 Sejam X um vector aleat orio em R
n
, x R
d
, xo, e fr(] , x]) a
fronteira de ] , x]. Ent ao F
X
e contnua em x sse P
X
(fr(] , x])) = 0.
Dem: Sendo (
n
) uma sucessao em R
d
com 0
n
0, temos, para x R
d
, ], x]]
, x
n
] fr(] , x], e assim P
X
(fr(] , x])) = F
X
(x) limF
X
(x
n
), o que
permite concluir.
No caso real, a continuidade de F
X
em R e condi cao necessaria e suciente para que
X seja difusa. Como podemos concluir do resultado anterior, no caso multidimensional
a continuidade de F
X
em R
d
apesar de suciente nao e condi cao necessaria para que
X seja difuso.
Aplica coes sucessivas do teorema da diferencia cao de Lebesgue, permitem gene-
ralizar o Teorema 2.3.4 ao caso multidimensional.
Teorema 2.4.4 Se X e um vector aleat orio em R
d
absolutamente contnuo de fun c ao
de distribui c ao F
X
, ent ao

d
F
X
x
1
. . . x
d
existe em -quase todo o ponto de R
d
e e uma
vers ao da densidade de probabilidade de X.
Terminamos este paragrafo, notando que conhecida a fun c ao de distribui cao dum
vector X, podemos facilmente obter a fun cao de distribui cao dum seu subvector.
Teorema 2.4.5 Se F
X
e a func ao de distribuic ao de (X
1
, . . . , X
d
), ent ao para
i
1
, . . . , i
m
1, . . . , d, a fun c ao de distribuic ao de (X
i
1
, . . . , X
im
) e dada por
F
(X
i
1
,...,X
im
)
(x
i
1
, . . . , x
im
) = limF
X
(x
1
, . . . , x
d
),
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
onde o limite anterior e tomado quando x
j
+, para todo o j 1, . . . , d
i
1
, . . . , i
m
.
Exerccios
1. Se U N(0, 1), mostre que o ve.a. (U, 0) em R
2
e difuso e estude a sua fun c ao de
distribui cao quanto à continuidade.
2. Se (X, Y ) e um ve.a. em R
2
com fun cao de distribui cao F, mostre que

2
F
xy
esta denida
em quase todo o ponto de R
2
e e nao-negativa. Alem disso, mostre que se F e de classe
C
2
entao (X, Y ) e absolutamente contnuo.
2.5 Transformacao de vectores absolutamente contnuos
Suponhamos que X e Y sao vectores aleatorios em R
d
tais que Y = g(X) com
g : U V , bijectiva entre os abertos U e V , e g e g
1
de classe C
1
. Mostramos neste
paragrafo que Y e absolutamente contnuo se X o for, e determinamos a densidade de
probabilidade de Y em fun cao da de X. Um tal resultado e uma consequencia imediata
do teorema da mudan ca de variavel no integral de Lebesgue que recordamos de seguida
(ver AMI, 7.3, 7.4).
Teorema da mudan ca de variavel: Nas condic oes anteriores, seja f : U R
B(U)-mensur avel. Se f e n ao-negativa, ent ao
_
V
fd =
_
V
(f g
1
)(x)[det(J
g
1 (x))[d(x),
onde J
g
1(x) representa a matriz jacobiana de g
1
no ponto x. Alem disso, para f qual-
quer, a -integrabilidade de f e equivalente ` a -integrabilidade de (fg
1
)()[det(J
g
1 ())[,
e nesse caso vale a igualdade anterior.
Teorema 2.5.1 Nas condic oes anteriores, se X e absolutamente contnuo com densi-
dade f, ent ao Y e absolutamente contnuo e uma vers ao da sua densidade de probabi-
lidade e dada por
h(x) =
_
(f g
1
)(x)[ det(J
g
1 (x))[, se x V
0 se x / V.
Dem: Para B B(V ), temos P
Y
(B) = P(g(X) B) = P(X g
1
(B)) =
_
g
1
(B)
fd =
_
U
f1I
g
1
(B)
d =
_
V
(f1I
g
1
(B)
g
1
)(x)[ det(J
g
1 (x))[d(x) =
_
V
(f g
1
)(x)1I
B
(x)
[ det(J
g
1 (x))[d(x) =
_
B
(f g
1
)(x)[ det(J
g
1(x))[d(x).
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Uma aplica cao interessante do resultado anterior surge na determina cao da densi-
dade de probabilidade da soma de duas variaveis aleatorias X e Y com valores em R
d
,
quando o vector (X, Y ) tem por densidade (x, y) f(x)g(y), com f e g densidades
de probabilidade em R
d
. Pelo teorema anterior, o vector (X + Y, Y ) tem por densi-
dade (u, v) f(u v)g(v), e pelo Teorema 2.2.3 a densidade h de X + Y e dada por
h(u) =
_
f(u v)g(v)d(v), a que chamamos convolu cao das densidades f e g, e
que denotamos por f g. Voltaremos a este assunto no Captulo 4.
Exerccios
1. Retome o Exerccio 2.3.5. Use o Teorema da transforma cao de variaveis aleatorias abso-
lutamente contnuas para determinar a densidade de probabilidade de X
2
.
2. Sejam (X, Y ) o ve.a. denido no Exerccio 2.2.3, e Z = X +Y . Mostre que Z N(0, 2).
3. Seja (X, Y ) um ponto escolhido ao acaso no quadrado [0, 1] [0, 1]. Determine a distri-
bui cao de Z = X +Y , dita distribui cao triangular sobre o intervalo [0, 2].
4. Se (X, Y ) e um ve.a. com valores em (R
2
, B(R
2
)) e densidade f, mostre que as v.a.
Z
1
= XY e Z
2
= X/Y sao absolutamente contnuas com densidades
g
1
(z) =
_
f(u, z/u)/[u[ d(u), para z R,
e
g
2
(z) =
_
f(zv, v)[v[ d(v), para z R,
respectivamente. Se (X, Y ) e o ve.a. denido no Exerccio 2.2.3, conclua que Z
2
possui
uma distribui cao de Cauchy de parametros 0 e 1.
5. Sejam (X, Y ) o ve.a. denido no Exerccio 2.2.3 e Z = X
2
+Y
2
.
(a) Mostre que, para A B(R),
P(Z A) =
_ _
1I
A
(x
2
+y
2
)
1
2
e
(x
2
+y
2
)/2
d(x)d(y).
(b) Conclua que Z segue uma lei exponencial de parametro 1/2.
6. (Metodo de Box-Muller para simula cao de variaveis normais
1
) Seja (U, V ) um
ve.a. com distribui cao uniforme sobre o rectangulo [0, 1[[0, 1[.
(a) Determine a densidade de probabilidade do vector (R, ) = (
_
2 ln(1 U), 2V )
e conclua que possui uma distribui cao uniforme sobre o intervalo [0, 2[ e que R
possui uma distribui cao de Rayleigh, isto e, R tem por densidade
f
R
(r) = re
r
2
/2
1I
[0,+[
(r).
(b) Mostre que X = Rcos possui uma distribui cao normal standard.
1
Box, G.E.P., Muller, M.E., Ann. Math. Stat., 29, 610611, 1958.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
2.6 Distribuicoes condicionais
Dada uma probabilidade P
1
sobre (R
n
, B(R
n
)) e uma probabilidade de transi cao Q
sobre R
n
B(R
m
), sabemos do 1.7 que existe um vector aleatorio (X, Y ) denido num
espa co de probabilidade (, /, P) tal que P
X
= P
1
e
P
(X,Y )
(A B) =
_
A
Q(x, B)dP
X
(x), (2.6.1)
para todo o A B B(R
n
) B(R
m
).
O problema que agora consideramos pode ser visto como o inverso do anterior.
Dado um vector aleatorio (X, Y ) denido num espa co de probabilidade (, /, P) e
com valores em (R
n
R
m
, B(R
n
) B(R
m
)), sera possvel escrever a sua distribui cao
de probabilidade na forma (2.6.1) para alguma probabilidade de transi cao Q sobre
R
n
B(R
m
)? A resposta a esta questao e armativa mas a sua justicacao completa
ultrapassa largamente os objectivos deste curso
2
. Vamos contentar-nos com algumas
respostas parciais.
Admitamos em primeiro lugar que X e discreto. Tomando, para B B(R
m
),
Q(x, B) =
_
P(Y B[X = x), se P(X = x) > 0
(B), se P(X = x) = 0,
onde e uma probabilidade xa sobre B(R
m
), conclumos que Q e uma probabilidade
de transi cao sobre R
n
B(R
m
) e, para A B B(R
n
) B(R
m
),
_
A
Q(x, B)dP
X
(x)
=
xA:P(X=x)>0
P(Y B[X = x)P(X = x)
=
xA:P(X=x)>0
P(X = x, Y B)
= P
(X,Y )
(AB).
O mesmo acontece quando (X, Y ) e um vector absolutamente contnuo com densi-
dade f, bastando denir
Q(x, B) =
_
_
_
_
B
f(x, y)
f
X
(x)
d(y), se f
X
(x) > 0
(B), se f
X
(x) = 0,
2
No caso das variaveis X e Y tomarem valores em espacos gerais, o resultado pode nao ser verdadeiro
(ver Hennequin e Tortrat, 1965, pg. 236238).
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
onde f
X
(x) =
_
f(x, y)d(y) e e uma probabilidade xa sobre B(R
m
). Com efeito,
_
A
Q(x, B)dP
X
(x)
=
_
A
_
B
f(x, y)
f
X
(x)
d(y)f
X
(x) d(x)
=
_
AB
f(x, y) d(y)d(x)
= P
(X,Y )
(AB),
para A B B(R
n
) B(R
m
). A aplica cao y f
Y
(y[X = x) =
f(x,y)
f
X
(x)
, que nao e mais
do que uma versao de derivada de Radon-Nikodym de Q(x, ) relativamente a , diz-se
densidade condicional de Y dado X = x. A densidade de (X, Y ) pode ser assim
obtida a partir de f
X
e de f
Y
([X = ) pela formula f(x, y) = f
X
(x)f
Y
(y[X = x).
Deni cao 2.6.2 Sejam X e Y s ao vectores aleat orios denidos num espaco de proba-
bilidade (, /, P) com valores em (R
n
, B(R
n
)) e (R
m
, B(R
n
)), respectivamente. Toda a
probabilidade de transi c ao Q sobre R
n
B(R
m
) satisfazendo
_
A
Q(x, B)dP
X
(x) = P
(X,Y )
(AB),
para todo o A B B(R
n
) B(R
m
), e dita lei ou distribui c ao condicional de Y
dado X, e e denotada por P
Y
([X = ). A P
Y
([X = x) chamamos lei ou distri-
bui c ao condicional de Y dado X = x.
Observemos que no caso particular em que X e discreto, e tal como a nota cao
sugere, P
Y
([X = x), para x R
n
com P(X = x) > 0, e efectivamente a distribui cao
de probabilidade de Y quando Y e considerada denida no espa co de probabilidade
(, /, P([X = x)).
Notemos tambem que se P
Y,1
([X = ) e P
Y,2
([X = ) sao distribui coes condicionais
de Y dado X, entao P
Y,1
([X = x) = P
Y,2
([X = x), para P
X
-quase todo o ponto x de
R
n
.
Exerccios
1. Sejam X uma v.a. com valores em R
n
e Y = g(X) com g : R
n
R
m
uma aplica c ao
mensuravel. Determine P
Y
([X = ).
2. Seja (X, Y ) um ve.a. em R
2
com X N(0, 1) e cuja distribui cao condicional de Y dado
X = x tem uma distribui cao N(x, 1). Prove que Y N(0, 2).
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
3. Um ponto X e escolhido ao acaso do intervalo [a, b] e a seguir um ponto Y e escolhido
ao acaso do intervalo [X, b]. Mostre que a densidade de probabilidade de Y e dada, para
y R, por
f
Y
(y) =
1
b a
ln
_
b a
b y
_
1I
[a,b[
(y).
4. Um animal poe um certo n umero X de ovos segundo uma distribui cao de Poisson de
parametro . Cada um desses ovos, independentemente dos outros, da origem a um
novo animal com probabilidade p. Denotando por Y o n umero de crias de cada ninhada,
determine a distribui cao de Y .
(Sugestao: Comece por determinar a distribui cao condicional de Y dado X = n.)
2.7 Bibliograa
Hennequin, P.L., Tortrat, A. (1965). Theorie des Probabilites et Quelques Applications,
Masson.
Jacod, J., Protter, P. (2000). Probability Essentials, Springer.
Rudin, W. (1974). Real and Complex Analysis, McGraw-Hill.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Captulo 3
Independencia
Independencia de acontecimentos aleat orios, de classes e de vari aveis aleat orias. Cara-
cterizac oes da independencia duma famlia de vari aveis aleat orias. Distribuic ao da
soma de vari aveis aleat orias independentes. Leis zero-um de Borel e de Kolmogorov.
3.1 Independencia de classes de acontecimentos aleatorios
Introduzimos neste captulo uma das mais importantes no coes que abordamos neste
curso. Trata-se da no cao de independencia cujas implica coes serao exploradas neste e
nos proximos captulos.
Se A e B sao acontecimentos aleatorios dum espa co de probabilidade (, /, P),
com P(B) > 0, a probabilidade condicionada P(A[B) pode ser interpretada como a
probabilidade do acontecimento A quando sabemos que o acontecimento B se realizou.
O facto de sabermos que B se realizou, pode, ou nao, alterar a probabilidade P(A)
do acontecimento A, isto e, pode, ou nao, vericar-se a igualdade P(A[B) = P(A), ou
ainda, P(A B) = P(A)P(B). Tal facto motiva a deni cao seguinte.
Deni cao 3.1.1 Os acontecimentos aleat orios A
t
, t T, onde T denota um qualquer
conjunto de ndices, dizem-se independentes, se para qualquer conjunto nito de
ndices distintos t
1
, . . . , t
n
T, P(
n
k=1
A
t
k
) =
n
k=1
P(A
t
k
).
Notemos que os acontecimentos duma famlia podem ser dois a dois independentes
sem serem (colectivamente) independentes. Para ilustrar tal situa cao, considere, por
exemplo, = 0, 1
2
, / = T() e P tal que P((i, j)) = 1/4, para (i, j) , e os
acontecimentos A = (0, 0), (0, 1), B = (0, 0), (1, 0) e C = (0, 0), (1, 1).
A no cao de independencia de acontecimentos aleatorios pode, de forma natural, ser
extendida a uma famlia arbitraria de classes.
49
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Deni cao 3.1.2 Dizemos que as subclasse n ao-vazias (
t
, t T, de / s ao indepen-
dentes, quando, para qualquer conjunto nito de ndices distintos t
1
, . . . , t
n
T, e de
acontecimentos A
t
1
(
t
1
, . . . , A
tn
(
tn
, os acontecimentos A
t
k
, k = 1, . . . , n, forem
independentes.
No resultado seguinte lan camos mao das no coes de -sistema e de d-sistema. Re-
cordemos que um -sistema e uma classe de partes de que e estavel para a intersec cao
nita, enquanto que um d-sistema, ou sistema de Dynkin, contem e e estavel para a
complementa cao e para a reuniao numeravel disjunta (ver AMI, 1.2).
Teorema 3.1.3 Sejam (
t
, t T, subclasses n ao-vazias de /, tais que:
a) (
t
e um -sistema, para todo o t T;
b) (
t
, t T, s ao independentes.
Ent ao as - algebras ((
t
), t T, s ao independentes.
Dem: Para t
1
, . . . , t
n
T, distintos, e A
t
1
, . . . , A
tn
xos em (
t
1
, . . . , (
tn
, respectiva-
mente, consideremos a classe L = A / : P(AA
t
2
. . . A
tn
) = P(A)P(A
t
1
) . . . P(A
tn
).
L e um d-sistema e, sendo (
t
1
, . . . , (
tn
independentes, (
t
1
L. Consequentemente,
d((
t
1
) L. Sendo (
t
1
um -sistema, d((
t
1
) = ((
t
1
) (cf. AMI, Teorema 1.3.3), o que
prova que ((
t
1
), (
t
2
, . . . , (
tn
sao independentes. Repetindo o raciocnio para as clas-
ses (
t
2
, . . . , (
tn
, ((
t
1
) conclumos que ((
t
2
), (
t
3
, . . . , (
tn
, ((
t
1
) sao independentes, e
nalmente que ((
t
1
), ((
t
2
), . . . , ((
tn
) sao independentes.
Corolario 3.1.4 Os acontecimentos A
t
, t T, s ao independentes sse as - algebras
(A
t
), t T, o forem.
Teorema 3.1.5 Sejam B
t
, t T, sub-- algebras de / independentes e T uma parti c ao
de T. Ent ao as - algebras B
S
= (B
t
, t S), S T, s ao ainda independentes.
Dem: Para S T, seja (
S
=
K
: B
, K S, K nito. Vamos pro-

var que (
S
, S T, e uma famlia de -sistemas independentes com ((
S
) = B
S
, o
que permite concluir pelo teorema anterior. 1) (
S
e claramente um -sistema. 2) Se-
jam agora S
1
, . . . , S
k
T distintos (logo disjuntos) e A
i
(
S
i
, i = 1, . . . , k. Entao
A
i
=
i
K
i
B
i
i
, com B
i
i
B
i
e K
i
S
i
nito. Uma vez que P(
k
i=1
A
i
) =
P(
k
i=1
i
K
i
B
i
i
) =
k
i=1
i
K
i
P(B
i
i
) =
k
i=1
P(A
i
), conclumos que (
S
, S T,
e uma famlia de -sistemas independentes. 3) Claramente (
S
B
S
, e tambem
((
S
) B
S
. Por outro lado, B
(
S
, para S, e tambem
S
B
(
S
. Assim,
B
S
= (B
, S) = (
S
B
) ((
S
).
Exerccios
1. Utilizando a deni cao, mostre que se A e B sao acontecimentos aleatorios independentes,
tambem o sao os pares de acontecimentos A e B
c
, A
c
e B, e A
c
e B
c
.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
3 Independencia 51
2. Mostre que A
1
, . . . , A
n
sao acontecimentos independentes sse para todo o j 1, . . . , n
e I 1, . . . , n j com P(
iI
A
i
) > 0, entao P(A
j
[
iI
A
i
) = P(A
j
).
3. Se A
n
, n 1, sao acontecimentos independentes, mostre que P(
n=1
A
n
) =
n=1
P(A
n
).
4. Sejam (, /) o produto dos espa cos mensuraveis (
n
, /
n
), n N, e P uma probabilidade
sobre /. Para n N e A
n
/
n
, considere os acontecimentos
B
n
=
1
. . .
n1
A
n

n+1
. . .
e as probabilidades P
n
denidas em (
n
, /
n
) por P
n
(A
n
) = P(B
n
). Mostre que os
acontecimentos B
n
, n 1, sao independentes sse P =
n=1
P
n
.
5. Se A
n
, n 1, sao acontecimentos independentes, mostre que
n
i=1
A
i
e
i=n+1
A
i
s ao
independentes, com n N xo.
6. Para s > 1, xo, sejam (s) =
n=1
1
n
s
, e X uma variavel aleatoria com valores em N
tal que P(X = n) =
1
(s)
1
n
s
, para n N.
(a) Para p N, considere o conjunto E
p
= X e divisvel por p, e mostre que P(E
p
) =
1/p
s
.
(b) Mostre que os conjuntos E
p
, com p primo, sao independentes.
(c) Estabele ca a formula de Euler:
1
(s)
=
p primo
_
1
1
p
s
_
.
3.2 Independencia de variaveis aleatorias
As variaveis aleatorias que consideramos neste paragrafo estao denidos sobre um
mesmo espa co de probabilidade (, /, P), podendo, no entanto, tomar valores em
espa cos mensuraveis diversos. No que se segue, T e um qualquer conjunto de ndices.
Deni cao 3.2.1 Dizemos que X
t
, t T, e uma famlia de vari aveis aleat orias
independentes se (X
t
), t T, forem - algebras independentes.
Uma caracteriza cao da independencia duma qualquer famlia X
t
, t T, de variaveis
aleatorias em termos da distribui cao da variavel aleatoria (X
t
, t T), e apresentada no
resultado seguinte. Fica assim clara a rela cao estreita entre as no coes de independencia
da famlia X
t
, t T, de variaveis aleatorias e a forma produto para a distribui cao de
probabilidade da variavel aleat oria (X
t
, t T).
Teorema 3.2.2 As vari aveis aleat orias X
t
, t T, onde cada X
t
toma valores em
(E
t
, B
t
), s ao independentes sse P
(Xt,tT)
=
tT
P
Xt
.
Dem: Comecemos por notar que como a -algebra
tT
B
t
e gerada pelos conjuntos do
tipo
1
S
(
tS
B
t
), com B
t
B
t
, t T, e S T nito, a igualdade de medidas expressa
no enunciado e equivalente à igualdade P
(Xt,tS)
=
tS
P
Xt
, para todo o subconjunto
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
nito S de T. Suponhamos ent ao que X
t
, t T, sao variaveis aleatorias independentes,
e para S T nito, consideremos B
t
B
t
, para t S. Como P
(Xt,tS)
(
tT
B
t
) =
P(
tS
X
t
B
t
) =
tS
P(X
t
B
t
) =
tS
P
Xt
(
tT
B
t
), conclumos que
P
(Xt,tT)
=
tT
P
Xt
. Reciprocamente, sejam S T nito, e A
t
(X
t
), para t S.
Por deni cao de -algebra gerada por X
t
, A
t
= X
1
t
(B
t
), com B
t
B
t
. Assim,
P(
tS
A
t
) = P((X
t
, t S)
tS
B
t
) = P
(Xt,tS)
(
tS
B
t
) =
tS
P
Xt
(
tS
B
t
) =
tS
P
Xt
(B
t
) =
tS
P(A
t
), ou seja, X
t
, t T, sao independentes.
Nos dois resultados seguintes apresentamos caracteriza coes da independencia das
margens dum vector aleatorio em termos da sua fun cao de distribui cao e, no caso
deste ser absolutamente contnuos, da sua densidade de probabilidade. Um resultado
do mesmo tipo, mas em termos da sua fun cao de probabilidade, vale para vectores
aleatorios discretos.
Teorema 3.2.3 Seja (X
1
, . . . , X
n
) um vector aleat orio em R
n
com func ao de distri-
buic ao F
(X
1
,...,Xn)
. As vari aveis aleat orias reais X
1
, . . . , X
n
s ao independentes sse
F
(X
1
,...,Xn)
=
n
i=1
F
X
i
,
onde F
X
i
denota a fun c ao de distribuic ao da vari avel aleat oria X
i
. Alem disso, se
F
(X
1
,...,Xn)
=
n
i=1
G
i
, onde cada G
i
e uma distribuic ao de probabilidade em R, ent ao
G
i
= F
X
i
, para i = 1, . . . , n, e as vari aveis aleat orias X
1
, . . . , X
n
s ao independentes.
Dem: 1) Se X
1
, . . . , X
n
sao independentes, P
(X
1
,...,Xn)
=
n
i=1
P
X
i
, o que implica que
F
(X
1
,...,Xn)
(x
1
, . . . , x
n
) = P
(X
1
,...,Xn)
(
n
i=1
] , x
i
]) =
n
i=1
P
X
i
(
n
i=1
] , x
i
]) =
n
i=1
P
X
i
(] , x
i
]) =
n
i=1
F
X
i
(x
i
), para (x
1
, . . . , x
n
) R
n
. Reciprocamente, se
F
(X
1
,...,Xn)
=
n
i=1
F
X
i
, entao P
(X
1
,...,Xn)
e
n
i=1
P
X
i
coincidem sobre o -sistema dos
borelianos da forma
n
i=1
] , x
i
], que gera B(R
n
). Pelo lema da igualdade de medida,
P
(X
1
,...,Xn)
e
n
i=1
P
X
i
coincidem sobre B(R
n
) (cf. AMI, 2.6), o que atendendo ao teo-
rema anterior e equivalente à independencia das variaveis X
1
, . . . , X
n
. 2) Suponhamos
agora que F
(X
1
,...,Xn)
=
n
i=1
G
i
, onde cada G
i
e uma distribui cao de probabilidade em
R. Assim, para i = 1, . . . , n, e x
i
R, F
X
i
(x
i
) = limx
j
+
j=i
F
(X
1
,...,Xn)
(x
1
, . . . , x
n
) =
limx
j
+
j=i
n
k=1
G
k
(x
k
) = G
i
(x
i
). Alem disso, F
(X
1
,...,Xn)
=
n
i=1
F
i
, o que pela primeira
parte da demonstra cao e equivalente à independencia de X
1
, . . . , X
n
.
1
, . . . , X
n
) um vector aleat orio em R
n
com densidade de proba-
bilidade f
(X
1
,...,Xn)
. As vari aveis aleat orias reais X
1
, . . . , X
n
s ao independentes sse
f
(X
1
,...,Xn)
=
n
i=1
f
X
i
,
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
3 Independencia 53
onde f
X
i
denota a densidade de probabilidade da vari avel aleat oria X
i
. Alem disso,
se f
(X
1
,...,Xn)
=
n
i=1
g
i
, onde cada g
i
e uma densidade de probabilidade em R, ent ao
g
i
= f
X
i
, para i = 1, . . . , n, e as vari aveis aleat orias X
1
, . . . , X
n
s ao independentes.
Dem: 1) Se X
1
, . . . , X
n
sao independentes, o teorema de Fubini (ver AMI, 6.4) per-
mite concluir que P
(X
1
,...,Xn)
= (
n
i=1
f
X
i
)
n
, ou ainda, f
(X
1
,...,Xn)
=
n
i=1
f
X
i
. Re-
ciprocamente, e ainda pelo teorema de Fubini, se f
(X
1
,...,Xn)
=
n
i=1
f
X
i
, conclumos
que P
(X
1
,...,Xn)
=
n
i=1
P
X
i
, isto e, X
1
, . . . , X
n
sao independentes. 2) Se f
(X
1
,...,Xn)
=
n
i=1
g
i
, onde cada g
i
e uma densidade de probabilidade em R, entao, para i = 1, . . . , n
e x
i
R, f
X
i
(x
i
) =
_
R
n1
n
j=1
g
j
(x
j
)d
n1
= g(x
i
)
n
j=1
j=i
_
g(x
j
)d = g(x
i
). Assim,
f
(X
1
,...,Xn)
=
n
i=1
f
X
i
, o que pela primeira parte da demonstra cao e equivalente à
independencia das variaveis X
1
, . . . , X
n
.
Terminamos este paragrafo com uma caracteriza cao da independencia de dois vec-
tores aleatorios em termos de distribui coes condicionais.
Teorema 3.2.5 Sejam X e Y s ao vectores aleat orios com valores em (R
n
, B(R
n
)) e
(R
m
, B(R
m
)), respectivamente. X e Y s ao independentes sse P
Y
([X = x) e inde-
pendente de x, para P
X
-quase todo o ponto x. Neste caso P
Y
([X = x) = P
Y
, para
P
X
-quase todo o ponto x.
Dem: Basta ter em conta que, para A B(R
n
) e B B(R
m
), P
(X,Y )
(A B) =
_
A
P
Y
(B[X = x) dP
X
(x) e P
X
(A)P
Y
(B) =
_
A
P
Y
(B) dP
X
(x).
Exerccios
1. Dada uma famlia de acontecimentos aleatorios A
t
, t T, mostre que 1I
At
, t T, s ao
independentes sse os acontecimentos A
t
, t T, o forem.
2. Se X
t
: (, /, P) (E
t
, B
t
), com t T, sao variaveis aleatorias independentes, e f
t
:
(E
t
, B
t
) (F
t
, (
t
), sao aplica coes mensuraveis, mostre que f
t
X
t
, t T, sao tambem
variaveis aleatorias independentes.
3. Sejam X
1
, . . . , X
n
sao v.a. reais independentes, e m < n natural. Mostre que:
(a) Os vectores aleatorios (X
1
, . . . , X
m
) e (X
m+1
, . . . , X
n
), sao independentes;
(b)
m
i=1
X
i
e
n
i=m+1
X
i
sao v.a. independentes.
4. (Constru cao de v.a. independentes) Mostre que as variaveis aleatorias (X
n
) denidas
no Exerccio 2.1.2 sao independentes.
5. Dadas variaveis aleatorias X
i
: (
i
, /
i
, P
i
)(E
i
, B
i
), para i = 1, . . . , n, mostre que existe
um espa co de probabilidade (, /, P) e variaveis aleatorias independentes Y
i
: (, /, P)
(E
i
, B
i
), i = 1, . . . , n, tais que Y
i
X
i
para todo o i.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
6. Dada uma sucessao (X
n
) de v.a.r. identicamente distribudas, mostre que existem v.a.r.
Y
1
, Y
2
, . . . , Z
1
, Z
2
, . . ., denidas num mesmo espa co de probabilidade que satisfazem: a)
X
n
Y
n
Z
n
, para todo o n N; b) Y
1
, Y
2
, . . . , Z
1
, Z
2
, . . . sao independentes.
7. Mostre que o resultado expresso no exerccio anterior continua valido para uma qualquer
sucessao (X
n
) de v.a.r. nao necessariamente identicamente distribudas.
8. (Metodo de Box-Muller para simula cao de variaveis normais, II) Sejam R e as
variaveis aleatorias denidas no Exerccio 2.5.6. Mostre que X = Rcos e Y = Rsin ,
sao variaveis independentes com distribui coes normal standard.
3.3 Soma de variaveis aleatorias independentes
Se X e Y sao variaveis aleatorias com valores em R
d
, absolutamente contnuas e
independentes, isto e, se (X, Y ) e um vector com densidade (x, y)f
X
(x)f
Y
(y), vimos
no 2.5 que a soma X + Y e uma variavel absolutamente contnua cuja densidade e a
convolu cao das densidades f
X
e f
Y
, isto e,
f
X+Y
(x) = (f
X
f
Y
)(x) =
_
f
X
(x y)f
Y
(y)d(y).
No caso discreto e tambem possvel obter uma formula do tipo anterior. Com efeito,
se X e Y sao variaveis discretas e independentes com fun coes de probabilidade g
X
e
g
Y
, temos, para x R
d
,
g
X+Y
(x) =
yR
d
P(X +Y = x, Y = y)
=
yR
d
P(X = x y, Y = y)
=
yR
d
g
X
(x y)g
Y
(y)
=: (g
X
g
Y
)(x),
a que chamamos convolu cao das fun coes de probabilidade g
X
e g
Y
.
Se denotarmos agora por S
n
= X
1
+ . . . + X
n
, a soma de n variaveis aleatorias
independentes e identicamente distribudas, com densidade ou fun cao de probabilidade
comum f, a densidade ou fun cao de distribui cao f
Sn
de S
n
pode ser obtida por indu cao
a partir de f
S
n1
e de f, pois S
n
= S
n1
+X
n
, e S
n1
e X
n
sao independentes.
Nos casos seguintes e simples obter a distribui cao de S
n
pelo metodo anterior.
Exemplo 3.3.1 Se X
1
, . . . , X
n
sao v.a. independentes com X
i
N(0, 1), entao
f
Sn
(x) =
1
2n
e
x
2
/(2n)
, para x R.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
3 Independencia 55
-10 -5 5 10
0.05
0.1
0.15
0.2
0.25
n = 2
n = 4
n = 8
n = 20
Figura 4.1: Distribui cao da soma de n v.a. i.i.d. N(0, 1)
Exemplo 3.3.2 Se X
1
, . . . , X
n
i
B(p), entao
f
Sn
(x) =
_
_
n
x
_
p
x
(1 p)
nx
, se x 0, 1, . . . , n
0, caso contrario.
10 20 30 40 50 60 70 80
0.025
0.05
0.075
0.1
0.125
0.15
0.175
n = 20
n = 40
n = 80
n = 120
Figura 4.2: Distribui cao da soma de n v.a. i.i.d. B(1/3)
Exemplo 3.3.3 Se X
1
, . . . , X
n
i
E(), temos
f
Sn
(x) =
_
e
x
(x)
n1
(n1)!
, se x 0
0, se x < 0.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
10 20 30 40
0.05
0.1
0.15
0.2
n = 5
n = 10
n = 15
n = 20
n = 25
Figura 4.3: Distribui cao da soma de n v.a. i.i.d. E(1)
No primeiro exemplo S
n
N(0, n), enquanto que no segundo S
n
B(n, p), o que
seria de esperar atendendo à deni cao de distribui cao binomial. No ultimo exemplo,
dizemos que S
n
possui uma distribui cao de Erlang de parametros n e .
Exerccios
1. Estabele ca os resultados enunciados nos exemplos anteriores.
2. Se X
1
, . . . , X
n
sao v.a. independentes com distribui coes geometricas de parametro p,
mostre que S
n
= X
1
+. . . +X
n
verica S
n
Y +n, onde Y BN(n, p) (ver Exerccio
2.1.9).
3. Sejam X e Y independentes, e Z = X +Y . Determine a densidade de Z quando:
(a) X E() e Y E();
(b) X N(m
1
,
2
1
) e Y N(m
2
,
2
2
).
4. Dizemos que uma v.a.r. X tem uma distribui cao do qui-quadrado com n graus de
liberdade (n N), e escrevemos X
2
n
, se admite uma densidade de probabilidade da
forma
f(x) =
_
1
(n/2)2
n/2
x
n/21
e
x/2
, se x 0
0, se x < 0,
onde () =
_
0
x
1
e
x
dx, para > 0, e a fun cao Gamma. Mostre que se X
1
, X
2
, . . . , X
n
sao v.a. normais standard independentes, entao X
2
1
+X
2
2
+. . . +X
2
n

2
n
.
(Sugestao: Tenha em conta o Exerccio 2.3.6 e a igualdade
_
1
0
x
p1
(1x)
q1
dx =
(p)(q)
(p+q)
,
valida para p, q > 0.)
5. Sejam X
1
, . . . , X
n
v.a.r. independentes e Y
1
, . . . , Y
n
v.a.r. independentes, com X
i
Y
i
para i = 1, . . . , n. Mostre que
n
j=1
X
j

n
j=1
Y
j
. Verique que a hipotese de inde-
pendencia e essencial para a validade do resultado.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
3 Independencia 57
3.4 Leis zero-um de Borel e de Kolmogorov
Atendendo ao teorema de Borel-Cantelli ja nosso conhecido da disciplina de Medida
e Integra cao, sabemos que, sob certas condi coes sobre a sucessao de acontecimentos
(A
n
), o acontecimento A
n
i.o. = limsup A
n
, isto e, o acontecimento que se realiza
quando se realiza uma innidade de acontecimentos A
n
, tem probabilidade zero. Mais
precisamente:
Teorema 3.4.1 (de BorelCantelli
1
) Se os acontecimentos aleat orios A
n
, n 1,
satisfazem
n=1
P(A
n
) < +, ent ao P(A
n
i.o.) = 0.
No caso dos acontecimentos (A
n
) serem independentes este resultado pode ser pre-
cisado. Mostramos de seguida que a probabilidade do acontecimento A
n
i.o. so pode
tomar dois valores possveis: zero ou um.
Teorema 3.4.2 (Lei zero-um de Borel
2
) Se os acontecimentos aleat orios A
n
, n
1, s ao independentes ent ao
P(A
n
i.o.) =
_
0 sse
n=1
P(A
n
) < +
1 sse
n=1
P(A
n
) = +.
Dem: Pelo teorema de Borel-Cantelli, basta mostrar que
n=1
P(A
n
) = + implica
P(A
n
i.o.) = 1. Tal e equivalente a provar que P(
k=n
A
k
) = 1, para todo o n N.
Atendendo à independencia dos acontecimentos A
c
k
, k N, e à desigualdade 1 x
exp(x), valida para todo o x [0, 1], obtemos P(
k=n
A
c
k
) = limP(
m
k=n
A
c
k
) =
lim
m
k=n
P(A
c
k
) = lim
m
k=n
(1 P(A
k
)) lim
m
k=n
exp(
m
k=n
P(A
k
)) = exp(
k=n
P(A
k
)) = 0.
Como veremos de seguida, a propriedade exibida pelo acontecimento A
n
i.o. da sua
probabilidade so poder tomar dois valores, zero ou um, e partilhada por uma classe mais
vasta de acontecimentos aleatorios. Um tal resultado e conhecido como lei zero-um de
Kolmogorov.
Deni cao 3.4.3 Uma - algebra B /, diz-se P-trivial se P(A) = 0 ou P(A) = 1,
para todo o A B.
Claramente , e P-trivial para toda a probabilidade P.
Lema 3.4.4 Uma sub-- algebra B de / e P-trivial sse e independente de si pr opria.
1
Cantelli, F.P., Rend. Accad. Naz. Lincei., 26, 295302, 1917.
2
Borel, E, Rend. Circ. Mat. Palermo, 27, 247271, 1909.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Dem: Se B e independente de si propria, entao para todo o A B, P(A) = P(AA) =
P(A)P(A), ou seja, P(A) = 0 ou P(A) = 1. Reciprocamente, se B e P-trivial e A e B sao
elementos de B com P(A) = 0 ou P(B) = 0, entao P(A B) min(P(A), P(B)) = 0.
Se P(A) = P(B) = 1, sabemos que P(A B) = 1, para toda a probabilidade P. Em
ambos os casos, P(A B) = P(A)P(B).
Teorema 3.4.5 (Lei zero-um de Kolmogorov
3
) Sejam B
1
, B
2
, . . . sub-- algebras in-
dependentes de /, e B
a -algebra assintotica associada ` a sucess ao (B

n
), isto e,
B
n=1
(B
k
, k n).
Ent ao B
e P-trivial.
Dem: Consideremos n 2, e denotemos por B
n
a -algebra (B
k
, k n). Pelo
Teorema 3.1.5, as -algebras B
1
, B
2
, . . . , B
n1
, B
n
sao independentes, e por maioria
de razao, sao ainda independentes as -algebras B
1
, B
2
, . . . , B
n1
, B
pois B
B
n
.
Sendo n qualquer, isto signica que B
1
, B
2
, . . . , B
sao independentes, sendo, pelo

Teorema 3.1.5, tambem independentes as -algebras (B
k
, k 1) e B
. Finalmente,
como B
(B
k
, k 1), conclumos que B
e independente de si propria, ou seja,

que B
e P-trivial.
Teorema 3.4.6 Seja B uma sub-- algebra P-trivial de /. Uma vari avel aleat oria X
B-mensur avel com valores em (R, B(R)) e degenerada, isto e, X e P-q.c. constante.
Dem: Seja X B-mensuravel com valores em R. Como X
1
(] , x]) = X x B,
entao P(X x) = 0 ou 1, para todo o x R. Seja c = supx R : P(X x) = 0.
Se c = entao P(X x) = 1, para todo o x R, e assim P(X = ) =
limP(X n) = 1. Se c = +, entao P(X x) = 0, para todo o x R, e assim
P(X = +) = 1 limP(X n) = 1. Se c R, conclumos que P(X x) = 0, para
todo o x < c e P(X x) = 1, para todo o x > c. Consequentemente, P(X = c) =
P(X c) P(X < c) = limP(X c + 1/n) limP(X c 1/n) = 1 0 = 1.
Se X
1
, X
2
, . . . e uma sucess ao de variaveis aleatorias reais independentes, e
S
n
= X
1
+. . . +X
n
,
estudaremos mais à frente o comportamento assintotico das sucessoes
S
n
e S
n
/n.
3
Kolmogorov, A.N., Grundbegrie der Wahrscheinlichkeitrechnung, Berlin, 1933.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
3 Independencia 59
De acordo com o resultado seguinte, estas sucessoes ou convergem ou divergem quase
certamente, isto e, o conjunto dos pontos w onde convergem ou tem probabilidade
zero ou ou tem probabilidade um. Alem disso, sendo S
n
/n convergente, a variavel
aleatoria limite e quase certamente degenerada. Mais precisamente:
Corolario 3.4.7 Nas condic oes anteriores, se (a
n
) e uma sucess ao de n umeros reais
com a
n
+, ent ao:
a) S
n
e S
n
/a
n
convergem ou divergem quase certamente;
b) limsup S
n
/a
n
e liminf S
n
/a
n
, s ao quase certamente constantes.
Exerccios
1. Se A
n
, n 1, sao acontecimentos independentes e A
n
A, mostre que P(A) = 0 ou
P(A) = 1.
2. Sejam X
n
, n 1, variaveis de Bernoulli, com
P(X
n
= 1) = p
n
= 1 P(X
n
= 0), para n N.
(a) Mostre que limX
n
= 0 = (limsup A
n
)
c
, onde A
n
= X
1
n
(1) para n N.
(b) Conclua que P(limX
n
= 0) = 1 se
n=1
p
n
< +.
(c) Se X
n
, n 1 sao independentes, mostre que P(limX
n
= 0) = 1 sse
n=1
p
n
< +.
3.5 Bibliograa
Williams, D. (1991). Probability with Martingales, Cambridge University Press.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Captulo 4
Integracao de variaveis aleatorias
Esperanca matem atica duma vari avel aleat oria real e suas principais propriedades. Mo-
mentos duma vari avel aleat oria real. Par ametros de dispers ao e de forma. Desigual-
dade de Markov e suas consequencias. Covari ancia e correlac ao. Integrac ao de vectores
aleat orios.
4.1 Esperanca matematica
Introduzimos neste paragrafo o primeiro dos parametros de resumo da distribui cao
de probabilidade duma variavel aleatoria real X de que falaremos neste captulo. Para
motivar a deni cao que dele apresentaremos, suponhamos, em primeiro lugar, que X
e uma variavel discreta que toma os valores x
1
, . . . , x
n
com probabilidades p
1
, . . . , p
n
,
onde p
1
+ . . . + p
n
= 1. Pretendendo resumir a distribui cao de probabilidade de X
atraves dum parametro que descreva o centro duma tal distribui cao, e natural recor-
rer à analogia deste problema com o da deni cao do centro de massa dum sistema
discreto de pontos materiais com massas p
i
em x
i
. Somos assim levados a denir um
tal parametro por
n
i=1
x
i
p
i
. No caso de X ser absolutamente contnua com densi-
dade de probabilidade f, vale o mesmo tipo de analogia, sendo natural denir um
tal parametro de resumo por
_
xf(x)dx, isto e, como o centro de massa dum sistema
contnuo de pontos materiais com densidade de massa f(x) em x.
Lan cando mao da no cao de integral duma fun cao real relativamente a uma medida
(ver AMI, 4.14.3), as duas formulas anteriores podem ser escritas de forma unicada
como o integral da fun cao identidade relativamente a P
X
,
_
xdP
X
(x),
onde (, /, P) e o espa co de probabilidade onde admitimos que X esta denida, ou
ainda, pelo teorema da mudan ca de variavel (ver AMI, 7.2), como o integral de X
61
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
relativamente à medida de probabilidade P,
_
XdP.
No contexto das probabilidades o integral anterior e denominado e denotado duma
forma especial.
Deni cao 4.1.1 Chamamos esperan ca matem atica (tambem dita valor medio,
valor esperado ou media) da vari avel aleat oria real X, que denotamos por E(X), ao
integral
E(X) =
_
XdP,
sempre que este integral exista.
Pelas razoes ja avan cadas, dizemos que a esperan ca matematica, como parametro
de resumo da distribui cao de probabilidade duma variavel aleatoria, e um parametro
de localiza cao.
Recordemos, que se X e uma variavel aleatoria com valores em ([0, +], B([0, +])),
sabemos que o integral de X relativamente à medida de probabilidade P e um elemento
de [0, +]. Se X toma valores em (R, B(R)), X admite a decomposi cao X = X
+
X
,
onde X
+
= X 0 e X
= X 0, sao ditas parte positiva e parte negativa de X,

respectivamente. Tal decomposi cao permite generalizar a no cao de integral a X atraves
da formula
_
XdP =
_
X
+
dP
_
X
dP,
sempre que
_
X
+
dP < + ou
_
X
dP < +. Se alem disso

_
XdP < , dizemos
que X e P-integravel, ou simplesmente que X e integravel.
Claramente, a esperan ca matematica existe quando e so quando uma das variaveis
X
+
ou X
for integravel, e existe e e nita quando e so quando X for integravel.

Mostramos a seguir que a esperan ca matematica duma fun cao mensuravel de X
depende unicamente dessa fun cao e da distribui cao de probabilidade de X. Em par-
ticular, a esperan ca matematica duma variavel aleatoria real depende apenas da sua
distribui cao de probabilidade.
Teorema 4.1.2 Se X e uma vari avel aleat oria com valores em (E, B) e g e uma
aplicac ao mensur avel de (E, B) em (R, B(R)), ent ao E(g(X)) existe sse
_
g dP
X
existe
e nesse caso
E(g(X)) =
_
g(x) dP
X
(x).
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
4 Integrac ao de vari aveis aleat orias 63
Dem: Se g e nao-negativa, pelo teorema da mudan ca de variavel (ver AMI, 7.2) ob-
temos E(g(X)) =
_
g(X)dP =
_
g XdP =
_
gd(PX
1
) =
_
gdP
X
. Sendo g qualquer,
basta considerar a decomposi c ao g = g
+
g
e ter em conta que (g X)

+
= g
+
(X)
e (g X)
= g
(X). (Apresente uma demonstra cao alternativa usando a Proposi cao

2.1.4.)
No caso de X ser uma variavel aleatoria em R
d
discreta ou absolutamente contnua
(mais precisamente se P
X
nao tem parte singular), o resultado anterior permite obter
formulas para o calculo de E(g(X)). Assim, se X e discreta com P
X
=
i=1
p
i
x
i
,
onde p
i
= P(X = x
i
), entao
E(g(X)) =
i=1
p
i
_
g(x)d
x
i
(x) =
i=1
p
i
g(x
i
).
Se X e absolutamente contnua com densidade f, entao
E(g(X)) =
_
g(x)dP
X
(x) =
_
g(x)f(x)d(x).
As propriedades que a seguir enunciamos sao consequencia imediata das proprieda-
des do integral.
Teorema 4.1.3 Sejam X e Y vari aveis aleat orias reais denidas num mesmo espa co
de probabilidade.
a) X e integr avel sse [X[ e integr avel, e nesse caso [E(X)[ E([X[).
b) Se X e Y s ao integr aveis, e , R, ent ao X+Y e integr avel e E(X+Y ) =
E(X) +E(Y ).
c) Se [X[ Y , com Y integr avel ent ao X e integr avel.
d) Se [X[ M, q.c., com M > 0, ent ao X e integr avel. Alem disso, se X = a,
q.c., com a R, ent ao E(X) = a.
O resultado seguinte permite simplicar o calculo da esperan ca matematica, no caso
das variaveis aleatorias integraveis e simetricas.
Teorema 4.1.4 Se X e integr avel e simetrica relativamente a a R, isto e, se Xa
(X a), ent ao E(X) = a.
Dem: Atendendo a que a esperan ca matematica duma variavel aleatoria real depende
apenas da sua distribui cao de probabilidade, conclumos que E(Xa) = E((Xa)),
ou ainda, E(X) = a.
Se X e discreta com fun cao de probabilidade simetrica relativamente a a, ou abso-
lutamente contnua com densidade de probabilidade simetrica relativamente a a, entao
X e claramente simetrica relativamente a a.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Notemos que a hipotese de integrabilidade e essencial para a validade do resul-
tado anterior. Por exemplo, se X e uma variavel aleatoria de Cauchy com densidade
f(x) = ((1 + x
2
))
1
, para x R, X e simetrica relativamente à origem e no entanto
X nao possui esperan ca matematica. Com efeito,
_
(x0)dP
X
(x) =
_
(x0)dP
X
(x) =
_
[0,+[
x
(1+x
2
)
d(x) =
2
lim
_
n
0
2x
1+x
2
d(x) =
2
lim
_
n
0
2x
1+x
2
dx (integral de Riemann) =
2
limln(1 +n
2
) = +.
Apresentamos agora alguns exemplos de calculo da esperanca matematica.
Exemplos 4.1.5 1. Se X e uma variavel de Bernoulli de parametro p, entao E(X) =
0 (1 p) + 1 p = p.
2. Se X e uma variavel de Poisson de parametro , temos E(X) =
n=0
ne
n
/n! = e
n=0

n
/n! = .
3. Se X e uma v.a. normal de parametros m e
2
, entao E(X) = m. Para jus-
ticarmos esta arma cao, e tendo em conta que X U + m, com U N(0, 1),
basta mostrar que E(U) = 0, ou ainda, atendendo à simetria de U relativamente à
origem, que U e integravel. Tal e verdade, pois tomando M > 0 tal que x e
x
,
para x M, obtemos E([U[) =
_
R
[u[f
U
(u)d(u) =
2
2
_
[0,+[
ue
u
2
/2
d(u) M +
2
2
_
[M,+[
e
u
2
/2+u
d(u) = M +
2e
1/2
2
_
[M,+[
e
(u1)
2
/2
d(u) M +e
1/2
< +.
Exerccios
1. Suponhamos que lan camos sucessivamente uma moeda equilibrada e seja X o n umero de
lan camentos efectuados ate ocorrer a primeira cara. Determine a distribui cao de X, bem
como o n umero medio de lan camentos necessarios para obter a primeira cara.
2. Para cada uma das seguintes v.a. calcule a respectiva esperan ca matematica:
(a) Binomial de parametro n e p.
(b) Geometrica de parametro p.
(c) Exponencial de parametro .
(d) Uniforme sobre o intervalo [a, b].
3. Deduza uma formula que lhe permita calcular a esperan ca matematica duma vari avel
aleatoria Y , a partir das densidades f
Y
([X = ) e f
X
, e aplique-a ao calculo da esperan ca
matematica da v.a. Y denida no Exerccio 2.6.3.
4. No casino de Monte Carlo a roda da roleta possui 37 divisoes iguais, numeradas de 0
a 36, podendo um jogador apostar um euro num dos n umeros com excep cao do 0. Ele
recebe 36 euros se a bola para nesse n umero, obtendo assim ganho lquido de 35 euros, e
perde o que apostou caso contrario. Qual e o seu ganho (lquido) medio? Um jogo que
decorre em varias partidas identicas diz-se justo (no sentido classico), se o nosso ganho
lquido medio for nulo, ou de forma equivalente, se o valor que pagamos para jogar cada
uma das partidas (aposta), for igual ao nosso de ganho ilquido medio. Caso contr ario,
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
dizemos que o jogo nos e favoravel ou desfavoravel, consoante o nosso ganho lquido
medio for positivo ou negativo, respectivamente. Para que valor da aposta e o jogo da
roleta justo?
5. (Paradoxo de Sao Petersburgo
1
) Pedro joga contra Paulo, e pagara a este uma
quantia que depende do resultado duma serie de lan camentos duma moeda equilibrada:
se ocorre coroa nos n1 primeiros lan camentos e cara no n-esimo lan camento, Paulo
recebe 2
n
euros. Por sua vez, Paulo pagara inicialmente uma quantia Q a Pedro. Dever a
o Paulo aceitar pagar 15 euros por partida para jogar? Verique que independentemente
do valor Q pago pelo Paulo, o seu ganho medio lquido por partida e superior a Q. Ser a
possvel determinar Q de modo que o jogo seja justo? Simule este jogo num computador
e ensaie uma resposta à pergunta anterior com base unicamente nessa simula cao.
4.2 Momentos
Da disciplina de Medida e Integra cao conhecemos os espa cos vectoriais L
p
(, /, P),
com 0 < p < +, das variaveis aleatorias reais X de potencia p integravel, isto e, tais
que E[X[
p
< + (cf. AMI, 5.2). Identicando variaveis aleatorias que coincidem a
menos dum conjunto de probabilidade P nula, obtemos os espa cos L
p
(, /, P), que sao
espa cos de Banach para a norma [[X[[
p
= E
1/p
[X[
p
se p 1, e sao espa cos metricos
com distancia d(X, Y ) = [[X Y [[
p
p
, para 0 < p < 1. Para 0 < p < q < + sabemos
tambem que L
q
L
p
.
A par da esperan ca matematica que estudamos no paragrafo anterior e que denimos
para toda a variavel aleatoria de L
1
, denimos neste paragrafo outros parametros de
resumo da distribui cao de probabilidade duma variavel aleatoria que tem um papel
importante no seu estudo.
Deni cao 4.2.1 Sejam p N e X L
p
. Chamamos momento de ordem p de X
a E(X
p
), e momento centrado de ordem p de X a
p
= E(X E(X))
p
.
Atendendo à desigualdade de Holder (cf. AMI, 5.3), para p q, e valida a desi-
gualdade
1/p
p

1/q
q
.
Como parametros de resumo da distribui cao de probabilidade duma variavel aleato-
ria, particular interesse tem para nos o momento de primeira ordem, ja estudado no
paragrafo anterior, e o momento centrado de segunda ordem. Este ultimo, por razoes
que decorrem da sua deni cao e um parametro de dispersao (em torno da media) da
distribui cao de probabilidade duma variavel aleatoria.
1
Este jogo conceptual foi pela primeira vez estudado por Nicolaus Bernoulli, que o discute com
Montmort numa troca de correspondencia entre 1713 e 1716. O jogo torna-se conhecido atraves dum
artigo de Daniel Bernoulli, primo de Nicolaus, publicado na revista da Academia Imperial de Ciencias
de Sao Petersburgo em 1738.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Deni cao 4.2.2 Se X L
2
, chamamos vari ancia de X, que denotamos por Var(X),
ao seu momento centrado de segunda ordem, Var(X) = E(X E(X))
2
. A (X) =
_
Var(X), chamamos desvio-padr ao de X.
As demonstra coes das propriedades da variancia expressas nas proposi coes seguintes
sao deixadas ao cuidado do aluno.
Proposi cao 4.2.3 Se X L
2
, ent ao Var(X) = 0 sse X e quase certamente constante.
Proposi cao 4.2.4 Se X L
2
e a, b R, ent ao:
a) Var(X) = E(X
2
) E
2
(X);
b) Var(aX +b) = a
2
Var(X).
As formulas anteriores sao de grande utilidade no calculo da variancia. Para as
variaveis aleatorias consideradas nos Exemplos 4.1.5, efectuamos agora o calculo da
sua variancia.
Exemplos 4.2.5 1. Se X e uma variavel de Bernoulli de parametro p, entao E(X
2
) =
0 (1 p) + 1 p = p, e portanto Var(X) = p p
2
= p(1 p).
2. Se X e uma variavel de Poisson de parametro , comecemos por efectuar o
calculo de E(X(X1)) =
n=0
n(n1)e
n
/n! =
2
e
n=2

n2
/(n2)! =
2
.
Assim, Var(X) = .
3. Se X N(m,
2
), sabemos que X U + m, com U N(0, 1), e portanto
Var(X) = Var(U + m) =
2
Var(U) =
2
E(U
2
), pois E(U) = 0. Finalmente, inte-
grando por partes, obtemos E(U
2
) =
_
x
2 1
2
e
x
2
/2
d(x) =
_
1
2
e
x
2
/2
d(x) = 1,
donde Var(X) =
2
(ver Figura 1.1). Em particular conclumos que a variavel normal
de parametros 0 e 1 tem media zero e variancia unitaria. Toda a variavel aleatoria com
esta propriedade diz-se centrada e reduzida.
Terminamos este paragrafo fazendo referencia a outros dois parametros de resumo
da distribui cao de probabilidade duma variavel aleatoria que nos dao indica cao sobre
a forma da distribui cao de X. Sao por isso ditos parametros de forma.
3
chamamos coeciente de assimetria de X a
1
=
3
/
3/2
2
. Se X L
4
chamamos coeciente de achatamento de X a
2
=
4
/
2
2
.
Notemos que se X L
3
e simetrica relativamente a a R, entao
1
= 0. Se
1
> 0 dizemos que X tem assimetria positiva, e se
1
< 0 dizemos que X tem
assimetria negativa. O coeciente de achatamento que traduz o peso nas caudas
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
da distribui cao de X e habitualmente comparado com o da distribui cao normal para a
qual
2
= 3.
-4 -2 2 4
0.1
0.2
0.3
0.4
0.5
-4 -2 2 4
0.05
0.1
0.15
0.2
0.25
0.3
-4 -2 2 4
0.1
0.2
0.3
0.4
-4 -2 2 4
0.1
0.2
0.3
0.4
0.5
0.6
0.7

2
0.65
3
0.76
4
2.53
1
1.47
2
6.06
N(0, 1)
2
= 1
3
= 0
4
= 3
1
= 0
2
= 3
2
1.44
3
= 0
4
4.26
1
= 0
2
2.04
2
1.04
3
1.06
4
4.33
1
1
2
4
Figura 3.1
Exerccios
1. Se X e uma variavel de quadrado integravel com media m e variancia
2
> 0, mostre
que U = (X m)/ e uma v.a. centrada e reduzida.
2. Para cada uma das seguintes v.a. calcule a variancia respectiva:
(a) Geometrica de parametro p.
(b) Uniforme sobre o intervalo [a, b].
3. Seja Y a v.a. denida no Exerccio 2.6.2. Sem explicitar a distribui cao de Y , calcule E(Y )
e Var(Y ).
4. Se X e uma v.a.r. de quadrado integravel, mostre que E(X) e a v.a. constante que melhor
aproxima X no sentido de L
2
, isto e,
a R, E(X E(X))
2
E(X a)
2
.
5. Se X N(m,
2
), mostre que X L
p
para todo o p 1.
6. Seja X uma v.a.r. absolutamente contnua com densidade de probabilidade
f(x) =
_
_
_
1
2 x
exp
_
(ln x m)
2
2
2
_
, se x > 0
0 , se x 0,
onde m R e > 0. Dizemos neste caso que X segue uma distribui cao log-normal de
parametros m e , e escrevemos X LN(m, ).
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
(a) Para c > 0 e > 0, mostre que cX
LN(ln c +m, ).
(b) Prove que E(X) = exp(m +
2
/2).
(c) Utilizando as alneas anteriores, calcule os momentos de ordem k, k N, e a
variancia de X.
7. (a) (Desigualdade de Bienayme-Tchebychev
2
) Mostre que se X e uma vari avel
aleatoria real integravel, entao para todo o > 0,
P([X E(X)[ )
Var(X)
2
.
(Sugestao: Comece por vericar que 1I
{|XE(X)|}
(X E(X))
2
/
2
.)
(b) Mostre que a desigualdade anterior e optima no sentido em que para qualquer > 0,
existe uma variavel aleatoria X que verica a igualdade.
(c) Conclua que para qualquer variavel aleatoria de quadrado integravel, a probabi-
lidade do seu desvio relativamente à media ser superior ou igual a k vezes o seu
desvio-padrao, nao e superior a 1/k
2
(se k = 3 obtemos 1/k
2
= 0.111 . . ., e para
k = 5 obtemos 1/k
2
= 0.04).
4.3 Covariancia e correlacao
Se (X, Y ) e um vector aleatorio em R
2
, os parametros de resumo das distribui coes de
X e de Y que estudamos no paragrafo anterior, sao tambem parametros de resumo da
distribui cao de (X, Y ). Contrariamente a tais parametros que incidem unicamente so-
bre as distribui coes marginais do vector, vamos neste paragrafo estudar um parametro
de resumo da distribui cao de (X, Y ) que, como veremos, nos da uma medida da de-
pendencia linear (am) entre as variaveis X e Y .
Para tal vamos lan car mao das propriedades particulares do espa co de Banach
L
2
(, /, P). Este espa co vectorial, e um espa co com produto interno denido por
X, Y ) = E(XY ). Como [[X[[
2
=
_
X, X), dizemos que L
2
e um espa co de Hil-
bert. Sabemos tambem que em L
2
e valida a propriedade seguinte conhecida como
desigualdade de Cauchy-Schwarz:
Teorema 4.3.1 Se X, Y L
2
ent ao [E(XY )[
_
E(X
2
)
_
E(Y
2
). Alem disso, tem-
se a igualdade sse X e Y s ao linearmente dependentes.
Sempre que X e Y nao sejam constantes, a quantidade E(XY )/
_
E(X
2
)
_
E(Y
2
)
[1, 1] surge assim como uma medida natural da dependencia linear entre X e Y . Se
pretendemos avaliar nao so a dependencia linear mas tambem a dependencia am, o
coeciente anterior deixa de ser indicado para o efeito.
2
Bienayme, I.-J., C. R. Acad. Sci. Paris, 37, 309324, 1853.
2
Tchebychev, P.L., J. Math. Pures et Appl., Ser. 2, 12, 177184, 1867.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Deni cao 4.3.2 Se X, Y L
2
, chamamos covari ancia de (X, Y ) ao n umero real
Cov(X, Y ) = E((X E(X))(Y E(Y ))).
Se alem disso X e Y s ao de vari ancia n ao-nula, chamamos coeciente de correla c ao
de (X, Y ) ao n umero do intervalo [1, 1] dado por
(X, Y ) =
Cov(X, Y )
(X)(Y )
.
Notemos que se X, Y L
2
, entao Cov(X, Y ) = E(XY ) E(X)E(Y ) e Var(X) =
Cov(X, X). Alem disso, Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ). O calculo
anterior da variancia da soma simplica-se se XE(X) e Y E(Y ) sao ortogonais (no
sentido do produto interno de L
2
), uma vez que neste caso Cov(X, Y ) = 0. Dizemos
entao que X e Y sao nao-correlacionadas. Neste caso Var(X + Y ) = Var(X) +
Var(Y ). A generaliza cao das duas igualdades anteriores à soma dum n umero nito
de variaveis X
1
, . . . , X
n
L
2
, e simples, obtendo-se Var(
n
i=1
X
i
) =
n
i=1
Var(X
i
) +
2
1i<jn
Cov(X
i
, X
j
), e tambem, Var(
n
i=1
X
i
) =
n
i=1
Var(X
i
), se as variaveis sao
duas a duas nao-correlacionadas.
Do resultado seguinte conclumos que duas variaveis reais independentes sao, em
particular, nao-correlacionadas. Reparemos ainda que a integrabilidade do produto de
duas variaveis independentes e consequencia da integrabilidade de cada um dos factores.
Teorema 4.3.3 Se X e Y s ao vari aveis aleat orias reais integr aveis e independentes,
ent ao XY e integr avel e E(XY ) = E(X)E(Y ).
Dem: Sejam entao X e Y variaveis aleatorias reais integraveis e comecemos por mos-
trar que XY e ainda integravel. Com efeito, pelo teorema de Fubini, E([XY [) =
_
[xy[ dP
(X,Y )
=
_
[xy[ dP
X
P
Y
=
_
[x[[y[ dP
X
dP
Y
=
_
[x[ dP
X
_
[y[ dP
Y
< +.
Utilizando os mesmos argumentos obtemos E(XY ) = E(X)E(Y ).
Terminamos este paragrafo estabelecendo um resultado que refor ca a interpreta cao
do coeciente de correla cao entre duas variaveis aleatorias, como uma medida da de-
pendencia am entre essas variaveis.
Teorema 4.3.4 Se X, Y L
2
s ao de vari ancia n ao-nula, ent ao:
a) (aX +c, bY +c) = (X, Y ), para a, b > 0 e c R;
b) (X, aX +b) = a/[a[, para a ,= 0 e b R;
c) (X, Y ) = 1 sse existem a, b, c R, com ab ,= 0, tais que
aX +bY +c = 0, P-q.c.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Dem: As duas primeiras alneas obtem-se directamente da deni cao de . Para estabe-
lecer c), consideremos a variavel aleatoria Z = Y/(Y ) X(X, Y )/(X) que satisfaz
2
(Z) = 1
2
(X, Y ). Basta agora usar a alnea b) e a Proposi cao 4.2.3.
Exerccios
1. Mostre que a covariancia e uma fun cao bilinear, isto e, se X
1
, . . . , X
n
, Y
1
, . . . , Y
m
s ao
variaveis de quadrado integravel e a
1
, . . . , a
n
, b
1
, . . . , b
m
n umeros reais, entao
Cov
_
n
i=1
a
i
X
i
,
m
j=1
b
j
Y
j
_
=
n
i=1
m
j=1
a
i
b
j
Cov(X
i
, Y
j
).
2. Mostre que se X
1
, . . . , X
n
sao variaveis aleatorias reais integraveis e independentes, ent ao
n
i=1
X
i
e integravel e E
_
n
i=1
X
i
_
=
n
i=1
E(X
i
).
3. Verique que o coeciente de correla cao pode ser igual a 0 para variaveis nao necessa-
riamente independentes. Para tal considere X em L
3
simetrica relativamente à origem e
Y = X
2
.
4.4 Integracao de vectores aleatorios
As no coes de integra cao de variaveis aleatorias que ate agora estudamos, podem
ser extendidas de forma natural ao caso dos vectores aleatorios. No que se segue,
denotaremos por [[ [[ a norma euclideana de R
d
.
Deni cao 4.4.1 Um vector aleat orio X = (X
1
, . . . , X
d
) com valores em (R
d
, B(R
d
))
diz-se integr avel se E[[X[[ < +. Nesse caso, chamamos esperan ca matem atica
de X ao vector de R
d
dado por
E(X) = (E(X
1
), . . . , E(X
d
)).
Claramente, a no cao de integrabilidade nao depende da norma considerada ser a
euclideana. Alem disso, X e integravel sse [[X[[ e integravel, ou ainda, sse cada uma
das variaveis aleatorias X
i
, i = 1, . . . , d, e integravel.
Para 0 < p < +, podemos denir o espa co vectorial real dos vectores aleatorios
X com valores em R
d
de potencia p integravel, isto e, tais que E[[X[[
p
< +. Um
tal conjunto e denotado por L
p
(, /, P, R
d
), ou simplesmente por L
p
. Claramente, a
aplica cao XE(X), de L
1
em R
d
, e uma aplica cao linear.
A par da esperan ca matematica, a no cao que a seguir introduzimos e um dos
parametros de resumo duma distribui cao de probabilidade mais utilizados no caso mul-
tidimensional.

E a generaliza cao natural a este contexto, da no cao real de variancia.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
2
, chamamos matriz de covari ancia de X = (X
1
, . . . , X
d
)
(dita tambem matriz de dispers ao ou de vari ancia-covari ancia) ` a matriz
C
X
= [Cov(X
i
, X
j
)]
1i,jd
.
A matriz de covariancia e simetrica e semi-denida positiva, pois Var(
d
i=1
i
X
i
) =
T
C
X
, para todo o R
d
.
Da alnea c) do Teorema 4.3.4 sabemos que a matriz de covariancia C
(X,Y )
dum
vector aleatorio em R
2
nos da informa cao sobre o tipo de distribui cao de (X, Y ). Mais
precisamente, sabemos que se C
(X,Y )
possui caracterstica 1 entao a distribui cao de
(X, Y ) esta concentrada numa recta, nao sendo, por isso, absolutamente contnua.
Generalizamos a seguir este resultado ao caso dum vector aleatorio em R
d
:
Teorema 4.4.3 Sejam X um ve.a. em R
d
de quadrado integr avel e C
X
a sua matriz
de covari ancia. Se car(C
X
) = r, ent ao a distribuic ao de X est a concentrada num
subespa co am de R
d
de dimens ao r.
Exerccios
1. Seja U = (X, Y ) o ve.a. denido no Exemplo 2.1.9. Calcule E(U) e C
U
.
2. Sejam A uma matriz real de tipo n m e b um vector em R
n
. Se X e um ve.a. em R
m
de quadrado integravel, mostre que a esperan ca matematica e a matriz de covariancia de
X e AX +b se encontram relacionadas da seguinte forma:
E(AX +b) = AE(X) +b e C
AX+b
= AC
X
A
T
.
3. Demonstre o Teorema 4.4.3. Conclua que no caso em que car(C
X
) = d, X pode ser ou
nao absolutamente contnuo.
4.5 Bibliograa
Masson.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Parte II
Leis dos grandes n umeros
73
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Captulo 5
Convergencias funcionais de
variaveis aleatorias
Convergencia quase certa, em probabilidade e em media de ordem p duma sucess ao de
vari aveis aleat orias. Rela c oes entre os diversos modos de convergencia. Principais pro-
priedades e caracterizac oes. Teorema da convergencia dominada em L
p
. Convergencias
funcionais de vectores aleat orios.
5.1 Convergencia quase certa
Neste captulo X, X
1
, X
2
, . . . representam variaveis aleatorias reais denidas sobre
um mesmo espa co de probabilidade (, /, P).
Deni cao 5.1.1 Dizemos que (X
n
) converge para X quase certamente, e escre-
vemos X
n
qc
X, se
P( : limX
n
() = X()) = 1.
Dizer que a sucessao (X
n
) converge para X quase certamente e assim dizer que a
menos dum conjunto com probabilidade nula, a sucessao (X
n
) converge pontualmente
para X. Por outras palavras, existe N /, com P(N) = 0, tal que limX
n
() = X(),
para todo o N
c
.
Das propriedades dos conjuntos de probabilidade nula, vericamos assim que as
propriedades da convergencia quase certa duma sucessao de variaveis aleatorias sao
essencialmente iguais às da convergencia pontual. Uma das excep coes e o da nao unici-
dade do limite quase certo. No entanto, mesmo esta propriedade pode ser recuperada
atraves da identica cao de variaveis aleatorias que coincidem a menos dum conjunto
de probabilidade nula, isto e, identicando variaveis quase certamente iguais.
75
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Proposi cao 5.1.2 Se X
n
qc
X e X
n
qc
Y , ent ao X = Y q.c..
No resultado seguinte apresentamos uma caracteriza cao da convergencia quase certa
bastante util quando pretendemos estabelecer a existencia do limite quase certo.
n
) uma sucess ao de vari aveis aleat orias reais. As condi c oes
seguintes s ao equivalentes:
(i) X
n
qc
X, para alguma variavel aleatoria real X;
(ii) (X
n
) e de Cauchy quase certamente, isto e,
sup
n,mk
[X
n
X
m
[
qc
0, k+.
Dem: A implica cao (i) (ii) e obvia. Estabele camos a implica cao recproca. Sendo
(X
n
) de Cauchy quase certamente, conclumos que existe N / com P(N) = 0 tal
que para todo o w N
c
a sucessao (X
n
()) e de Cauchy em R. Denindo X() =
limX
n
(), para N
c
e X() = 0, para N, temos claramente X
n
qc
X.
Exerccios
1. Sendo f uma fun cao contnua real de variavel real, prove que se X
n
qc
X, ent ao
f(X
n
)
qc
f(X).
2. Mostre que as seguintes condi coes sao equivalentes:
(i) X
n
qc
X;
(ii) > 0 P
_
k=1
n=k
[X
n
X[
_
= 0;
(iii) > 0 P
_
n=k
[X
n
X[
_
0, k+.
3. Diz-se que uma sucessao (X
n
) de v.a.r. converge quase completamente para uma v.a.r.
X quando
n=1
P([X
n
X[ ) < +, para todo o > 0.
(a) Prove que a convergencia quase completa implica a convergencia quase certa.
(b) Mostre que se as variaveis (X
n
) sao independentes, as convergencias quase certa e
quase completa sao equivalentes.
(Sugestao: Use a lei zero-um de Borel.)
5.2 Convergencia em probabilidade
Deni cao 5.2.1 Dizemos que (X
n
) converge para X em probabilidade, e escre-
vemos X
n
p
X, se
> 0 P( : [X
n
() X()[ )0.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
5 Convergencias funcionais de vari aveis aleat orias 77
Tal como para a convergencia quase certa, se X e Y sao limite em probabilidade
duma sucessao de variaveis aleatorias entao X e Y coincidem a menos dum conjunto
com probabilidade nula.
Comecemos por relacionar este modo de convergencia com a convergencia quase
certa introduzida no paragrafo anterior.
Teorema 5.2.2 Se X
n
qc
X, ent ao X
n
p
X.
Dem: Tendo em conta a inclus ao : limX
n
() = X()
nN
kn
x : [X
k
()
X()[ < , valida para todo o > 0, obtemos, por hipotese, P(
nN
kn
:
[X
k
() X()[ < ) = 1, ou ainda, limP(
kn
x : [X
k
() X()[ < ) = 1. Assim
limP( : [X
n
() X()[ < ) = 1, o que permite concluir.
Apresentamos a seguir duas caracteriza coes importantes da convergencia em proba-
bilidade. A segunda delas permite utilizar no estudo da convergencia em probabilidade
resultados da convergencia quase certa.
n
) uma sucess ao de vari aveis aleat orias reais. As condi c oes
seguintes s ao equivalentes:
(i) X
n
p
(ii) (X
n
) e de Cauchy em probabilidade, isto e,
> 0 sup
n,mk
P([X
n
X
m
[ )0, k+.
Dem: A implica cao (i) (ii) e consequencia imediata da inclusao [X
n
X
m
[
[X
n
X[ /2[X
m
X[ /2. Para estabelecer a implica cao recproca, comece-
mos por mostrar que sendo (X
n
) de Cauchy em probabilidade existe uma subsucessao
(X
n
k
) que e de Cauchy quase certamente. Com efeito, sendo (X
n
) de Cauchy em proba-
bilidade, existe uma subsucessao (n
k
) de (n) tal que P([X
n
k+1
X
n
k
[ 2
k
) < 2
k
,
para todo o k N. Pelo teorema de Borel-Cantelli conclumos que P(N) = 0, onde
N = limsup[X
n
k+1
X
n
k
[ 2
k
. Dado N
c
, existe assim N tal que
[X
n
k+1
() X
n
k
()[ < 2
k
, para todo o k . Tomando agora r > s obtemos
[X
nr
() X
ns
()[
r1
j=s
[X
n
j+1
() X
n
j
()[ < 2
+1
, o que prova que (X
n
k
) que e
de Cauchy quase certamente. Finalmente, sendo X a variavel aleatoria real que satisfaz
X
n
k
qc
X, cuja existencia e assegurada pelo Teorema 5.1.3, e usando uma vez mais o
facto de (X
n
) ser de Cauchy em probabilidade, conclumos que X
n
p
X.
Teorema 5.2.4 X
n
p
X sse toda a subsucess ao de (X
n
) possui uma subsucess ao que
converge quase certamente para X.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Dem: Se X
n
p
X, como toda a subsucessao de (X
n
) converge em probabilidade para
X, basta provar que existe uma subsucessao de (X
n
) que converge quase certamente
para X. Tal facto e uma consequencia de (X
n
) ser de Cauchy em probabilidade e
do teorema anterior. Reciprocamente, suponhamos que toda a subsucessao de (X
n
)
possui uma subsucessao que converge quase certamente para X. Dado > 0, qualquer,
pretendemos provar que a sucessao x
n
= P([X
n
X[ ), converge para zero. Para tal
basta provar que toda a sua subsucessao admite uma subsucessao que converge para
zero. Seja entao (x
n
) uma qualquer subsucessao de (x
n
). Por hipotese, a subsucessao
(X
n
) de (X
n
) admite uma subsucessao (X
n
) que converge quase certamente, e por
maioria de razao em probabilidade, para X. Assim, P([X
n
X[ ) 0, ou seja,
x
n
0.
Terminamos este paragrafo com uma caracteriza cao da convergencia quase certa
que nos sera muito util no proximo captulo.
Teorema 5.2.5 (X
n
) converge quase certamente sse sup
j1
[X
n+j
X
n
[
p
0.
Dem: Consequencia do Teorema 5.1.3 e do Exerccio 5.2.4.
Exerccios
1. Se X
n
p
X e X
n
p
Y , entao X = Y q.c..
2. Considere a sucessao (X
n
) denida em ([0, 1[, B([0, 1[), ) por X
n
= 1I
[
k
2
m,
k+1
2
m [
, se n =
2
m
+ k com m = 0, 1, 2, . . . e k 0, 1, . . . , 2
m
1. Mostre que X
n
converge em proba-
bilidade para a v.a. nula, mas nao quase certamente.
3. Sendo f uma fun cao real de variavel real contnua, prove que se X
n
p
X, ent ao
f(X
n
)
p
f(X).
(Sugestao: Use o Teorema 5.2.4.)
4. Seja (X
n
) uma sucessao monotona de v.a. reais. Mostre que X
n
p
X sse X
n
qc
X.
5.3 Convergencia em media de ordem p
Deni cao 5.3.1 Se X
1
, X
2
, . . ., s ao vari aveis aleat orias em L
p
, com 0 < p < +,
dizemos que (X
n
) converge para a vari avel aleat oria X em media de ordem p,
e escrevemos X
n
L
p
X, se
[[X
n
X[[
p
p
= E[X
n
X[
p
0.
A convergencia em media de ordem 2 diz-se tambem convergencia em media qua-
dr atica sendo denotada por
mq
.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Reparemos que a variavel aleatoria limite X esta necessariamente emL
p
pois [X[
p
2
p
([X
n
X[
p
+[X
n
[
p
). O que referimos para os modos de convergencia anteriores sobre
a unicidade do limite, vale tambem para o limite em media de ordem p.
A desigualdade de Tchebychev-Markov que estabelecemos a seguir generaliza a de-
sigualdade de Bienayme-Tchebychev estabelecida no Exerccio 4.2.7, permitindo-nos
mostrar que a convergencia em probabilidade e implicada pela convergencia em media
de ordem p.
Teorema 5.3.2 (desigualdade de Tchebychev-Markov
1
) Se X e uma vari avel
aleat oria real e p > 0, ent ao para todo o > 0,
P([X[ )
E[X[
p
p
.
Dem: Como, para > 0, 1I
{|X|}
[X[
p
/
p
, obtemos P([X[ ) = E(1I
{X}
)
E[X[
p
/
p
.
Teorema 5.3.3 Para 0 < p < +, se X
n
L
p
X ent ao X
n
p
X.
Para diferentes valores de p, os diferentes modos de convergencia em media de ordem
p estao relacionados como se descreve a seguir.
Teorema 5.3.4 Para 1 p < q < +, se X
n
L
q
X, ent ao X
n
L
p
X.
Dem: Consequencia da desigualdade [[X[[
p
[[X[[
q
que obtemos directamente da desi-
gualdade de Holder (cf. AMI, 5.3).
A convergencia em media de ordem p nao e em geral consequencia das convergencias
quase certa ou em probabilidade. Tal ocorre, no entanto, sob certas condi coes sobre a
sucessao de variaveis aleatorias como as que explicitamos no resultado seguinte.
Teorema 5.3.5 (da convergencia dominada em L
p
) Se
a) X
n
qc
X ou X
n
p
X;
b) [X
n
[ Y, P-q.c., para todo o n, com Y L
p
para algum 0 < p < +;
ent ao X L
p
e X
n
L
p
X.
Dem: Bastara considerar o caso em que X
n
p
X. Provemos em primeiro lugar que
[X[ Y , quase certamente. Para > 0 temos, P([X[ > Y +) P([X[ > [X
n
[ +)
P([X
n
X[ > ) 0, quando n+. Sendo > 0 qualquer, conclumos que P([X[
1
Markov, A.A., Ischislenie Veroiatnostei, 1913. Este e o livro de Markov sobre Calculo de Probabi-
lidades.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Y ) = 1. Tomemos agora > 0, qualquer. Uma vez que E(Y
p
) < +, existe M > 0
tal que E(Y
p
1I
{2Y >M}
) < . Assim, E[X
n
X[
p
= E([X
n
X[
p
1I
{|XnX|}
) +E([X
n
X[
p
1I
{<|XnX|M}
) + E([X
n
X[
p
1I
{|XnX|>M}
) <
p
+ M
p
P([X
n
X[ > ) + 2
p
, o
que permite concluir uma vez que P([X
n
X[ > ) 0.
Notemos, em particular, que sob as condi coes do teorema anterior com p = 1, vale
a convergencia das esperan cas matematicas respectivas, isto e, E(X
n
) E(X). Este
resultado e o ja nosso conhecido teorema da convergencia dominada de Lebesgue
(cf. AMI, 4.4).
Terminamos com uma caracteriza cao da convergencia em media de ordem p analoga
às que ja obtivemos para a convergencia quase certa e para a convergencia em proba-
bilidade.
n
) uma sucess ao de vari aveis aleat orias em L
p
, para algum
0 < p < +. As condic oes seguintes s ao equivalentes:
(i) X
n
L
p
(ii) (X
n
) e de Cauchy em L
p
, isto e,
sup
n,mk
[[X
n
X
m
[[
p
0, k+.
Dem: A implica cao (i) (ii) e consequencia de [[ [[
p
p
, para 0 < p < 1, e [[ [[
p
, para
1 p < +, vericarem a desigualdade triangular (cf. 4.2). Sendo agora (X
n
)
de Cauchy em L
p
, da desigualdade de Tchebychev-Markov conclumos que (X
n
) e de
Cauchy em probabilidade. Pelo Teorema 5.2.3 existe um subsucessao (X
n
k
) de (X
n
) tal
que X
n
k
qc
X, para alguma variavel aleatoria real X. Pelo lema de Fatou (cf. AMI,
4.4) temos entao E[X
n
X[
p
liminf E[X
n
X
n
k
[
p
, o que permite concluir usando
uma vez mais o facto de (X
n
) ser de Cauchy em L
p
.
Exerccios
1. Conclua a desigualdade de Tchebychev-Markov e optima no sentido em que para qualquer
> 0, existe uma variavel aleatoria X que verica a igualdade.
n
) denida no Exerccio 5.2.2. Mostre que X
n
converge em media
de ordem p mas nao quase certamente.
n
) denida em ([0, 1], B([0, 1]), ) por X
n
= n1I
[0,
1
n
]
. Mostre que
X
n
converge quase certamente para a fun cao nula, mas nao em media de ordem p.
4. Seja (X
n
) uma sucessao de v.a. em L
p
com X
n
L
p
X. Mostre que [[X
n
[[
p
[[X[[
p
.
5. Seja (X
n
) uma sucessao de v.a.r. de quadrado integravel. Mostre que E(X
n
) e
Var(X
n
)0 sse X
n
mq
.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
6. Seja (X
n
) uma sucessao de v.a. nao-correlacionadas com P(X
n
= 1) = P(X
n
= 1) =
1/2. Mostre que
n
j=1
X
j
/n
mq
0.
7. Se E[X[
p
< +, para algum p > 0, mostre que lim n
p
P([X[ n) = 0.
(Sugestao: Use o teorema da convergencia dominada.)
8. Sejam (X
n
) v.a.r. independentes de quadrado integravel com media zero e
n=1
E(X
2
n
) <
. Mostre que
k=1
X
k
converge em media quadratica e quase certamente
2
(isto e,
S
n
=
n
k=1
X
k
converge em media quadratica e quase certamente para alguma v.a.r. S).
5.4 Convergencia funcional de vectores aleatorios
Para terminar este captulo, notemos que as no coes de convergencia consideradas
para sucessoes de variaveis aleatorias reais podem ser extendidas sem diculdade ao
caso de sucessoes de vectores aleatorios denidos num mesmo espa co de probabilidade.
No que se segue, denotaremos por [[[[ a norma euclideana de R
d
. No entanto, a deni cao
seguinte nao depende da norma considerada em R
d
.
Deni cao 5.4.1 Se (X
n
) e (X) s ao vectores aleat orios denidos num mesmo espa co
de probabilidade, dizemos que (X
n
) converge para X P-quase certamente (resp.
em probabilidade ou em media de ordem p) e escrevemos X
n
qc
X (resp.
p
,
L
p
), se [[X
n
X[[
qc
0 (resp.
p
,
L
p
).
Atendendo a que a convergencia duma sucessao de vectores aleatorios segundo qual-
quer um dos modos anteriores e equivalente à convergencia das respectivas margens,
versoes vectoriais dos resultados apresentados nos paragrafos anteriores podem assim,
sem excep cao, ser obtidos.
5.5 Bibliograa
Lukacs, E. (1975). Stochastic Convergence, Academic Press.
2
Khintchine, A., Kolmogorov, A.N., Mat. Sb., 32, 668676, 1925.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Captulo 6
Leis dos grandes n umeros e series
de variaveis aleatorias
independentes
Leis dos grandes n umeros para vari aveis de quadrado integr avel. Leis fracas de Kol-
mogorov e de Khintchine. Leis fortes e series de vari aveis aleat orias. Lei forte de
Kolmogorov. O teorema das tres series.
6.1 Generalidades
Sendo (
0
, /
0
, P
0
) um modelo probabilstico para uma determinada experiencia
aleatoria c, e A /
0
um acontecimento aleatorio, o conceito frequencista de proba-
bilidade a que zemos alusao no 1.1, estabelece que a probabilidade P
0
(A) do acon-
tecimento A e o limite, num sentido a precisar, da frequencia relativa de ocorrencia
do acontecimento A em sucessivas repeti coes, sempre nas mesmas condi coes, da ex-
periencia aleatoria em causa.
Dito por outras palavras, para o modelo probabilstico (, /, P) com
=
n=1
0
, / =
n=1
/
0
e P =
n=1
P
0
,
que descreve a repeti cao, sempre nas mesmas condi coes, da experiencia c, e sendo
S
n
=
n
k=1
X
k
, onde X
k
e a variavel aleatoria denida em (, /, P) que toma valor
1 ou 0, consoante, A ocorra ou nao na k-esima repeti cao da experiencia, o n umero de
ocorrencias de A nas primeiras n repeti coes de c, o conceito frequencista de probabili-
dade pode ser traduzido pela convergencia
S
n
n
P
0
(A),
83
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
segundo um modo de convergencia estocastica a precisar.
Duma forma geral, sendo (X
n
) uma sucessao de variaveis aleatorias reais denidas
num mesmo espa co de probabilidade, um resultado que estabelece a convergencia
S
n
n

n
M
Y
para alguma sucessao (
n
) de n umeros reais e para alguma variavel aleatoria Y , onde
M
representa um dos modos de convergencia em probabilidade, quase certa, ou em
media de ordem p, e conhecido como lei dos grandes n umeros. Quando a con-
vergencia envolvida e a convergencia em probabilidade, o resultado e dito lei fraca dos
grandes n umeros. Quando a convergencia e a convergencia quase certa, o resultado e
dito lei forte dos grandes n umeros. Se a convergencia utilizada for a convergencia
em media de ordem p, dizemos que temos uma lei dos grandes n umeros em media
de ordem p.
Com excep cao do proximo paragrafo em que estabelecemos leis dos grandes n umeros
para sucessoes de variaveis aleatorias nao necessariamente independentes, admitiremos
ao longo deste captulo que as variaveis (X
n
) sao independentes mas nao necessari-
amente identicamente distribudas. Neste contexto, e tendo em mente a lei zero-um
de Kolmogorov, sabemos que a existir o limite de S
n
/n segundo um dos modos de
convergencia anteriores, a vari avel limite e necessariamente degenerada (ver Exerccio
6.1.2).
Deni cao 6.1.1 Dizemos que a sucess ao (X
n
) obedece a uma lei dos grandes
n umeros para o modo de convergencia / se
S
n
n

n
M
0,
para alguma sucess ao (
n
) de n umeros reais.
Por simplicidade, sempre que (X
n
) obede ca a uma lei dos grandes n umeros deno-
taremos por (
n
) uma das sucessoes que satisfaz a deni cao anterior.
Exerccios
1. Mostre que (X
n
) obedece a uma lei dos grandes n umeros para o modo de convergencia
/ sse existe uma sucessao (
n
) de n umeros reais tal que
1
n
n
i=1
(X
i

i
)
M
0.
2. Mostre que se a sucessao (X
n
) de variaveis aleatorias independentes verica S
n
/n
n
M
Y , para alguma sucessao de n umeros reais (
n
) e alguma v.a.r. Y , ent ao Y e
quase certamente constante.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
6 Leis dos grandes n umeros e series de v.a. independentes 85
3. Seja (X
n
) uma sucessao de v.a.r. com [X
n
[ M, para todo o n N. Mostre que se (X
n
)
obedece a uma lei fraca dos grandes n umeros entao
n
1
n
n
i=1
E(X
i
)0.
n
) satisfazendo P(X
n
= n
2
) = 1/n
2
e P(X
n
= n
2
/(n
2
1)) =
1 1/n
2
.
(a) Mostre que E(X
n
) = 0 e
n=1
P(X
n
= n
2
) < .
(b) Use o Lema de Borel-Cantelli para mostrar que S
n
/n
qc
1.
(c) Conclua que o resultado estabelecido no exerccio anterior nao e valido para esta
sucessao.
5. Sejam (X
n
) e (Y
n
) sucessoes de v.a.r. independentes (nao necessariamente denidas num
mesmo espa co de probabilidade) com X
n
Y
n
. Mostre que se (X
n
) obedece a uma lei
dos grandes n umeros para o modo de convergencia /, o mesmo acontece com (Y
n
).
6.2 Primeiras leis dos grandes n umeros
Neste paragrafo obtemos leis dos grandes n umeros usando tecnicas baseadas no
calculo de momentos de ordem superior ou igual à segunda. Em paragrafos posteriores,
e à custa de tecnicas de demonstra cao mais elaboradas, mostraremos que no caso das
sucessoes de variaveis aleatorias independentes tais leis podem ser obtidas para variaveis
nao necessariamente de quadrado integravel.
No resultado seguinte estabelecemos uma condi cao necessaria e suciente para a
validade duma lei dos grandes n umeros em media quadratica duma qualquer sucessao
(X
n
) de variaveis de quadrado integravel.
Teorema 6.2.1
1
Seja (X
n
) uma sucess ao de vari aveis aleat orias reais de quadrado
integr avel. (X
n
) obedece a uma lei dos grandes n umeros em media quadr atica sse
Var(S
n
)/n
2
0. Neste caso
n

1
n
n
i=1
E(X
i
)0.
Dem: Se Var(S
n
)/n
2
0 entao S
n
/n
n
mq
0, com
n
= E(S
n
/n), o que estabelece
a suciencia da condi cao anterior para a validade duma lei dos grandes n umeros em
media quadratica. A condi cao e tambem necessaria pois Var(S
n
/n) E(S
n
/n
n
)
2
(cf. Exerccio 4.2.4).
Atendendo ao Teorema 5.3.3, e sob as condi coes do teorema anterior, a condi cao
Var(S
n
)/n
2
0 e tambem suciente para a validade duma lei fraca dos grandes
n umeros. No entanto, notemos que esta pode ser obtida via desigualdade de Bie-
nayme-Tchebychev, pois para > 0,
P([S
n
/n E(S
n
/n)[ ) = P([S
n
E(S
n
)[ n)
1
n
2
2
Var(S
n
).
1
Markov, A.A., Izv. Mat. Fiz. Ob. pri Kazanskom Univ., Ser. 2, 15, 135, 1906.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
No caso particular em que (X
n
) e uma sucessao de variaveis aleatorias reais de
quadrado integravel com E(X
k
) = , para todo o k N, a condi cao Var(S
n
)/n
2
0
e necessaria e suciente para que S
n
/n
mq
. Alem disso, se as variaveis da su-
cessao sao duas a duas nao-correlacionadas, a condi cao Var(S
n
)/n
2
0 reduz-se a
n
k=1
Var(X
k
)/n
2
0. Estas condi coes sao, em particular, satisfeitas por uma sucessao
de variaveis independentes e identicamente distribudas de quadrado integravel.
Terminamos este paragrafo mostrando que sob condi coes mais restritivas que as ate
aqui consideradas, sao tambem validas leis fortes dos grandes n umeros. Come caremos
por admitir que as variaveis (X
n
) sao independentes e que possuem momentos de quarta
ordem uniformemente limitados.
Teorema 6.2.2 Se (X
n
) e uma sucess ao de vari aveis aleat orias reais independentes
com sup
kN
E(X
4
k
) < +, ent ao (X
n
) obedece a uma lei forte dos grandes n umeros
com
n

1
n
n
i=1
E(X
i
)0.
Dem: Basta demonstrar o resultado para E(X
n
) = 0, para todo o n N. Pela in-
dependencia das variaveis (X
n
) e da desigualdade de Holder temos E(S
4
n
) n(3n
2) sup
kN
E(X
4
k
). Usando agora a desigualdade de Tchebychev-Markov obtemos
n=1
P([S
n
/n[ ) E(S
4
n
)/(
4
n
4
) < +, o que, pelo Exerccio 5.1.3, permite
concluir.
No resultado seguinte, utilizando uma tecnica de demonstra cao conhecida por meto-
do das subsucessoes, estabelecemos uma lei forte dos grandes sob condi coes menos
restritivas que as anteriores. Admitiremos que as variaveis (X
n
) sao duas a duas nao-
-correlacionadas e que possuem momentos de segunda ordem uniformemente limitados.
n
) uma sucess ao de vari aveis aleat orias reais de quadrado in-
tegr avel duas a duas n ao-correlacionadas com sup
kN
E(X
2
k
) < +. Ent ao (X
n
) obe-
dece a uma lei forte dos grandes n umeros com
n

1
n
n
i=1
E(X
i
)0.
Dem: Sem perda de generalidade suponhamos que E(X
n
) = 0, para todo o n N.
Denotando Y
n
= S
n
/n, come caremos por estabelecer o resultado para a subsucessao
de (Y
n
n) de (Y
n
), Numa segunda fase extendemo-lo a toda a sucessao. temos E(Y
2
n
) =
E(S
2
n
)/n
2
=
n
k=1
E(X
2
k
)/n
2
/n, onde = sup
kN
E(X
2
k
). Assim,
n=1
E(Y
2
n
2
)
n=1
/n
2
< +, ou ainda, E(
n=1
Y
2
n
2
) < +, e consequentemente
n=1
Y
2
n
2
<
+, quase certamente. Conclumos assim que limY
n
2 = 0, q.c.. Para demonstrar que
limY
n
= 0, q.c., consideremos, para n N, p(n) N tal que p(n)
2
< n (p(n) + 1)
2
.
Assim, E(Y
n

p(n)
2
n
Y
p(n)
2)
2
= E(
1
n
n
k=p(n)
2
+1
X
k
) (n p(n)
2
)/n
2
(2p(n) +
1)/n
2
(2
n+1)/n
2
3/n
3/2
, e tal como atras E(
n=1
(Y
n
p(n)
2
n
Y
p(n)
2)
2
) < +,
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
o que implica que lim(Y
n
p(n)
2
n
Y
p(n)
2) = 0, q.c. Como limY
p(n)
2 = 0, q.c. e p(n)
2
/n 1,
conclumos nalmente que limY
n
= 0, q.c.
No caso particular em que (X
n
) e uma sucessao de variaveis aleatorias reais de qua-
drado integravel duas a duas nao-correlacionadas com E(X
k
) = , para todo o k N,
conclumos que a condi cao sup
kN
E(X
2
k
) < + e suciente para que S
n
/n
qc
.
Estas condi coes sao, em particular, satisfeitas por uma sucessao de variaveis indepen-
dentes e identicamente distribudas de quadrado integravel.
Exerccios
1. Estabele ca leis fracas e fortes dos grandes n umeros para cada uma das seguintes sucess oes
de variaveis aleatorias:
(a) (X
n
) e uma sucessao de variaveis de Bernoulli de parametro p duas a duas n ao-
correlacionadas.
2
(b) (X
n
) e uma sucessao de v.a.r. duas a duas nao-correlacionadas com X
n
uma vari avel
de Bernoulli de parametro p
n
.
3
(c) (X
n
) e uma sucessao de v.a.r. de quadrado integravel, duas a duas nao-correlacionadas
com Var(X
n
) .
4
2. Seja (X
n
) uma sucessao de v.a.r. com [X
n
[ M, para todo o n N. Mostre que
a condi cao Var(S
n
)/n
2
0 e necessaria para a validade duma lei fraca dos grandes
n umeros.
3. Sejam (X
n
) uma qualquer sucessao de v.a.r. e p 1. Mostre que:
(a) X
n
qc
0 S
n
/n
qc
0;
(b) X
n
L
p
0 S
n
/n
L
p
0.
(c) Verique que X
n
p
0 S
n
/n
p
0, considerando (X
n
) com P(X
n
= 2
n
) = 1/n
e P(X
n
= 0) = 1 1/n.
4. (Velocidade de convergencia em probabilidade) Sejam (X
n
) uma sucessao de v.a.r.
i.i.d. de quadrado integravel e = E(X
1
).
(a) Mostre que b
n
(S
n
/n)
p
0 (resp.
mq
), para toda a sucessao (b
n
) satisfazendo
b
n
/n
1/2
0.
(b) Tomando X
n
N(0, 1), conclua que o resultado anterior nao e, em geral, v alido
para b
n
= n
1/2
.
2
Lei fraca de Bernoulli, J., Ars Conjectandi, Basel, 1713.
2
Lei forte de Borel, E., Rend. Circ. Mat. Palermo, 27, 247271, 1909.
3
Lei fraca de Poisson, S.D., Recherches sur la Probabilite des Judgements, Paris, 1837.
4
Lei fraca de Tchebychev, P.L., J. Math. Pures et Appl., Ser. 2, 12, 177184, 1867 (reproduzido em
Oeuvres de P.L. Tchebychev, Vol. 1, 28, 687694).
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
6.3 Leis fracas dos grandes n umeros
Neste paragrafo discutimos a convergencia em probabilidade de S
n
/n sob condi coes
parcialmente mais fracas que as consideradas no paragrafo anterior. Em particular,
vericaremos que e possvel obter leis fracas dos grandes n umeros sob condi coes menos
restritivas sobre os momentos das variaveis em questao. No que se segue limitar-nos-
-emos a estabelecer condi coes sucientes para a validade duma lei fraca dos grandes
n umeros. No caso de existirem condi coes necessarias e sucientes indica-las-emos.
Teorema 6.3.1 (Lei fraca de Kolmogorov
5
) Seja (X
n
) uma sucess ao de vari aveis
aleat orias reais independentes satisfazendo as condic oes seguintes para alguma sucess ao
(a
n
) de n umeros reais:
a)
n
k=1
P([X
k
a
k
[ > n)0;
b)
1
n
2
n
k=1
E((X
k
a
k
)
2
1I
|X
k
a
k
|n
)0.
Ent ao, (X
n
) obedece a uma lei fraca dos grandes n umeros com
n
=
1
n
n
k=1
E((X
k
a
k
)1I
|X
k
a
k
|n
) a
k
.
Dem: Basta considerar o caso a
k
= 0, para todo o k. Para k e n naturais, consideremos
as variaveis aleatorias X
n,k
= X
k
1I
|X
k
|n
e S
n
=
n
k=1
X
n,k
. Para > 0, temos por a),
P([S
n
S
n
[ )
n
k=1
P(X
n,k
,= X
k
) =
n
k=1
P([X
k
[ > n) 0. Como S
n
/n
n
=
(S
n
S
n
)/n + (S
n
E(S
n
))/n, basta agora mostrar que (S
n
E(S
n
))/n
p
0. Tal
facto e consequencia de b) pois para > 0, P([S
n
E(S
n
)[/n ) Var(S
n
)/(
2
n
2
) =
2
n
2
n
j=1
E(X
2
j
1I
|X
j
|n
) 0.
Kolmogorov mostra ainda que as condi coes anteriores alem de sucientes sao tambem
necessarias para a validade duma lei fraca dos grandes n umeros quando a sucessao (a
n
)
e substituda por uma sucessao (m
n
) de medianas de (X
n
), isto e, m
n
e um n umero
real para o qual P(X
n
< m
n
) 1/2 e P(X
n
m
n
) 1/2.
Teorema 6.3.2
6
Seja (X
n
) e uma sucess ao de vari aveis aleat orias reais independentes
e identicamente distribudas. (X
n
) obedece a uma lei fraca dos grandes n umeros sse
nP([X
1
[ > n) 0. Neste caso podemos tomar
n
= E(X
1
1I
|X
1
|n
).
Dem: Para estabelecer a suciencia da condi cao nP([X
1
[ > n) 0, vamos mostrar que
se verica a condi cao b) do teorema anterior para a
n
= 0. Com efeito E(X
2
1
1I
{|X
1
|n}
)
n
k=1
k
2
P(k 1 < [X
1
[ k) 2
n
i=1
iP(i 1 < [X
1
[ n) 2
n
i=1
iP([X
1
[ > i 1),
o que permite concluir. Reciprocamente, se (X
n
) obedece a uma lei fraca dos grandes
5
Kolmogorov, A.N., Math. Ann., 99, 309319, 1928.
6
Kolmogorov, A.N., Math. Ann., 102, 484488, 1929.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
n umeros sabemos da observa cao anterior que nP([X
1
m[ > n) 0, onde m e uma
mediana de X
1
. Sendo esta condi cao equivalente a nP([X
1
[ > n) 0, ca concluda a
demonstra cao.
Notemos que as condi coes impostas no resultado anterior, nao implicam a inte-
grabilidade das variaveis aleat orias (X
n
) (ver Exerccio 6.3.2). No caso destas serem
integraveis vale o resultado seguinte.
Teorema 6.3.3 (Lei fraca de Khintchine
7
) Se (X
n
) e uma sucess ao de vari aveis
aleat orias reais independentes, identicamente distribudas e integr aveis, ent ao S
n
/n
p
, onde = E(X
1
).
Dem: Sendo X
1
integravel, as hipoteses do Teorema 6.3.2 sao trivialmente vericadas
(ver Exerccio 5.3.7).
Exerccios
1. Seja (X
n
) uma sucessao de v.a.r. independentes com
n
k=1
E[X
k
[
1+
/n
1+
0, para
algum 0 < 1. Mostre que (X
n
) obedece a uma lei fraca dos grandes n umeros com
n
=
n
k=1
E(X
k
)/n.
2. Seja (X
n
) uma sucessao de v.a.r. i.i.d. com P(X
1
= k) = P(X
1
= k) =
c
k
2
ln k
, para
k = 2, 3, . . ., onde c =
1
2
_
k=2
1
k
2
ln k
_
1
.
(a) Verique que nP([X
1
[ > n)0 e E[X
1
[ = +.
(b) Mostre que S
n
/n
p
0.
3. Sendo X uma variavel aleatoria real, mostre que:
(a) Para p > 0 vale a igualdade E[X[
p
=
_
]0,+[
p y
p1
P([X[ > y)d(y).
(Sugestao: Utilize o teorema de Fubini.)
(b) A condi cao nP([X[ > n)0 implica que E[X[
p
< +, para todo o 0 < p < 1.
4. Se (X
n
) e uma sucessao de v.a.r. i.i.d. com distribui coes de Cauchy de parametros 0 e 1,
mostre que (X
n
) nao obedece a uma lei fraca dos grandes n umeros.
6.4 Leis fortes e series de variaveis independentes
Contrariamente ao caso da lei fraca dos grandes n umeros, n ao e conhecida uma
condi cao necessaria e suciente para a validade duma lei forte dos grandes n umeros
para variaveis independentes mas nao necessariamente identicamente distribudas.
7
Khintchine, A., C. R. Acad. Sci. Paris, 188, 477479, 1929.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
No paragrafo 6.2 estabelecemos uma primeira lei forte para sucessoes de variaveis
aleatorias duas a duas nao-correlacionadas com momentos de segunda ordem uniforme-
mente limitados. Neste paragrafo vamos obter uma lei forte para sucessoes de variaveis
aleatorias independentes sob condi coes menos restritivas que as consideradas no Teo-
rema 6.2.2. Para tal vamos utilizar a rela cao entre a convergencia quase certa da media
emprica S
n
/n e a convergencia da serie
k=1
X
k
/k que estabelecemos no resultado
seguinte.
Lema 6.4.1 (de Kronecker) Se (x
n
) e uma sucess ao de n umeros reais tal que
k=1
x
k
/k converge, ent ao
n
k=1
x
k
/n0.
Dem: Dado > 0, existe por hipotese n
0
N tal que para n n
0
, [r
n
[ < , onde
r
n
=
k=n+1
x
k
/k. Assim, como
n
k=1
x
k
=
n
k=1
(r
k1
r
k
)k =
n1
k=1
r
k
+r
0
nr
n
,
obtemos para n n
0
, [
n
k=1
x
k
/n[

n
0
1
k=1
[r
k
[/n + [r
0
[/n + [r
n
[ +
n
k=n
0
[r
k
[/n <
(3 + (n n
0
+ 1)/n) < 4.
O resultado que a seguir estabelecemos permite obter condicoes sucientes para a
convergencia quase certa duma serie de variaveis aleatorias independentes e, por maioria
de razao, via lema de Kronecker, condi coes sucientes para uma lei forte dos grandes
n umeros. Para tal necessitamos duma generaliza cao da desigualdade
P
_
[S
n
[
_
2
n
k=1
E(X
2
k
),
que podemos obter como aplica cao directa da desigualdade Bienayme-Tchebychev (ver
Exerccio 4.2.7).
Lema 6.4.2 (Desigualdade maximal de Kolmogorov
8
) Sejam X
1
, . . . , X
n
s ao va-
ri aveis aleat orias reais independentes com media zero e S
k
= X
1
+ . . . + X
k
, para
k = 1, . . . , n. Ent ao, para todo o > 0,
P
_
max
1kn
[S
k
[
_
2
n
k=1
E(X
2
k
).
Dem: Para > 0, denamos os acontecimentos disjuntos E
1
= [S
1
[ e E
k
=
[S
1
[ < , . . . , [S
k1
[ < , [S
k
[ , para 2 k n, que satisfazem
n
k=1
E
k
=
max
1kn
[S
k
[ . Pela desigualdade de Markov temos P(E
k
)
2
E(S
k
1I
E
k
)
2
.
Usando agora a independencia entre S
k
1I
E
k
e S
n
S
k
, podemos ainda escrever E(S
2
k
1I
E
k
)
E(S
2
k
1I
E
k
+ (S
n
S
k
)
2
1I
E
k
) = E(S
2
k
1I
E
k
+ 2S
k
(S
n
S
k
)1I
E
k
+ (S
n
S
k
)
2
1I
E
k
) =
E(S
n
1I
E
k
)
2
. Finalmente, P(max
1kn
[S
k
[ ) =
n
k=1
P(E
k
)

n
k=1
2
E(S
n
1I
E
k
)
2

2
E(S
2
n
).
8
Kolmogorov, A.N., Math. Ann., 99, p. 309319, 1928.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Teorema 6.4.3 (Criterio de Kolmogorov) Sejam (X
n
) vari aveis aleat orias reais
independentes de quadrado integr avel com E(X
n
) = 0, para todo o n N. Se a serie
n=1
Var(X
n
) e convergente, ent ao a serie
n=1
X
n
converge quase certamente.
Dem: Atendendo ao Teorema 5.2.5, para mostrar que S
n
=
n
k=1
X
k
converge quase
certamente basta mostrar que sup
j1
[S
n+j
S
n
[
p
0. Pela desigualdade maximal
de Kolmogorov e para > 0, qualquer, podemos obter P(sup
j1
[S
n+j
S
n
[ ) =
lim
N+
P(max
1jN
[S
n+j
S
n
[ ) lim
N+
P(max
1jN
[
n+j
k=n+1
X
k
[ )
k=n+1
Var(X
k
)/
2
, o que permite concluir.
Como aplica cao directa do criterio anterior obtemos um primeiro conjunto de condi-
coes sucientes para a convergencia duma serie de variaveis aleatorias independentes
de quadrado integravel.
Teorema 6.4.4 Sejam (X
n
) vari aveis aleat orias reais independentes de quadrado in-
tegr avel. Se as series
n=1
E(X
n
) e
n=1
Var(X
n
) s ao convergentes ent ao a serie
n=1
X
n
Uma segunda consequencia do criterio de Kolmogorov e uma lei forte geral para
variaveis independentes de quadrado integravel mas nao necessariamente identicamente
distribudas, sob condi coes menos restritivas que as do Teorema 6.2.3.
Teorema 6.4.5
9
Sejam (X
n
) vari aveis aleat orias reais independentes de quadrado in-
tegr avel. Se a serie
k=1
Var(X
k
)/k
2
e convergente, ent ao S
n
/n
n
qc
0, onde
n
=
1
n
n
k=1
E(X
k
).
Dem: Como por hipotese
k=1
Var(X
k
/k) < +, pelo criterio de Kolmogorov con-
clumos que
k=1
(X
k
E(X
k
))/k converge quase certamente. Do Lema 6.4.1 deduzi-
mos o pretendido.
Exerccios
1. Seja (X
n
) uma sucessao de v.a.r. satisfazendo P(X
n
= n
2
) = P(X
n
= n
2
) = 1/(2n
2
)
e P(X
n
= 0) = 1 1/n
2
. Conclua que a condi cao estabelecida no Teorema 6.4.5 n ao e
necessaria para a validade duma lei forte dos grandes n umeros.
2. Sejam (X
n
) e (Y
n
) sucessoes de v.a.r. independentes (nao necessariamente denidas
num mesmo espa co de probabilidade) com X
n
Y
n
. Mostre que
X
n
converge quase
certamente sse
Y
n
3. (Velocidade de convergencia quase certa) Sejam (X
n
) uma sucessao de v.a.r. i.i.d.
de quadrado integravel e = E(X
1
).
9
Kolmogorov, A.N., C. R. Acad. Sci. Paris, 191, 910912, 1930.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
(a) Mostre que se
a
2
n
/n
2
< para alguma sucessao de n umeros reais (a
n
) ent ao
a
n
(S
n
/n )
qc
0.
(b) Conclua que n
1/2
(ln n)
1/2
(S
n
/n )
qc
0, para todo o > 0.
6.5 Lei forte dos grandes n umeros de Kolmogorov
Mostramos neste paragrafo que se (X
n
) e uma sucessao de variaveis aleatorias reais
e independentes e identicamente distribudos, a condi c ao E[X
1
[ < + e necessaria e
suciente para que S
n
/n convirja quase certamente para um valor real , ou de forma
equivalente, para que (X
n
) obede ca a uma lei forte dos grandes n umeros com
n
= .
Trata-se da lei forte dos grandes n umeros de Kolmogorov.
6.5.1 Necessidade da condicao de integrabilidade
A necessidade da condi cao de integrabilidade para a validade duma lei forte dos
grandes n umeros cuja variavel limite nao e constantemente innita, e estabelecida à
custa dos resultados seguintes.
Lema 6.5.1 Se Y e uma vari avel aleat oria real ent ao
n=1
P([Y [ > n) E[Y [ 1 +
n=1
P([Y [ > n).
Dem: Pelo Exerccio 6.3.3 temos E[Y [ =
_
[0,+[
P([Y [ > y)dy =
n=0
_
[n,n+1[
P([Y [ >
y)dy, o que permite concluir.
Lema 6.5.2 Sejam (X
n
) vari aveis aleat orias reais independentes e identicamente dis-
tribudas. As condic oes seguintes s ao equivalentes:
i) E[X
1
[ < +;
ii) limX
n
/n = 0, q.c.;
iii) > 0
n=1
P([X
1
[ > n) < +.
Dem: Para > 0, tomando Y = X
1
/ no lema anterior obtemos a equivalencia entre
as condi coes i) e iii). A equivalencia entre as condi coes ii) e iii) e uma consequencia
imediata da equivalencia entre as convergencias quase certa e quase completa para zero
da sucessao (X
n
/n) (ver Exerccio 5.1.3).
n
) vari aveis aleat orias reais independentes e identicamente
distribudas e R tais que S
n
/n
qc
. Ent ao E[X
1
[ < +.
Dem: Como por hipotese, X
n
/n = (S
n
S
n1
)/n
qc
0, o resultado e consequencia
do Lema 6.5.2.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
6.5.2 Suciencia da condicao de integrabilidade
Estamos agora em condi coes de estabelecer o principal resultado deste captulo.
Teorema 6.5.4 (Lei forte de Kolmogorov
10
) Seja (X
n
) uma sucess ao de vari aveis
aleat orias reais independentes e identicamente distribudas. Ent ao, existe R tal que
S
n
/n
qc
sse E[X
1
[ < +. Nesse caso = E(X
1
).
Dem: Atendendo ao Teorema 6.5.3 basta mostrar que S
n
/n
qc
E(X
1
), quando
E[X
1
[ < +. Sem perda de generalidade vamos admitir que E(X
1
) = 0. Conside-
remos as variaveis X
n
= X
n
1I
{|Xn|n}
, para n 1. Pelo Lema 6.3.1,
n=1
P(X
n
,=
X
n
) =
n=1
P([X
n
[ > n) < +, e assim, pelo teorema de Borel-Cantelli, P(X
n
,=
X
n
i.o.) = 1. Conclumos assim que existe N / com P(N) = 0 tal que para todo
o N
c
as sucessoes (X
n
()) e (X
n
()) coincidem para n sucientemente grande.
Bastara assim provar que S
n
/n
qc
0, onde S
n
=
n
k=1
X
n
. Para tal vamos lan car
mao do Teorema 6.4.5, mostrando que a serie
k=1
Var(X
k
)/k
2
e convergente. Ora
k=1
Var(X
k
)/k
2
k=1
E(X
2
1
1I
{|X
1
|k}
)/k
2
=
k=1
k
j=1
E(X
2
1
1I
{j1<|X
1
|j}
)/k
2
=
j=1
k=j
E(X
2
1
1I
{j1<|X
1
|j}
)/k
2
, onde
k=1
1
k
2
2,
k=j
1
k
2

1
j1
, para
j 2, e E(X
2
1
1I
{j1<|X
1
|j}
) jE([X
1
[1I
{j1<|X
1
|j}
). Assim,
k=1
Var(X
k
)/k
2
2E([X
1
[1I
{|X
1
|1}
) +
j=2
j
j1
E([X
1
[1I
{j1<|X
1
|j}
) 2
j=1
E([X
1
[1I
{j1<|X
1
|j}
) =
2E[X
1
[ < +.
Exerccios
1. Sejam (X
n
) v.a.r. i.i.d. em L
p
. Mostre que
1
n
n
i=1
X
p
i
qc
E(X
p
1
).
2. Denotemos por

X
n
=
1
n
n
i=1
X
i
e
2
n
=
1
n1
n
i=1
(X
i

X
n
)
2
, a media emprica e
variancia emprica, das v.a.r. X
1
, . . . , X
n
. Mostre que se (X
n
) sao variaveis i.i.d. de
quadrado integravel com variancia
2
, entao E(
2
n
) =
2
e
2
n
qc

2
.
3. Retome os Exerccios 1.8.4 e 2.1.6. Conclua que S
n
qc
.
4. (Integra cao pelo metodo de Monte Carlo, I) Sejam (U
n
) uma sucessao de v.a.
i.i.d. uniformemente distribudas sobre o intervalo [0, 1], e f uma fun cao real mensur avel
denida em [0, 1] tal que
_
[0,1]
[f[d < +. Mostre que
1
n
n
i=1
f(U
i
)
qc
_
[0,1]
fd.
5. (Integra cao pelo metodo de Monte Carlo, II) Sejam U
1
, V
1
, U
2
, V
2
, . . . v.a. i.i.d.
uniformemente distribudas sobre o intervalo [0, 1], e f : [0, 1] [0, 1] uma fun cao men-
suravel. Para n N, dena Z
n
= 1I
{f(Un)>Vn}
, e mostre que
1
n
n
i=1
Z
i
qc
_
[0,1]
fd.
6. (Velocidade de convergencia quase certa
11
) Sejam (X
n
) uma sucessao de v.a.r. i.i.d.
e p ]1, 2[. Mostre que n
11/p
(S
n
/n)
qc
0 para algum R sse E[X[
p
< . Neste
caso = E(X
1
).
10
Kolmogorov, A.N., Grundbegrie der Wahrscheinlichkeitrechnung, Berlin, 1933.
11
Marcinkiewicz, J., Zygmund, A., Fund. Math., 29, 6090, 1937.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
(Sugestao: Retome as demonstra coes dos Teoremas 6.5.3 e 6.5.4, mostrando no primeiro
caso que X
n
/n
1/p qc
0 e no segundo que S
n
/n
1/p qc
0, onde S
n
=
n
k=1
X
k
1I
{|X
k
|k
1/p
}
.)
6.6 O teorema das tres series
No Teorema 6.4.4 obtivemos condi coes sucientes para a convergencia quase certa
duma serie de variaveis aleatorias independentes. De seguida aprofundamos este as-
sunto come cando por mostrar que no caso das variaveis aleatorias serem limitadas as
condi coes anteriores sao tambem necessarias. Para tal lan camos mao da desigualdade
seguinte devida a Kolmogorov.
Lema 6.6.1 Sejam X
1
, . . . , X
n
vari aveis aleat orias reais independentes com media
zero, S
k
= X
1
+ . . . + X
k
, e suponhamos que existe > 0 tal que [X
k
[ q.c.,
para k = 1, . . . , n. Ent ao, para todo o > 0,
P
_
max
1kn
[S
k
[
_
1
( +)
2
n
k=1
E(X
2
k
)
.
Dem: Sejam E
k
, para 1 k n, os acontecimentos denidos na demonstra cao da
desigualdade maximal de Kolmogorov, e D
k
, para 0 k n, os acontecimentos
D
0
= e D
k
= [S
1
[ < , . . . , [S
k1
[ < , [S
k
[ < , para 1 k n. Claramente
max
1kn
[S
k
[ =
n
k=1
E
k
= D
c
n
. Para k 1, D
k
e E
k
sao disjuntos e D
k
+E
k
=
D
k1
, o que permite escrever S
k1
1I
D
k1
+ X
k
1I
D
k1
= S
k
1I
D
k1
= S
k
1I
D
k
+ S
k
1I
E
k
,
onde S
0
= 0. Usando a independencia entre S
k1
1I
D
k1
e X
k
e entre 1I
D
k1
e X
k
temos E(S
2
k1
1I
D
k1
) + E(X
2
k
)P(D
k1
) = E(S
2
k
1I
D
k
) + E(S
2
k
1I
E
k
). Alem disso, como
P(D
k1
) P(D
n
) e [S
k
1I
E
k1
[ ( +)1I
E
k
, obtemos E(S
2
k1
1I
D
k1
) + E(X
2
k
)P(D
n
)
E(S
2
k
1I
D
k
)+(+)
2
P(E
k
). Finalmente, somando todas as inequa coes anteriores obtemos
n
k=1
E(X
2
k
)P(D
n
) E(S
2
n
1I
Dn
) +( +)
2
P(D
c
n
) ( +)
2
, o que permite concluir.
Estabelecemos em primeiro lugar a recproca do criterio de Kolmogorov para varia-
veis uniformemente limitadas.
n
) vari aveis aleat orias reais independentes tais que sup
kN
[X
k
[ q.c., para alguma constante > 0, e E(X
k
) = 0 para todo o k N. Ent ao
n=1
X
n
converge quase certamente sse a serie
n=1
Var(X
n
) e convergente.
Dem: Tendo em conta o Teorema 6.4.3, basta mostrar que
n=1
Var(X
n
) e conver-
gente quando
n=1
X
n
converge quase certamente. Neste caso, para todo o > 0
P(sup
j1
[S
n+j
S
n
[ ) 0 (cf. Teorema 5.2.5). Ora, pelo Lema 6.6.1, P(sup
j1
[S
n+j
S
n
[ ) = lim
N+
P(max
1jN
[S
n+j
S
n
[ ) 1( +2)
2
/
k=n+1
Var(X
k
),
obtendo-se uma contradi cao se
n=1
Var(X
n
) = +.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Passemos agora ao estudo da serie nao centrada no caso das variaveis da sucessao
serem uniformemente limitadas.
n
) vari aveis aleat orias reais independentes tais que sup
kN
[X
k
[ q.c., para alguma constante > 0. Ent ao a serie
n=1
X
n
converge quase
certamente sse as series
n=1
E(X
n
) e
n=1
Var(X
n
) s ao convergentes.
Dem: Pelo Teorema 6.4.3 basta mostrar que a convergencia quase certa da serie
X
n
implica a convergencia das series
E(X
n
) e
Var(X
n
). Sabemos do Exerccio 3.2.6
que existem variaveis aleatorias reais independentes Y
1
, Z
1
, Y
2
, Z
2
, . . . denidas num
mesmo espa co de probabilidade com X
n
Y
n
Z
n
, para todo o n N. Alem
disso, se
X
n
e quase certamente convergente, tambem o sao as series
Y
n
e
Z
n
(cf. Exerccio 6.6.2). Consideremos agora as variaveis U
n
= Y
n
Z
n
, para n N
(notemos que U
n
U
n
, pelo que esta tecnica e conhecida por simetriza cao). Tais
variaveis sao independentes, com E(U
n
) = 0, [U
n
[ 2, q.c. e alem disso
U
n
e quase
certamente convergente. Pelo Teorema 6.6.2 conclumos que
Var(U
n
) < +, ou
ainda
Var(X
n
) < +, uma vez que Var(U
n
) = Var(Y
n
) + Var(Z
n
) = 2Var(X
n
).
Novamente pelo Teorema 6.6.2,
(X
n
E(X
n
)) converge quase certamente, o que
implica a convergencia da serie
E(X
n
), pois E(X
n
) = X
n
(X
n
E(X
n
)), para
n N.
Finalmente, no caso geral das variaveis nao serem uniformemente limitadas e valido
o seguinte resultado.
Teorema 6.6.4 (das tres series
12
) Se (X
n
) e uma sucess ao de vari aveis aleat orias
reais independentes ent ao
n=1
X
n
converge quase certamente sse para algum c > 0
as tres series seguintes s ao convergentes:
a)
n=1
P([X
n
[ > c); b)
n=1
E(X
n
1I
|Xn|c
); c)
n=1
Var(X
n
1I
|Xn|c
).
Dem: Come camos por notar que a convergencia da serie a) e, pela lei zero-um de Borel,
equivalente à condi cao P([X
n
[ > c i.o.) = 0, ou ainda a P(X
n
,= X
n
1I
|Xn|c
i.o.) = 0.
Assim, a menos dum conjunto de pontos com probabilidade nula as sucessoes (X
n
())
e (X
n
()1I
{|Xn|c}
()) coincidem para n sucientemente grande, o que implica que a
convergencia quase certa de
X
n
e equivalente à convergencia quase certa da serie
X
n
1I
{|Xn|c}
. Por outro lado, a convergencia das series b) e c) e, pelo Teorema
6.6.3, equivalente à convergencia quase certa de
X
n
1I
{|Xn|c}
. Conclumos assim
que a convergencia das series a), b) e c) implica a convergencia quase certa de
X
n
.
12
Kolmogorov, A.N., Math. Ann., 99, p. 309319, 1928.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Reciprocamente, se
X
n
converge quase certamente, entao como [X
n
[ > c i.o.
limsup X
n
,= 0, para c > 0 qualquer, conclumos que P([X
n
[ > c i.o.) = 0, o que,
como ja referimos e equivalente à convergencia da serie a). Repetindo o raciocnio ante-
rior, conclumos que a convergencia quase certa de
X
n
e equivalente à convergencia
quase certa da serie
X
n
1I
{|Xn|c}
, o que, por sua vez, e equivalente às convergencia
das series b) e c).
Terminamos este paragrafo mostrando que as condi coes necessarias e sucientes
anteriores para a convergencia quase certa da serie
n=1
X
n
, sao tambem necessarias
e sucientes para a sua convergencia em probabilidade.
Lema 6.6.5 (Desigualdade de Levy) Sejam X
1
, . . . , X
n
vari aveis aleat orias reais e
independentes, S
k
= X
1
+. . . +X
k
, para k = 1, . . . , n, e , > 0. Se
max
1in
P([X
i
+. . . +X
n
[ /2) ,
ent ao
P
_
max
1kn
[S
k
[
_

1
.
Dem: Sejam E
k
, k 1, os conjuntos denidos na demonstra cao da desigualdade
maximal de Kolmogorov. Pela independencia dos acontecimentos E
k
e [S
n
S
k
[ /2
temos P(max
1kn
[S
k
[ , [S
n
[ /2) =
n
k=1
P(E
k
, [S
n
[ /2)
n
k=1
P(E
k
, [S
n
S
k
[ /2) =
n
k=1
P(E
k
)P([S
n
S
k
[ /2) P(max
1kn
[S
k
[ ). Por outro lado,
P(max
1kn
[S
k
[ , [S
n
[ > /2) P([S
n
[ > /2) , o que permite concluir.
Teorema 6.6.6 (de Levy
13
) Se (X
n
) e uma sucess ao de vari aveis aleat orias reais e
independentes ent ao S
n
=
n
k=1
X
k
converge quase certamente sse converge em proba-
bilidade.
Dem: Consequencia imediata do Teorema 5.2.5 e da desigualdade de Levy.
Exerccios
1. Recorde a natureza das series
1/n e
(1)
n
/n. Considere uma sucessao (X
n
) de v.a.r.
i.i.d. com P(X
n
= 1) = P(X
n
= 1) = 1/2. Estude a convergencia da serie
X
n
/n.
2. Sendo (X
n
) uma qualquer sucessao de v.a.r., mostre que se
n=1
E([X
n
[) < , ent ao
n=1
X
n
3. Sejam . . . , Y
1
, Y
0
, Y
1
, . . . uma sucessao de v.a.r. i.i.d. com E(Y
n
) = 0 e
0
,
1
, . . . uma
sucessao de n umeros reais com
[
n
[ < .
(a) Para n N, mostre que
j=0

j
Y
nj
(b) Denindo X
n
=
j=0

j
Y
nj
, para n N, mostre que X
n
= X
n1
+Y
n
.
13
Levy, P., Theorie de lAddition des Variables Aleatoires, Paris, 1937.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
6.7 Bibliograa
Chow, Y.S., Teicher, H. (1997). Probability Theory: Independence, Interchangeability,
Martingales, Springer.
Chung, K.L. (1974). A Course in Probability Theory, Academic Press.
Durrett, R. (1996). Probability: Theory and Examples, Duxbury Press.
Company.
Loève, M. (1977). Probability Theory I, Springer.
Revesz, P. (1968). The Laws of Large Numbers, Academic Press.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Parte III
Teorema do limite central
99
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Captulo 7
Funcao caracterstica
Integrac ao de vari aveis aleat orias complexas. Func ao caracterstica dum vector aleat orio.
Derivadas e momentos. Injectividade. F ormulas de invers ao. Aplicac oes ` a caracteri-
zac ao da independencia e ao estudo da distribuic ao da soma de vectores aleat orios.
7.1 Integracao de variaveis aleatorias complexas
Como bem sabemos, o conjunto dos n umeros complexos pode ser identicado com
o conjunto R
2
dos pontos do plano, associando-se a cada complexo z = x + i y o par
ordenado (x, y). A x chamamos parte real de z, e escrevemos x = Re(z) e a y parte
imaginaria de z que denotamos por y = Im(z). Considerando em R
2
a norma euclide-
ana e em C a norma do modulo ([z[ =
_
x
2
+y
2
), conclumos facilmente que os abertos
de cada um dos conjuntos podem ser tambem identicados, o mesmo acontecendo re-
lativamente às -algebras de Borel B(C) e B(R
2
).
Toda a fun cao complexa Z denida num conjunto pode escrever-se na forma
Z = Re(Z) + i Im(Z), onde Re(Z) e Im(Z) sao fun coes reais denidas, para ,
por Re(Z)() = Re(Z()) e Im(Z)() = Im(Z()). As observa coes preliminares ante-
riores implicam que uma fun cao Z denida num espa co de probabilidade (, /, P) com
valores em (C, B(C)) e uma variavel aleatoria sse a fun cao de (, /, P) em (R
2
, B(R
2
))
denida por (Re(Z), Im(Z)) e tambem uma variavel aleatoria, ou ainda, sse Re(Z)
e Im(Z) sao variaveis aleatorias reais. Neste caso dizemos que Z e uma vari avel
aleatoria complexa.
Tendo em conta o que atras foi dito, a deni cao de esperan ca matematica duma
variavel aleatoria complexa surge agora de forma natural.
Deni cao 7.1.1 Uma vari avel aleat oria complexa Z diz-se integr avel se Re(Z) e
Im(Z) o forem, e nesse caso, a sua esperan ca matem atica e dada por
E(Z) = E(Re(Z)) + i E(Im(Z)).
101
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Teorema 7.1.2 a) O conjunto das vari aveis aleat orias complexas integr aveis e um
espa co vectorial complexo (com a soma e produto escalar denidos da forma habitual).
b) A aplicac ao ZE(Z) desse espaco em C e linear.
Dem: Basta ter em conta que o conjunto das variaveis aleatorias reais integraveis e um
espa co vectorial real e a linearidade da esperan ca matematica para variaveis aleatorias
reais.
Teorema 7.1.3 Uma vari avel aleat oria complexa Z e integr avel sse [Z[ o for, e nesse
caso [E(Z)[ E([Z[).
Dem: A primeira arma cao resulta das desigualdades [Re(Z)[ [Z[, [Im(Z)[ [Z[
e [Z[ [Re(Z)[ + [Im(Z)[. A desigualdade [E(Z)[ E([Z[) e valida se E(Z) =
0. Se E(Z) ,= 0, seja w = E(Z)/[E(Z)[. Entao [E(Z)[ = w
1
E(Z) = E(w
1
Z) =
E(Re(w
1
Z)) (pois [E(Z)[ e real) E([w
1
Z[) = E([Z[).
Antes de terminarmos este curto paragrafo sobre a integra cao de variaveis aleatorias
complexas, observemos que outros resultados que enunciamos relativos à esperan ca
matematica de variaveis aleatorias reais, sao tambem validos para variaveis aleatorias
complexas. Tais resultados podem ser estabelecidos a partir dos correspondentes re-
sultados para variaveis aleatorias reais, considerando separadamente as partes reais e
imaginarias das variaveis aleat orias intervenientes.
7.2 Denicao e primeiras propriedades
A no cao de fun cao caracterstica que introduzimos a seguir e, como veremos ao
longo deste captulo, um instrumento essencial no estudo da distribui cao dum vector
aleatorio. Para x = (x
1
, . . . , x
d
) e y = (y
1
, . . . , y
d
) em R
d
, denotaremos por x, y) o
produto interno usual em R
d
, isto e, x, y) =
d
j=1
x
j
y
j
.
Deni cao 7.2.1 Chamamos fun c ao caracterstica dum vector aleat orio X em R
d
(ou func ao caracterstica de P
X
), ` a func ao de R
d
em C denida por
X
(t) = E(e
i t,X
), para t R
d
.
Notemos que como [e
i t,X
[ = 1, a esperan ca matematica anterior esta bem denida.
Teorema 7.2.2 Se
X
e a func ao caracterstica dum vector aleat orio X ent ao:
a)
X
(0) = 1;
b) [
X
(t)[ 1, para todo o t R
d
;
c)
X
(t) =
X
(t), para todo o t R
d
;
d)
X
e uma fun c ao contnua.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
7 Func ao caracterstica 103
Dem: As alneas a), b) e c) sao consequencia imediata da deni cao de fun cao carac-
terstica. A continuidade de
X
resulta da continuidade sob o sinal de integral.
Atendendo à alnea c) anterior, a fun cao caracterstica duma variavel aleatoria
simetrica relativamente à origem e uma fun cao real. Neste caso
X
(t) = E(cos(t, X))),
para t R
d
.
O calculo da fun cao caracterstica duma variavel aleatoria pode revelar-se um tra-
balho arduo. Tal e o caso do segundo dos exemplos seguintes.
Exemplos 7.2.3 1. Se X e uma v.a. de Bernoulli de parametro p, entao
X
(t) =
e
i t.1
p +e
i t.0
(1 p) = 1 p(1 e
i t
), para t R.
2. Se X e uma v.a. normal centrada e reduzida, entao
X
(t) = e
t
2
/2
, para t
R. Com efeito, como
X
(t) = E(cos(tX)) =
1
2
_
cos(tx)e
x
2
/2
d(x) e
X
(t) =
1
2
_
xsin(tx)e
x
2
/2
d(x) = t
X
(t), obtemos a equa cao diferencial
X
(t)/
X
(t) =
t, que possui como solu cao
X
(t) = e
c
e
t
2
/2
, ou ainda,
X
(t) = e
t
2
/2
, uma vez que
X
(0) = 1.
As fun coes caractersticas de subvectores dum vector X podem ser obtidas facil-
mente a partir de
X
. Faceis de obter sao tambem as fun coes caractersticas de trans-
forma coes ans dum vector X.
Teorema 7.2.4 Se X = (X
1
, X
2
) e um vector aleat orio em R
p+q
, ent ao
X
1
(t
1
) =
X
(t
1
, 0) e
X
2
(t
2
) =
X
(0, t
2
),
para todo o t
1
R
p
e t
2
R
q
.
Teorema 7.2.5 Sejam X um vector aleat orio sobre R
p+q
, A uma matriz real de tipo
p q e b R
p
. Ent ao
AX+b
(t) = e
i t,b
X
(A
T
t), para t R
p
.
Como aplica cao deste ultimo resultado, podemos obter a fun cao caracterstica duma
variavel Y N(m,
2
), pois Y X +m, com X N(0, 1), e assim
Y
(t) = e
i tm
X
(t) = e
i tm
e
2
t
2
/2
, t R.
Exerccios
1. Demonstre os Teoremas 7.2.4 e 7.2.5.
2. Para as seguintes v.a. calcule a sua fun cao caracterstica:
(a) Variavel constantemente igual a m;
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
(b) Binomial de parametros n e p;
(c) Poisson de parametro ;
(d) Exponencial de parametro ;
(e) Uniforme sobre o intervalo [a, a].
3. Seja (X, Y ) o vector aleatorio com densidade
f(x, y) =
1
2
_
1
2
e
(x
2
2xy+y
2
)/(2(1
2
))
,
onde ]1, 1[ (ver Exemplo 1.3.5). Calcule
(X,Y )
e
Y
.
(Sugestao: Use o Exerccio 1.7.3.)
4. Mostre que sao equivalentes as seguintes proposi coes: i) P(X Z) = 1; ii)
X
e peri odica
de perodo 2; iii)
X
(2) = 1.
5. Prove que se P
X
e difusa, entao
X
(t) < 1, para todo o t R 0.
7.3 Derivadas e momentos
Uma aplica cao importante das fun coes caractersticas e agora abordada. Trata-se
do calculo dos momentos dum vector aleatorio.
Teorema 7.3.1 Se X e um vector aleat orio sobre R
d
com E[[X[[
m
< +, para algum
m N, ent ao
X
possui derivadas parciais de ordem m e, para t R
d
,
X
t
j
1
. . . t
jm
(t) = i
m
E(X
j
1
. . . X
jm
e
i t,X
).
Dem: Comecemos por estabelecer o resultado para m = 1. Sendo e
i
o i-esimo vector
da base canonica de R
d
, temos, para t R
d
e h R, (
X
(t + he
j
1
)
X
(t))/h =
E(e
i t,X
(e
i hX
j
1
1)/h), onde [e
i t,X
(e
i hX
j
1
1)/h[ [(e
i hX
j
1
1)/h[ [X
j
1
[ [[X[[,
uma vez que [e
i x
1[ [x[, para todo o x R. Como e
i t,X
(e
i hX
j
1
1)/h
e
i t,X
i X
j
1
e X e integravel, do teorema da convergencia dominada conclumos que
X
t
j
(t) = i E(X
j
1
e
i t,X
). Suponhamos agora que o resultado e verdadeiro para o
natural k e provemos que ainda valido para k + 1. Para t R
d
e h R, temos
(

k
X
t
j
1
...t
j
k
(t +he
j
k+1
)

k
X
t
j
1
...t
j
k
(t))/h = i
k
E(X
j
1
. . . X
j
k
e
i t,X
(e
i hX
j
k+1
1)/h). Uma
nova aplica cao do teorema da convergencia dominada permite concluir.
Tendo em conta o resultado sobre a deriva cao sob o sinal de integral, conclumos,
do resultado anterior, que as derivadas parciais de ordem m de
X
sao contnuas.
No caso das variaveis aleat orias reais obtemos o corolario seguinte:
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Corolario 7.3.2 Se X e uma vari avel aleat oria real com E[X[
m
< +, para algum
m N, ent ao
(k)
X
(0) = i
k
E(X
k
), para k = 1, . . . , m.
A nao existencia da derivada de ordem k de
X
na origem, implica assim a nao
integrabilidade de X
k
. Ainda no contexto real, e possvel provar que a existencia da
derivada de ordem m de
X
na origem, implica a existencia do momento de ordem m
de X quando m e par, e do momento de ordem m 1 de X quando m e mpar (ver
Metivier, 1972, pg. 157 e seguintes).
Exerccios
1. Utilize o Corolario 7.3.2 para calcular a media e variancia das seguintes variaveis:
(a) Binomial de parametros n e p;
(b) Poisson de parametro ;
2. Se X N(0, 1), mostre que E(X
2n1
) = 0 e E(X
2n
) = (2n)!/(2
n
n!), para todo o n N.
3. Retome o Exerccio 7.2.3 e calcule C
(X,Y )
.
7.4 Injectividade
Neste paragrafo mostraremos que a fun cao caracterstica dum vector aleatorio cara-
cteriza a sua distribui cao de probabilidade. Fa-lo-emos a partir dos dois resultados
auxiliares seguintes, onde por N
denotaremos um vector aleatorio sobre R

d
de densi-
dade
g
(u) =
1
(
2
2
)
d
e
||u||
2
/(2
2
)
=
d
j=1
1
2
2
e
u
2
j
/(2
2
)
, (7.4.1)
para u = (u
1
, . . . , u
d
), onde [[ [[ denota a norma euclideana em R
d
. Atendendo à forma
da sua densidade, N
e um vector aleatorio com margens independentes que seguem

distribui coes normais de media zero e variancia
2
. Comecemos por determinar a fun cao
caracterstica deste vector.
Lema 7.4.2 Para t R
d
,
N
(t) = e
2
||t||
2
/2
.
Dem: Atendendo à forma produto (7.4.1) da densidade de N
podemos dizer que N

(N
1
, . . . , N
d
), onde, para i = 1, . . . , d, N
i
e uma variavel aleatoria normal de media
zero e variancia
2
, e alem disso, tais variaveis sao independentes. Assim, para t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
R
d
,
N
(t) = E(e
i t,N
) = E(e
i
d
j=1
t
j
N
j
) = E(
d
j=1
e
i t
j
N
j
) =
d
j=1
E(e
i t
j
N
j
) =
d
j=1
N
j
(t
j
) =
d
j=1
e
2
t
2
j
/2
= e
2
||t||
2
/2
.
Lema 7.4.3 Se X e um vector aleat orio em R
d
e h e uma func ao limitada e contnua
de R
d
em R, ent ao
E(h(X)) =
1
(2)
d
lim
0
_
h(x)
_

X
(u)e
i u,x
2
||u||
2
/2
d(u)d(x).
Dem: Comecemos por notar que E(h(X)) = lim
0
_
h(x)
_
g
(x y) dP
X
(y)d(x).
Com efeito, pelo teorema da mudan ca de variavel e pelo teorema da convergencia domi-
nada, temos
_
h(x)
_
g
(xy) dP
X
(y)d(x) =
_ _
h(x)
d
g
1
(
1
(xy)) dP
X
(y)d(x)
=
_ _
h(y+u)g
1
(u) d(P
X
)(y, u)
_ _
h(y)g
(
u) d(P
X
)(y, u) =
_
h(y) dP
X
(y) =
E(h(X)). Para concluir vamos agora mostrar que
_
g
(xy) dP
X
(y) = (2)
d
_

X
(u)
e
i x,u
2
||u||
2
/2
d(u). Para tal, notemos que as fun coes g
e
N
estao relacionadas
pela igualdade g
(x) =
N
1/
(x)/(
2)
d
, para x R
d
, o que permite escrever
_
g
(xy) dP
X
(y) =
_

N
1/
(y x)/(
2)
d
dP
X
(y) = (
2)
d
_ _
e
i yx,u
g
1/
(u)
d(u) dP
X
(y) = (2)
d
_
e
i x,u
2
||u||
2
/2
_
e
i y,u
dP
X
(y) d(u) = (2)
d
_

X
(u)
e
i x,u
2
||u||
2
/2
d(u).
Teorema 7.4.4 Se X e Y s ao vectores aleat orios em R
d
(n ao necessariamente deni-
dos sobre o mesmo espaco de probabilidade), ent ao
X
=
Y
sse X Y .
Dem: Provaremos que o conhecimento de
X
implica o conhecimento de P
X
(A) para
todo o A B(R
d
), ou equivalentemente, para todo o rectangulo A semi-aberto à es-
querda. Conhecendo
X
, sabemos pelo lema anterior que conhecemos E(h(X)) para
toda a fun cao limitada e contnua em R
d
. Dado agora um rectangulo A semi-aberto à
esquerda, sabemos que existe uma sucessao (h
n
) de fun coes contnuas e limitadas com
0 h
n
1 e h
n
1I
A
, o que, pelo teorema da convergencia dominada, implica que
E(h
n
(X)) E(1I
A
(X)) = P
X
(A).
Exerccios
1. Sendo X um vector aleatorio em R
d
, mostre que
X
e uma fun cao real sse X e simetrico
relativamente à origem (i.e. X X).
2. Sendo X e Y vectores aleatorios em R
d
, mostre que X Y sse a, X) = a, Y ), para
todo o a R
d
.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
7.5 Formulas de inversao
Dos resultados anteriores, sabemos que para A B(R
d
) e sendo (h
n
) uma sucessao
de fun coes contnuas e uniformemente limitadas com h
n
1I
A
, vale a igualdade
P
X
(A) = lim
n+
lim
0
1
(2)
d
_
h
n
(x)
_

X
(u)e
i u,x
2
||u||
2
/2
d(u)d(x).
Esta igualdade da-nos uma primeira formula de inversao da fun cao caracterstica de X,
permitindo explicitar P
X
em fun cao de
X
.
Apesar de existirem outras formulas de inversao mais expeditas que a anterior em
termos de calculo efectivo, limitar-nos-emos, no que se segue, a apresentar uma formula
de inversao da fun cao caracterstica no caso desta ser integravel à Lebesgue.
Teorema 7.5.1 Seja X um vector aleat orio em R
d
. Se
X
e integr avel ` a Lebesgue,
ent ao X e absolutamente contnuo e admite uma densidade de probabilidade contnua
e limitada dada, para x R
d
, por
g(x) =
1
(2)
d
_

X
(u)e
i u,x
d(u).
Dem: Comecemos por notar que sendo
X
integravel, a fun cao g dada pela formula
anterior e limitada e contnua. Alem disso, g e real pois g = g. Tendo em conta o Lema
7.4.3 e o teorema da convergencia dominada, E(h(X)) =
1
(2)
d
_
h(x)
_

X
(u)e
i u,x
d(u)d(x) =
_
h(x)g(x) d(x), para todo a fun cao h contnua e limitada em R
d
de
suporte compacto. Dado agora um rectangulo A semi-aberto à esquerda, existe uma
sucessao de fun coes (h
n
) contnuas de suporte compacto com h
n
1I
A
e 0 h
n

1I
E
, onde E e um rectangulo fechado que contem A (esta majora cao e essencial para
podermos aplicar o teorema da convergencia dominada, uma vez que nao provamos
ainda que g e -integravel). Pelo teorema da convergencia dominada, obtemos P
X
(A) =
E(1I
A
(X)) = limE(h
n
(X)) = lim
_
h
n
(x)g(x) d(x) =
_
A
g(x) d(x), o que permite
concluir que P
X
= g , como pretendamos (a integrabilidade e nao-negatividade de g
e consequencia desta igualdade).
Exerccios
1. Se X e uma v.a. de Cauchy de parametros 0 e 1, mostre que
X
(t) = e
|t|
, para t R.
Conclua que E[X[ = +.
2. Se X e tal que P(X Z) = 1, mostre que, para todo o n Z,
P(X = n) =
1
2
_
2
0
e
i tn
X
(t) d(t).
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
7.6 Independencia e soma de vectores aleatorios
Iniciamos este paragrafo apresentando uma caracteriza cao da independencia das
margens dum vector aleatorio em termos da sua fun cao caracterstica.
Teorema 7.6.1 Seja X = (X
1
, X
2
) um vector aleat orio sobre R
p+q
. X
1
, X
2
s ao inde-
pendentes sse
X
(t
1
, t
2
) =
X
1
(t
1
)
X
2
(t
2
),
para todo o t
1
R
p
e t
2
R
q
.
Dem: Procedendo como na demonstra cao do Lema 7.4.2, conclumos facilmente que a
independencia dos vectores X
1
e X
2
implica a forma produto anterior para a fun cao
caracterstica de X. Reciprocamente, sejam Y
1
e Y
2
vectores independentes denidos
num espa co de probabilidade (
, /
, P
) com Y
i
X
i
, para i = 1, 2, e Y = (Y
1
, Y
2
).
Pela primeira parte da demonstra cao e por hipotese,
Y
(t
1
, t
2
) =
Y
1
(t
1
)
Y
2
(t
2
) =
X
1
(t
1
)
X
2
(t
2
) =
X
(t
1
, t
2
), para todo o t
1
R
p
e t
2
R
q
. Assim, X Y , ou
ainda, P
X
= P
Y
= P
Y
1
P
Y
2
= P
X
1
P
X
2
, o que permite concluir que X
1
e X
2
sao
independentes.
O resultado seguinte, tem um papel importante no estudo da distribui cao duma
soma de vectores aleatorios independentes. A sua demonstra cao e deixada ao cuidado
do aluno.
Teorema 7.6.2 Sejam X
1
, . . . , X
n
vectores aleat orios com valores em R
d
denidos
num mesmo espaco de probabilidade. Se X
1
, . . . , X
n
s ao independentes , ent ao
n
j=1
X
j
(t) =
n
j=1
X
j
(t),
para todo o t R
d
.
Usando este resultado, conclumos facilmente que qualquer combina cao linear nao-
-nula de variaveis aleatorias normais independentes X
1
, . . . , X
n
, com X
j
N(m
j
,
2
j
),
e ainda uma variavel aleatoria normal, uma vez que, para t R, e a
1
, . . . , a
n
R,
n
j=1
a
j
X
j
(t) = e
i t
n
j=1
a
j
m
j
e
n
j=1
2
j
a
2
j
t
2
/2
,
que nao e mais do que a fun cao caracterstica duma vari avel aleatoria normal de media
n
j=1
a
j
m
j
e variancia
n
j=1
2
j
a
2
j
, sempre que pelo menos um dos a
j
seja diferente de
zero.
Exerccios
1. Verique que o recproco do Teorema 7.6.2 e falso, considerando X
1
= . . . = X
n
= X,
com X uma variavel de Cauchy de parametros 0 e 1.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
2. Use o Teorema 7.6.2 para calcular a fun cao caracterstica duma v.a. binomial de par ametros
n e p.
3. Se X
1
, . . . , X
n
sao v.a. independentes com distribui coes de Poisson de parametros
1
, . . . ,
n
,
mostre que
n
j=1
X
j
e ainda uma v.a. de Poisson de parametro
n
j=1
j
.
4. Dizemos que uma v.a. real X tem uma distribui cao Gama de parametros > 0 e
> 0, e escrevemos X Gama(, ), se admite uma densidade de probabilidade da
forma
f(x) =
_

()
x
1
e
x
, se x 0
0, se x < 0,
onde e a fun cao Gama (ver Exerccio 3.3.4).
(a) Sabendo que uma v.a. X com uma distribui cao Gama de parametros > 0 e > 0,
tem por fun cao caracterstica
X
(t) =

( i t)
,
mostre que se X
1
, . . . , X
n
sao v.a.r. i.i.d. com X
j
Gama(
j
, ), entao
n
j=1
X
j

Gama(
n
j=1
j
, ).
(b) Verique que as distribui coes exponencial e do qui-quadrado sao casos particula-
res da distribui cao Gama. Mais precisamente
2
n
= Gama(n/2, 1/2) e E() =
Gama(1, ).
7.7 Bibliograa
Lukacs, E. (1964). Fonctions Caracteristiques, Dunod, Paris.
Metivier, M. (1972). Notions Fondamentales de la Theorie des Probabilites, Dunod.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Captulo 8
Vectores aleatorios normais
Denic ao de vector aleat orio normal. Func ao caracterstica e independencia das mar-
gens. Continuidade absoluta.
8.1 Denicao e existencia
Como sabemos, uma variavel aleatoria real diz-se normal centrada e reduzida,
se e absolutamente contnua relativamente à medida de Lebesgue sobre R e admite uma
versao da densidade de probabilidade da forma
f(x) =
1
2
exp
_
x
2
2
_
, x R.
A no cao de variavel aleatoria normal que a seguir introduzimos, e, como veremos,
mais geral do que a que consideramos nos captulos anteriores.
Deni cao 8.1.1 Dizemos que uma vari avel aleat oria real X e normal, se
X U +m,
para algum , m R, onde U e uma vari avel aleat oria normal centrada e reduzida.
Claramente E(X) = m e Var(X) =
2
. Se ,= 0, a no cao de variavel normal agora
introduzida e precisamente a no cao anteriormente considerada, uma vez que neste caso
X possui uma densidade de probabilidade dada por
f(x) =
1
2
2
exp
_
(x m)
2
2
2
_
, x R.
Se = 0, X e degenerada. Estamos assim a incluir na famlia das vari avel aleatoria
normais as variaveis degeneradas. Tal como atras, indicaremos X N(m,
2
), e facil-
mente se deduz que a fun cao caracterstica de X e dada por
X
(t) = exp( i tm) exp(t
2
2
/2), t R.
111
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Deni cao 8.1.2 Um vector aleat orio X em R
d
diz-se normal, ou que possui uma
distribui cao normal, se a, X) =
d
i=1
a
i
X
i
e uma vari avel aleat oria normal, para
todo o a R
d
.
Por outras palavras, um vector aleatorio diz-se normal se qualquer combina cao
linear das suas margens for uma variavel aleatoria normal. Se X
1
, . . . , X
d
sao variaveis
aleatorias normais independentes e nao-degeneradas, sabemos do captulo anterior que
qualquer combina cao linear delas ainda uma variavel aleatoria normal. Nesse caso
(X
1
, . . . , X
d
) e um vector aleatorio normal. Como podemos concluir do Exerccio 3
seguinte, um vector aleatorio com margens normais nao e necessariamente normal.
Exerccios
1. Mostre que as margens dum vector aleatorio normal sao normais.
2. Mostre que o vector N
com densidade de probabilidade dada por (7.4.1) e normal.

3. Considere o vector aleatorio (U, V ) denido no Exerccio 2.2.3. Prove que U + V n ao e
uma v.a. normal, apesar de U e V o serem.
4. Sejam X um vector aleatorio normal em R
p
, A uma matriz real de tipo d p, e m R
d
.
Prove que AX +m e um vector aleatorio normal em R
d
.
8.2 Funcao caracterstica e independencia das margens
Se X e um vector aleatorio de quadrado integravel com margens independentes,
sabemos ja que a sua matriz de covariancia C
X
e diagonal. Mostramos a seguir que no
caso dos vectores aleatorios normais, a condi cao recproca e tambem verdadeira.
Comecemos por determinar a fun cao caracterstica dum vector aleatorio normal.
Teorema 8.2.1 Se X e um vector aleat orio normal em R
d
, a sua func ao caracterstica
e dada por
X
(t) = exp( i t, E(X))) exp(t, C
X
t)/2), t R
d
.
Dem: Sendo X normal, t, X) e uma variavel normal para t R
d
. Assim,
X
(t) =
t,X
(1) = exp( i E(t, X))) exp(Var(t, X))/2). Para concluir basta agora notar que
E(t, X)) = t, E(X)) e Var(t, X)) = t, C
X
t).
Conclumos do resultado anterior que, analogamente ao caso real, a distribui cao
dum vector aleatorio normal e caracterizada pela sua esperan ca matematica e pela sua
matriz de covariancia. A nota cao X N(m, ), indica assim que X e um vector
aleatorio normal de media m e matriz de covariancia .
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
8 Vectores aleat orios normais 113
Estamos agora em condi coes de estabelecer a caracterizacao ja anunciada da inde-
pendencia das margens dum vector aleatorio normal.
Teorema 8.2.2 Se X = (X
1
, . . . , X
d
) e um vector aleat orio normal em R
d
, ent ao
X
1
, . . . , X
d
s ao vari aveis aleat orias reais independentes sse Cov(X
i
, X
j
) = 0 para todo
o i ,= j.
Dem: Sendo X
1
, . . . , X
d
variaveis independentes, sabemos ja que sao duas a duas
nao correlacionadas. Reciprocamente, se Cov(X
i
, X
j
) = 0, para i ,= j, entao
X
(t) =
exp( i
d
j=1
E(X
j
)t
j
) exp(
d
j=1
t
2
j
Var(X
j
)/2) =
d
j=1
exp( i E(X
j
)t
j
) exp(t
2
j
Var(X
j
)
/2) =
d
j=1
X
j
(t
j
), para t R
d
. O Teorema 7.6.1 permite agora concluir.
Exerccios
1. Seja (X, Y ) um ve.a. absolutamente contnuo de densidade
f(x, y) =
1
2
_
(
2 e
x
2
/2
e
x
2
)e
y
2
+ (
2 e
y
2
/2
e
y
2
)e
x
2
_
,
para (x, y) R
2
. Prove que:
(a) X e Y sao v.a. normais;
(b) Cov(X, Y ) = 0;
(c) X e Y nao sao v.a. independentes.
2. Utilizando o Teorema 8.2.1:
(a) resolva o Exerccio 8.1.4;
(b) mostre que (X
1
, . . . , X
d
) e normal quando X
1
, . . . , X
d
sao v.a.r. normais e indepen-
dentes.
8.3 Continuidade absoluta
Neste paragrafo apresentamos uma caracteriza cao da continuidade absoluta dum
vector aleatorio normal em termos da sua matriz de covariancia.
Lema 8.3.1 Sejam X um vector aleat orio normal sobre R
d
n ao-degenerado com media
m e matriz de covari ancia , e k = car(). Ent ao existe uma matriz A de tipo d k
com AA
T
= , tal que X AY +m, onde Y N(0, I
k
).
Dem: Sendo a matriz de covariancia de X, e simetrica e semi-denida positiva.
Existe entao uma matriz ortogonal P (P
T
= P
1
) que diagonaliza , isto e, P
T
P =
D, com D = diag(
1
, . . . ,
d
), onde
i
> 0, para i = 1, . . . , k, e
i
= 0, para i =
k + 1, . . . , d, sao os valores proprios de . Tomando agora
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
A = P
_
1
0
.
.
.
0
k
0 0 0
_
_
, (8.3.2)
temos = AA
T
, com A uma matriz de tipo d k. Alem disso, se Y N(0, I
k
), e facil
vericar que X AY +m.
Teorema 8.3.3 Seja X um vector aleat orio normal sobre R
d
com matriz de covari ancia
C
X
. Ent ao:
a) Se car(C
X
) = 0, X e degenerado.
b) Se 0 < car(C
X
) < d, X e singular e P
X
est a concentrada num subespaco am
de dimens ao k.
c) Se car(C
X
) = d, X e absolutamente contnuo e tem por vers ao da densidade de
probabilidade
f
X
(x) =
1
_
(2)
d
det(C
X
)
exp
_
1
2
x E(X), C
1
X
(x E(X)))
_
, x R
d
.
Dem: a) Se car(C
X
) = 0, temos Var(X
i
) = 0, para todo o i = 1, . . . , d, e portanto
todas variaveis X
i
sao degeneradas. b) Se 0 < car(C
X
) = k < d, pelo lema anterior
existe A de tipo d k dada por (8.3.2), tal que X AY + E(X), onde Y N(0, I
k
).
Para S = Ay + E(X) : y R
k
, temos P
X
(S) = P
AY +E(X)
(S) = P
Y
(R
k
) = 1
e
d
(S) = 0. X esta assim concentrada no subespa co am S de dimensao k e e
alheia relativamente à medida de Lebesgue sobre R
d
. Alem disso, P
X
e difusa pois,
para x = Ay + E(X) S, P
X
(x) = P(AY = Ay) = P(Y = y) = 0. X e as-
sim um vector difuso. c) Pelo Lema 8.3.1, existe A invertvel de tipo d d tal que
AA
T
= C
X
e X AY + E(X), com Y N(0, I
d
). Utilizando agora a formula
de transforma cao de vectores aleatorios absolutamente contnuos, obtemos f
X
(x) =
f
Y
(A
1
(xE(X)))[ det(A
1
)[ = [ det(A)[
1
(2)
d/2
exp((A
1
(xE(X)))
T
(A
1
(x
E(X)))/2) = ((2)
d
det(C
X
))
1/2
exp(x E(X), C
1
X
(x E(X)))/2).
Exerccios
1. O vector (X, Y ) segue uma distribui cao normal sobre R
2
de densidade
f(x, y) = k exp((x
2
xy +y
2
/2)/2), (x, y) R
2
.
(a) Determine k e o coeciente de correla cao de (X, Y ).
(b) Sejam U e V as v.a.r. denidas, para a R, por U = 3X + aY e V = aX Y.
Determine a de modo que U e V sejam independentes e nesse caso calcule E(UV )
2
.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
8 Vectores aleat orios normais 115
2. Mostre que o vector (X, Y ) denido no Exemplo 2.1.9 e um vector aleatorio normal.
3. Sejam X
1
, . . . , X
n
v.a.r. independentes com distribui cao normal de media 0 e vari ancia
2
> 0, e Y o vector aleatorio sobre R
n
denido por Y = AX, com X = (X
1
, . . . , X
n
)
T
e A uma matriz ortogonal de ordem n (note que A possui por linhas (resp. colunas)
vectores ortonormados). Sejam ainda

X
n
e
2
n
as media e variancia empricas das vari aveis
X
1
, . . . , X
n
(a) Mostre que Y X.
(b) Se a primeira linha de A e igual a (1/
n, . . . , 1/
n), mostre que
n
k=2
Y
2
k
=
n
i=1
(X
i

X
n
)
2
.
(c) Conclua que:
i.

X
n
e
2
n
sao variaveis independentes;
ii.
(n 1)
2
n
2

2
n1
.
8.4 Bibliograa
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Captulo 9
Convergencia em distribuicao
Convergencia em distribui c ao de vectores aleat orios. Algumas caracterizac oes. Rela c oes
com os outros modos de convergencia. Os teoremas da selecc ao de Helly, de Prohorov.
e da continuidade de LevyBochner. O teorema de CramerWold.
9.1 Denicao e unicidade do limite
A no cao de convergencia duma sucessao (X
n
) de vectores aleatorios para um vector
aleatorio X que estudamos neste captulo e de natureza distinta das convergencias
funcionais consideradas no Captulo 5. Para tais modos de convergencia interessam os
valores particulares que tomam os vectores X
n
e X em pontos do conjunto onde estao
denidos. Para a no cao de convergencia que a seguir introduzimos, interessam apenas
as probabilidades com que esses vectores tomam tais valores.
Se X e uma variavel aleatoria em R
d
, denotaremos por F
X
a sua fun cao de distri-
bui cao e por C(F
X
) o conjunto dos pontos de continuidade de F
X
. Salvo indica cao em
contrario, ao longo deste captulo (X
n
) e X sao vectores aleatorios em R
d
. Como ja
sabemos, e com excep cao do caso real, o conjunto dos pontos de descontinuidade de
F
X
pode ser nao-numeravel. No entanto, tal como no caso real, C(F
X
) e denso em R
d
,
uma vez que
d
i=1
C(F
X
i
) C(F
X
), onde X = (X
1
, . . . , X
d
).
Deni cao 9.1.1 Dizemos que uma sucess ao (X
n
) de vectores aleat orios, n ao necessa-
riamente denidos num mesmo espaco de probabilidade, converge em distribui c ao
(ou em lei) para X, e escrevemos X
n
d
X, se
limF
Xn
(x) = F
X
(x), x C(F
X
).
Notemos que seria desapropriado impor que a condi cao anterior fosse vericada para
todo o ponto de R
d
como ilustra o exemplo da sucessao X
n
= 1/n que, segundo um
117
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
qualquer modo de convergencia aceitavel, devera convergir para X = 0. Reparemos que
F
Xn
(x) converge para F
X
(x), para todo o x R, com excep cao do ponto x = 0, unico
ponto de descontinuidade de F
X
. No caso da sucessao X
n
= 1/n, F
Xn
(x) converge
para F
X
(x), para todo o x R.
O exemplo da sucessao X
n
= (1)
n
X, onde X N(0, 1), e ilustrativo da diferen ca
entre a no cao de convergencia agora introduzida e as anteriormente estudadas, uma vez
que X
n
X, e no entanto X
n
nao converge em probabilidade para X.
Terminamos este paragrafo estabelecendo a unicidade do limite em distribui cao no
sentido seguinte:
Proposi cao 9.1.2 Se X
n
d
X e X
n
d
Y , ent ao X Y .
Dem: Por hipotese F
X
(x) = F
Y
(x), para todo o x C(F
X
)C(F
Y
). Atendendo agora
a que C(F
X
) C(F
Y
) e denso em R
d
(porque?) e que F
X
e F
Y
sao contnuas à direita,
conclumos que F
X
= F
Y
, ou seja, X Y .
Exerccios
1. Se X = (X
1
, . . . , X
d
) e ve.a. em R
d
, mostre que
d
i=1
C(F
Xi
) C(F
X
).
(Sugestao: Tenha em conta o Teorema 2.4.3.)
2. Sejam (X
n
) e X v.a. denidas por X
n
=
n
e X = , onde (
n
) e , sao n umeros reais.
Mostre que X
n
d
X sse
n
.
3. Sejam (X
n
) uma sucessao de v.a. independentes com distribui cao exponencial de par ame-
tro 1 e M
n
=
_
n
i=1
X
i
, para n N. Mostre que M
n
ln n
d
Y, onde P(Y x) =
exp(e
x
), para x R.
4. Sejam (X
n
) e X ve.a. em R
d
com densidades de probabilidade (f
n
) e f, respectivamente,
tais que: a) [f
n
[ [g[, -q.c., para alguma fun cao integravel g; b) limf
n
= f, -q.c..
Mostre que X
n
d
X.
9.2 Caracterizacoes e primeiras propriedades
Estabelecemos neste paragrafo caracteriza coes importantes e algumas propriedades
da convergencia em distribui cao. Qualquer uma destas caracteriza coes pode ser usa-
da para denir convergencia em distribui cao para variaveis aleatorias com valores em
espa cos metricos gerais nos quais a no cao de fun cao de distribui cao se revela desprovida
de sentido.
Teorema 9.2.1 As proposi c oes seguintes s ao equivalentes:
i) X
n
d
X;
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
9 Convergencia em distribui c ao 119
ii) E(f(X
n
))E(f(X)), para toda a func ao f contnua e limitada de R
d
em R.
iii) E(f(X
n
))E(f(X)), para toda a func ao f uniformemente contnua e limitada
de R
d
em R.
iv) P
Xn
(A)P
X
(A), para todo o A B(R
d
), com P
X
(fr(A)) = 0.
Dem: As implica coes ii) iii) e iv) i), sao claramente verdadeiras. Para estabelecer
iii) iv), consideremos A B(R
d
), com P
X
(fr(A)) = 0, e consideremos a fun cao
uniformemente contnua
(t) =
_
_
1, se t 0
1 t, se 0 < t < 1
0, se t 1.
Para p N, tomemos as fun coes f
p
(y) = (p d(y, A)) e g
p
(y) = (1 p d(y, A
c
)),
denidas para y R
d
, onde d(y, A) denota a distancia de y a A. Para p N, te-
mos E(g
p
(X
n
)) E(1I
A
(X
n
)) E(f
p
(X
n
)), para n N, e por hipotese E(g
p
(X))
liminf P
Xn
(A) liminf P
Xn
(A) E(f
p
(X)), uma vez que g
p
e f
p
sao uniforme-
mente contnuas. Pelo teorema da convergencia dominada, g
p
1I
int(A)
e f
p
1I
A
,
o que implica P
X
(int(A)) liminf P
Xn
(A) liminf P
Xn
(A) P
X
(A), ou ainda,
P
X
(A) liminf P
Xn
(A) liminf P
Xn
(A) P
X
(A), uma vez que P
X
(fr(A)) = 0. Fi-
nalmente, e no caso d = 1, vamos estabelecer a implica cao i) ii). Sejam a, b C(F
X
)
tais que P
X
(]a, b]) > 1 , com > 0 xo à partida. Por hipotese, e para n n
1
,
temos P
Xn
(]a, b]) = F
Xn
(b) F
Xn
(a) = (F
Xn
(b) F
X
(b)) +(F
X
(b) F
X
(a)) +(F
X
(a)
F
Xn
(a)) > 1 2, ou ainda, P(X
n
/ ]a, b]) < 2. Seja agora f uma fun cao contnua e
limitada em R. Sendo f uniformemente contnua em [a, b] existe um conjunto nito de
pontos a = a
0
< a
1
< . . . < a
k
= b tal que [f(x)f(a
j
)[ < , para x [a
j1
, a
j
[, onde os
a
j
podem ser tomados em C(F
X
). A fun cao escalonada g =
k
j=1
f(a
j
)1I
]a
j1
,a
j
]
satisfaz
[f(x) g(x)[ < , para todo o x ]a, b]. Assim, [E(f(X
n
)) E(g(X
n
))[ E([f(X
n
)
g(X
n
)[1I
Xn]a,b]
) + E([f(X
n
) g(X
n
)[1I
Xn / ]a,b]
) + sup
xR
[f(x)[ P(X
n
/ ]a, b]) <
(1 + 2 sup
xR
[f(x)[). De forma analoga, [E(f(X)) E(g(X))[ < (1 + sup
xR
[f(x)[).
Tendo agora em conta a deni cao de g, E(g(X
n
)) =
k
j=1
f(a
j
)(F
Xn
(a
j
) F
Xn
(a
j1
)),
obtendo-se uma expressao analoga para E(g(X)). Existe entao n
2
N, tal que
[E(g(X
n
)) E(g(X))[ < , para n n
2
. Finalmente, para n max(n
1
, n
2
), obte-
mos [E(f(X
n
)) E(f(X))[ < 3(1 + sup
xR
[f(x)[).
Tal como para os outros modos de convergencia estudados, a convergencia em dis-
tribui cao e preservada por transforma coes contnuas.
Teorema 9.2.2 Se X
n
d
X ent ao g(X
n
)
d
g(X), para toda a func ao contnua de
R
d
em R
k
.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Dem: Sendo f : R
k
R contnua e limitada, temos por hipotese E((f g)(X
n
))
E((f g)(X)), ou ainda E(f(g(X
n
))) E(f(g((X))). Tendo em conta teorema anterior
conclumos que g(X
n
)
d
g(X).
No caso dos vectores aleatorios (X
n
) e X serem absolutamente contnuos, se as den-
sidades de probabilidade de f
Xn
de X
n
sao uniformemente limitadas por uma fun cao
integravel, a convergencia -quase em todo o ponto de f
Xn
para f
X
, implica a con-
vergencia em distribui cao de X
n
para X (ver Exerccio 9.1.4). Como se mostra a seguir,
esta convergencia em distribui c ao pode ser obtida sob condi coes menos restritivas.
Teorema 9.2.3 (de Schee
1
) Sejam (X
n
) e X s ao vectores aleat orios absolutamente
contnuos em R
d
com densidades (f
Xn
) e f
X
, respectivamente. Se f
Xn
f
X
, -q.t.p.,
ent ao X
n
d
X.
Dem: Para x R
d
, temos [F
Xn
(x) F
X
(x)[
_
],x]
[f
n
(t) f(t)[d(t)
_
[f
n
(t)
f(t)[d(t). Ora
_
[f
n
f[d =
_
(f f
n
)
+
d+
_
(f f
n
)
d, e como 0 =
_
(f f
n
)d =
_
(ff
n
)
+
d
_
(ff
n
)
d, conclumos que
_
[f
n
f[d = 2
_
(ff
n
)
+
d. O resultado
e agora consequencia do teorema da convergencia dominada, pois (f f
n
)
+
f e
(f f
n
)
+
0, .q.c.
Exerccios
1. Retome a demonstra cao, feita no caso real, da implica cao i) ii) do Teorema 9.2.1.
Adapte-a ao caso multidimensional.
2. Sejam X
n
, para n N, uma v.a. uniforme sobre o conjunto i/n : i = 1, . . . , n. Mostre
que X
n
d
U([0, 1]).
3. Se (X
n
) e uma sucessao de v.a.r. com X
n
N(m
n
,
2
n
), onde m
n
m e
n
> 0,
mostre que X
n
d
N(m,
2
).
4. Para n N, seja X
n
uma v.a. uniformemente distribuda sobre o intervalo [a
n
, b
n
], onde
a
n
a e b
n
b, com a b. Mostre que X
n
d
U([a, b]).
5. Se (X
n
) e X sao v.a. que tomam valores em N
0
, mostre que X
n
d
X sse P(X
n
= j)
P(X = j), para todo o j N
0
.
6. (Convergencia da binomial para a Poisson) Sejam X
n
B(n, p
n
) com np
n

]0, +[, e X v.a. de Poisson de parametro . Mostre que X
n
d
X.
(Sugestao: Use o Exerccio 2.1.10.)
7. Verique que o recproco do teorema de Schee nao e verdadeiro, mostrando que a su-
cessao (X
n
) de v.a.r. absolutamente contnuas com densidades f
Xn
(x) = (1 cos(2nx))
1I
[0,1]
(x), satisfaz X
n
d
U([0, 1]), e no entanto f
Xn
nao converge -q.t.p. para 1I
[0,1]
.
1
Schee, H., Ann. Math. Statist., 28, 434458, 1947.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
8. (Teorema de Schee para variaveis discretas) Sejam (X
n
) e X v.a. que tomam
valores num conjunto nito ou numeravel S. Mostre que se P(X
n
= j) P(X = j),
para todo o j S, entao X
n
d
X. Verique que a recproca nao e em geral verdadeira
considerando X
n
= 1/n e X = 0.
9.3 Relacoes com os outros modos de convergencia
Com decorre da propria deni cao, quando falamos em convergencia em distribui cao
de X
n
para X os vectores aleatorios X, X
1
, X
2
, . . . nao necessitam de estar denidos
num mesmo espa co de probabilidade. No entanto, quando tal acontece a convergencia
em distribui cao pode ser relacionada com os outros tipos de convergencia ja estudados.
Teorema 9.3.1 Se X
n
p
X, ent ao X
n
d
X.
Dem: Consequencia da caracteriza cao ii) dada no Teorema 9.2.1 e do teorema da
convergencia dominada.
Recordemos que a convergencia em probabilidade e a mais fraca das convergencias
funcionais estudadas. Assim qualquer das convergencias
qc
ou
L
p
, implica a con-
vergencia em distribui cao.
No caso particular da vari avel limite ser degenerada, mostramos a seguir que a
convergencia em distribui cao e equivalente à convergencia em probabilidade.
Teorema 9.3.2 Se X
n
d
a, com a R
d
, ent ao X
n
p
a.
Dem: Comecemos por estabelecer o resultado para d = 1. Neste caso, se X = a,
F
X
= 1I
[a,+[
, e assim limF
Xn
(x) = 0, se x < a, e limF
Xn
(x) = 1, se x > a. Dado > 0,
temos P([X
n
a[ < ) = P(a < X
n
< a+) F
Xn
(a+/2) F
Xn
(a) 1. Para
d > 1, basta ter em conta que se X
n
d
a, entao
i
(X
n
)
d

i
(a), para i = 1, . . . , d, e
pela primeira parte da demonstra cao obtemos
i
(X
n
)
p

i
(a), para i = 1, . . . , d, ou
equivalentemente, X
n
p
a.
9.4 O teorema de Prohorov
O objectivo principal deste paragrafo e a obten cao do teorema de Prohorov sobre
a caracteriza cao da compacidade sequencial duma sucessao de vectores aleatorios. Por
outras palavras, pretendemos caracterizar as sucessoes de vectores aleatorios para as
quais toda a sua subsucessao possui uma subsucessao convergente em distribui cao.
A importancia dum resultado deste tipo sera clara quando, no proximo paragrafo,
caracterizarmos a convergencia em distribui cao duma sucessao de vectores aleatorios
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
a partir das respectivas fun coes caractersticas. No entanto, e para ja, o resultado se-
guinte, cuja demonstra cao deixamos ao cuidado do aluno, indica-nos que a compacidade
sequencial duma sucessao de vectores aleatorios e uma propriedade necessaria, mas nao
suciente, para a sua convergencia em distribui cao. Ele e consequencia do seguinte
facto sobre sucessoes de n umeros reais: uma sucessao (x
n
) converge para x R sse
toda a subsucessao de (x
n
) admite uma subsucessao que converge para x.
n
) e X vectores aleat orios em R
d
. X
n
d
X sse toda a
subsucess ao de (X
n
) admite uma subsucess ao que converge em distribuic ao para X.
O teorema de Prohorov estabelece que as sucessoes de vectores aleatorios cujas
subsucessoes admitem uma subsucessao convergente, sao precisamente as sucessoes li-
mitadas em probabilidade no sentido da deni cao seguinte.
Deni cao 9.4.2 Uma sucess ao (X
n
) de vectores aleat orios em R
d
diz-se limitada em
probabilidade se para todo o > 0, existe M > 0 tal que
P
Xn
(] M, M]) = F
Xn
] M, M] > 1 , n N.
Notemos mais uma vez a analogia com o caso das sucessoes de n umeros reais:
uma sucessao (x
n
) e limitada sse toda a sua subsucessao admite uma subsucessao
convergente. Reparemos tambem que impor que uma sucessao de vectores aleatorios
seja limitada em probabilidade quando estudamos a sua convergencia em distribui cao
nao e demasiadamente restritivo, uma vez que (X
n
) e limitada em probabilidade sempre
que X
n
d
X, para algum vector aleatorio X. No entanto, o facto de (X
n
) ser limitada
em probabilidade nao implica so por si a convergencia em distribui cao da sucessao para
algum vector aleatorio. Um exemplo disso e o da sucessao X
n
= X, se n e par, e
X
n
= Y , se n e mpar, com X , Y .
O teorema da selec cao de Helly que estabelecemos a seguir e de importancia fun-
damental na demonstra cao do teorema de Prohorov. A nota cao que usamos sobre a
fun cao de distribui cao dum vector aleatorio foi introduzida no Exemplo 1.4.3.
Lema 9.4.3 Sejam D
1
, . . . , D
d
subconjuntos numer aveis e densos em R e (X
n
) uma
sucess ao de vectores aleat orios tais que limF
Xn
(y) existe para todo o y

d
i=1
D
i
.
Ent ao existe uma func ao F
n ao-decrescente, contnua ` a direita, com 0 F
1, tal
que limF
Xn
(x) = F
).
Dem: Para x D =
d
i=1
D
i
, denamos F
(x) = limF
Xn
(x). Claramente, 0
F
(x) 1, para todo o x D. Para x R

d
D, denamos F
(x) = inf
y>x,yD
F
(y).
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Como F
(y) : y > x, y D e limitado em R, o nmo anterior e um elemento do

intervalo [0, 1]. Assim, 0 F
1, e F
(x
1
) F
(x
2
), se x
1
x
2
. i) Veriquemos
que F
e contnua à direita em todo o ponto x R

d
. Dado > 0, tomemos x
> x com
x
D tal que F
(x) + F
(x
). Dado agora y ]x, x
] temos F
(y) F
(x
),
e portanto F
(x) + F
(y) inf
y>x
F
(y). Fazendo tender para zero, obte-

mos F
inf
y>x
F
(y), ou ainda, F
= inf
y>x
F
(y). ii) Veriquemos que F
e
nao-decrescente. Se a, b D sao tais que a < b, e sendo V o conjunto dos vertices
de ]a, b], temos 0 F
Xn
]a, b] =
xV
sgn(x)F
Xn
(x)

xV
sgn(x)F
(x) = F
]a, b].
Dados agora a, b R
d
com a < b, tomemos a
n
a e b
n
b, com a
n
, b
n
D,
a
n
a e b
n
b. Denotando por V
n
o conjunto dos vertices de ]a
n
, b
n
], temos
0 F
]a
n
, b
n
] =
xnVn
sgn(x
n
)F
(x
n
)

xnV
sgn(x)F
(x) = F
]a, b]. iii) Veri-

quemos nalmente que limF
Xn
(x) = F
). Sejam entao x
C(F
) e (a
i
) e (b
i
) em D tais que a
i
x e b
i
x. Assim, F
Xn
(a
i
) F
Xn
(x) F
Xn
(b
i
)
e F
(a
i
) = liminf F
Xn
(a
i
) liminf F
Xn
(x) limsupF
Xn
(x) limsup F
Xn
(b
i
) =
F
(b
i
). Tomando agora limite em i quando i tende para + e tendo em conta que
x C(F
), obtemos F
(x) liminf F
Xn
(x) limsup F
Xn
(x) F
(x), o que prova

o pretendido.
Teorema 9.4.4 (da selec cao de Helly
2
) Se (X
n
) e uma sucess ao de vectores aleat o-
rios em R
d
, ent ao existem uma subsucess ao (X
n
k
) de (X
n
) e uma func ao F
: R
d
R
contnua ` a direita, n ao-decrescente com 0 F
1, tais que
limF
Xn
k
(x) = F
(x), x C(F
).
Dem: Tendo em conta o Teorema 9.4.3, e sendo D = Q
d
= a
i
: i N, basta mos-
trar que existe uma subsucessao (X
n
k
) para a qual existe o limite limF
Xn
k
(a
i
), para
todo o i N. Sendo (F
Xn
(a
1
)) limitada, comecemos por tomar uma sua subsucessao
(F
X
n(1,k)
(a
1
)) convergente. De forma analoga seja (F
X
n(2,k)
(a
2
)) uma subsucessao con-
vergente da sucessao limitada (F
X
n(1,k)
(a
2
)). As sucessoes (F
X
n(2,k)
(a
1
)) e (F
X
n(2,k)
(a
2
))
sao ambas convergentes. Repetindo este processo, determinamos (F
X
n(i,k)
(a
i
)) conver-
gente tal que as sucessoes (F
X
n(i,k)
(a
1
)),...,(F
X
n(i,k)
(a
i1
)) sao convergentes. Tomemos
entao a sucessao diagonal (F
X
n(k,k)
). Para cada i N, (F
X
n(k,k)
(a
i
)) e convergente, pois
F
X
n(k,k)
(a
i
) : k i F
X
n(i,k)
(a
i
) : k i, e (F
X
n(i,k)
(a
i
)) e convergente. Basta
entao tomar n
k
= n(k, k).
Sendo a fun cao F
, cuja existencia e estabelecida no resultado anterior, nao-

decrescente e contnua à direita, e possvel associar-lhe uma e uma so medida
2
Helly, E., Sitzungsber. Nat. Kais. Akad. Wiss., 121, 265297, 1912.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
sobre (R
d
, B(R
d
)) tal que
(]a, b]) = F
]a, b] =
xV
sgn(x)F
(x),
para todo o a, b R
d
, onde V e o conjunto dos vertices de ]a, b] (cf. Billingsley, 1986, pg.
177180). Sempre que
(R
d
) = 1,
e uma probabilidade, e nesse caso X

n
d
X,
onde X e um qualquer vector aleatorio que tenha
como distribui cao de probabili-

dade. Caso contrario, temos
(R
d
) < 1 nao existindo por isso o limite em distribui cao
da sucessao (X
n
) (ver Exerccio 9.4.6). Dizemos neste caso que ocorre uma perda de
probabilidade no innito. Um exemplo simples de tal situa cao e o da sucessao X
n
= n.
Teorema 9.4.5 (de Prohorov
3
) Seja (X
n
) e uma sucess ao de vectores aleat orios em
R
d
. (X
n
) e limitada em probabilidade sse toda a subsucess ao de (X
n
) possui uma
subsucess ao convergente em distribuic ao.
Dem: Suponhamos que (X
n
) e limitada em probabilidade,e provemos que toda a sua
subsucessao possui uma subsucessao convergente em distribui cao. Como qualquer
subsucessao duma sucessao limitada em probabilidade e ainda limitada em probabi-
lidade, basta que mostremos que (X
n
) possui uma subsucessao convergente em dis-
tribui cao. Pelo teorema da selec cao de Helly, existe uma subsucessao (X
n
k
) de (X
n
)
e uma fun cao F
: R
d
R contnua à direita, nao-decrescente com 0 F
1,
tais que limF
Xn
k
(x) = F
(x), x C(F
). Para concluir basta provar que a me-

dida nita
associada a F
e uma probabilidade. Para > 0, existe M > 0

tal que P
Xn
k
(] M, M]) > 1 , k N. Tomando agora a < M e b > M
tais que V C(F
) onde V e o conjunto dos vertices do rectangulo ]a, b], temos
(]a, b]) =
xV
sgn(x)F
(x) = lim
k
xV
sgn(x)F
Xn
k
(x) = lim
k
P
Xn
k
(]a, b])
lim
k
P
Xn
k
(] M, M]) 1 . Sendo > 0 qualquer conclumos que
(R
d
) = 1.
Reciprocamente, suponhamos por absurdo que (X
n
) nao e limitada em probabili-
dade. Tendo em conta o Exerccio 9.4.4, existem > 0 e uma sucessao (n
k
) de
n umeros naturais estritamente crescente tais que P
Xn
k
(] K, K]) 1 , para todo
o k N, onde K = (k, . . . , k). Por hipotese, existe (X
n
k
) subsucessao de (X
n
k
) tal
que X
n
k
d
X, para algum vector aleatorio X em R
d
. Para quaisquer a, b R
d
tais que V C(F
X
), onde V e o conjunto dos vertices do rectangulo ]a, b], temos
P
X
(]a, b]) =
xV
sgn(x)F
X
(x) = lim
xV
sgn(x)F
Xn
k
(x) = limP
Xn
k
(]a, b]) 1,
o que e falso quando fazemos max
i
a
i
e min
i
b
i
+.
Exerccios
1. Se X
n
=
n
, com
n
R, mostre que (X
n
) e limitada em probabilidade sse (
n
) e
limitada.
3
Prohorov, Yu.V., Theory Probab. Appl., 1, 157214, 1956.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
2. Mostre que se X
n
d
X entao (X
n
) e limitada em probabilidade.
3. Prove que (X
n
) e limitada em probabilidade sse cada uma das sucessoes coordenadas de
(X
n
) e limitada em probabilidade.
4. Prove que (X
n
) e limitada em probabilidade sse lim
k+
limsup
n
P
Xn
(] K, K]
c
) = 0,
com K = (k, . . . , k).
5. Mostre que se (X
n
) e (Y
n
) sao limitadas em probabilidade, entao (X
n
Y
n
) e limitada em
probabilidade.
6. Sejam (X
n
) e uma sucessao de vectores aleatorios em R
d
, F
a fun cao cuja existencia e

assegurada pelo Teorema 9.4.4 e
a medida sobre (R
d
, B(R
d
)) que lhe esta associada.
Para i = 1, . . . , d, consideremos as fun coes coordenada
F
,i
(x
i
) = lim
x
j
+
j=i
F
(x
1
, . . . , x
i1
, x
i
, x
i+1
, . . . , x
d
).
(a) Conclua que o conjunto E
i
dos pontos de descontinuidade de F
,i
e quando muito
numeravel.
(b) Mostre que E
c
1
. . . E
c
d
C(F
).
(c) Prove que se
(R
d
) < 1, entao (X
n
) nao converge em distribui cao.
9.5 O teorema da continuidade de LevyBochner
Como veremos neste paragrafo, o teorema de Prohorov permite-nos caracterizar a
convergencia em distribui cao duma sucessao de vectores aleatorios apenas em termos
das fun coes caractersticas respectivas. Uma tal caracteriza cao sera de grande utilidade
no estudo da distribui cao assint otica da soma de vectores aleatorios independentes uma
vez que, como vimos anteriormente, a fun cao caracterstica e bem mais util para esse
efeito do que a fun cao de distribui cao.
n
) uma sucess ao de vectores aleat orios em R
d
.
a) Se X
n
d
X, ent ao
Xn
(t)
X
d
.
b) Se (X
n
) e limitada em probabilidade e
Xn
(t)

d
, ent ao
=
X
para algum vector aleat orio X em R
d
e X
n
d
X.
Dem: a) Para t R
d
xo, sendo as fun coes x sin(t, x)) e x cos(t, x)), contnuas
e limitadas em R
d
, conclumos pelo Teorema 9.2.1 que E(sin(t, X
n
)) E(sin(t, X))
e E(cos(t, X
n
)) E(cos(t, X)), uma vez que X
n
d
X, ou ainda,
Xn
(t)
X
(t).
b) Comecemos por mostrar que
X
=
. Sendo (X
n
) limitada em probabilidade,
existe, pelo teorema de Prohorov, uma subsucessao (X
n
k
) de (X
n
) tal que X
n
k
d
X,
para algum vector aleatorio X. Pela alnea a) obtemos
Xn
k
(t)
X
(t), para todo o
t R
d
, e portanto
X
=
. Mostremos agora que X

n
d
X. Para tal, consideremos
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
uma qualquer subsucessao (X
n
) de (X
n
), e provemos que ela admite uma subsucessao
convergente para X. Com efeito, sendo (X
n
) limitada em probabilidade, existe (X
n
)
subsucessao de (X
n
) com X
n
Y , para algum vector aleatorio Y , o que implica que
X
n
(t)
Y
d
. Assim,
Y
=
=
X
, ou ainda, X Y .
Mostramos agora que a condi cao de (X
n
) ser limitada em probabilidade pode ser
substituda por uma hipotese de continuidade na origem da fun cao limite
. Um tal
resultado e conhecido como teorema da continuidade de LevyBochner.
Lema 9.5.2 Se X e uma vari avel aleat oria real, ent ao para todo o r > 0,
P([X[ 2r) r
_
1/r
1/r
(1
X
(t))d(t).
Dem: Para r > 0 temos,
_
1/r
1/r
(1
X
(t))d(t) =
_
1/r
1/r
_
(1 e
i tx
) dP
X
(x)d(t) =
_ _
1/r
1/r
(1e
i tx
) d(t)dP
X
(x) =
_
R\{0}
2(1sin(x/r)/(x/r))/r)dP
X
(x)
_
|x|2r
1/rdP
X
= P([X[ 2r)/r, pois 1 sin(x/r)/(x/r) 1/2, se [x[ 2r.
Teorema 9.5.3 (de LevyBochner
4
) Seja (X
n
) uma sucess ao de vectores aleat orios
em R
d
. Se
Xn
(t)

d
, onde
e contnua na origem, ent ao

X
n
d
X para algum vector aleat orio X em R
d
e
X
=
.
Dem: Atendendo ao Teorema 9.5.1, basta demonstrar que se
Xn
(t)
(t), para todo

o t R
d
, onde
e contnua na origem, entao a sucessao (X

n
) e limitada em probabi-
lidade. Comecemos por demonstrar tal facto no caso real utilizando o Exerccio 9.4.4.
Pelo Lema 9.5.2 e para k > 0, temos P
Xn
(] k, k]
c
) P([X
n
[ k) (k/2)
_
2/k
2/k
(1
Xn
(t))d(t), onde 1
Xn
(t) 1
(t) e [1
Xn
(t)[ 2. Pelo teorema da con-
vergencia dominada obtemos limsupP
Xn
(] k, k]
c
) (k/2)
_
2/k
2/k
(1
(t)) d(t) =
_
1
1
(1
(2t/k)) d(t). Pela continuidade de
na origem, uma nova aplica cao

do teorema da convergencia dominada permite nalmente concluir que lim
k
limsup
n
P
Xn
(] k, k]
c
) = 0. Para estabelecer o resultado no caso multivariado, vamos lan car
mao do Exerccio 9.4.3. Tendo em conta a primeira parte da demonstra cao, bastara de-
monstrar que para cada uma das sucessoes coordenadas (X
n,i
) de (X
n
), a sucessao das
fun coes caractersticas (
X
n,i
) converge pontualmente para uma fun cao contnua na ori-
gem. Tal e com efeito verdade uma vez que
X
n,i
(s) =
Xn
(se
i
)
(se
i
) =:
,i
(s),
para s R, onde e
i
representa o i-esimo vector da base canonica de R
d
, e
,i
e
contnua na origem pela continuidade na origem de
.
4
Levy, P., C. R. Acad. Sci. Paris, 175, 854856, 1922.
4
Bochner, S., Math. Ann., 108, 378410, 1933.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Notemos que a continuidade na origem da fun cao limite e essencial para a validade
do resultado como o comprova o exemplo da sucessao X
n
U([n, n]). Atendendo
a que a fun cao caracterstica dum vector aleatorio e uma fun cao contnua, conclumos
do resultado anterior que o limite
duma sucessao de fun coes caractersticas e uma

fun cao contnua se o for na origem.
Corolario 9.5.4 X
n
d
X sse
Xn
(t)
X
d
.
Sabemos ja que a distribui cao dum vector aleatorio e caracterizada pelas distri-
bui coes de probabilidade das variaveis aleatorias reais a, X), para todo o a R
d
(ver
Exerccio 7.4.2). O resultado seguinte aponta no mesmo sentido relativamente à con-
vergencia em distribui cao, sendo importante no estudo da convergencia em distribui cao
de sucessoes de vectores aleatorios, pois permite faze-lo a partir da convergencia em
distribui cao de variaveis aleatorias reais.
Teorema 9.5.5 (de CramerWold
5
) Sejam (X
n
) e X vectores aleat orios em R
d
.
Ent ao X
n
d
X sse a, X
n
)
d
a, X), para todo o a R
d
.
Dem: Se X
n
d
X, entao sendo g(x) = a, x) contnua, para a xo em R
d
, conclumos,
pelo Teorema 9.2.1 que g(X
n
)
d
g(X), isto e, a, X
n
)
d
a, X). Reciprocamente,
dado t R
d
, temos
Xn
(t) =
t,Xn
(1)
t,X
(1) =
X
(t), e portanto X
n
d
X.
Exerccios
1. Sejam (X
n
) e X ve.a. normais. Mostre que X
n
d
X sse E(X
n
)E(X) e C
Xn
C
X
.
2. (Teorema de Slutsky
6
) Sejam (X
n
), (Y
n
) e X ve.a. em R
d
com X
n
d
X e X
n
Y
n
p
0. Prove que Y
n
d
X.
3. Sejam (X
n
), (Y
n
) e X v.a.r. tais que X
n
d
X e Y
n
p
c, com c R. Prove que: a)
X
n
+Y
n
d
X +c; b) Y
n
X
n
d
cX.
4. (Metodo delta) Sejam X
1
, X
2
, . . . ve.a. em R
d
tais que
n (X
n
)
d
N(0, ),
com R
d
, uma matriz de covariancia e g : R
d
R
p
.
(a) Se lim
x
g(x) = R
p
, prove que g(X
n
)
p
.
(b) Se g e diferenciavel em com derivada g(), mostre que
n (g(X
n
) g())
d
N(0, g()g()
T
).
(Sugestao: Tenha em conta que se g e diferenciavel em , entao para h R
d
, g( +h) =
g() +g()h +r(h), onde lim
h0
r(h)/[[h[[ = 0.)
5
Cramer, H., Wold, H., J. London Math. Soc., 11, 290295, 1936.
6
Slutsky, E., Metron, 5, 190, 1925.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
9.6 Bibliograa
Billingsley, P. (1968). Convergence of Probability Measures, Wiley.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Captulo 10
O teorema do limite central
O teorema do limite central cl assico e de Lindeberg. A condic ao de Liapounov. O
teorema do limite central multidimensional.
10.1 Preliminares
Se X
1
, . . . , X
n
, . . . sao variaveis aleatorias independentes e identicamente distribudas
com distribui coes normais de media e variancia
2
, sabemos pela lei fraca dos grandes
n umeros que
1
n
S
n
p
,
onde
S
n
= X
1
+. . . +X
n
.
Sendo a convergencia em distribui cao implicada pela convergencia em probabilidade, a
distribui cao assintotica de S
n
/n e assim degenerada. No entanto, para todo o n N,
sabemos que
1
n
S
n
N
_
,

2
n
_
,
ou ainda,
S
n
/n
_
2
/n
N(0, 1).
Conclumos assim que apesar de S
n
/n possuir uma distribui cao assintotica degenerada,
S
n
/n convenientemente normalizada (centragem e redu cao) possui uma distribui cao
assintotica nao-degenerada:
S
n
=
S
n
E(S
n
)
_
Var(S
n
)
d
N(0, 1). (10.1.1)
129
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
O facto de uma tal distribui cao assintotica ser normal, nao e, como veremos neste
captulo, uma propriedade exclusiva das variaveis normais. Indcios de tal facto sao
ja nossos conhecidos (ver, por exemplo, o 3.3). Para algumas distribui coes de proba-
bilidade ja estudadas, apresentamos a seguir, para alguns valores de n, os gracos da
densidade ou da fun cao de probabilidade da variavel S
n
. A tracejado surge tambem o
graco da densidade normal centrada e reduzida.
-4 -2 2 4
0.1
0.2
0.3
0.4
n = 3
n = 9
n = 21
n = 35
Figura 9.1: Distribui cao de S
n
quando X
1
, . . . , X
n
B(1/3)
-4 -2 2 4
0.2
0.4
0.6
0.8
1
n = 2
n = 3
n = 5
n = 10
n = 20
n
quando X
1
, . . . , X
n

2
1
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
-4 -2 2 4
0.1
0.2
0.3
0.4
0.5
n = 2
n = 3
n = 5
n = 10
n = 20
n
quando X
1
, . . . , X
n
E(1)
No caso das variaveis independentes X
1
, . . . , X
n
serem exponenciais de parametro
> 0, podemos conrmar de forma simples o comportamento sugerido pelos gracos
da Figura 9.3. Para tais variaveis sabemos que E(X
k
) = 1/, Var(X
k
) = 1/
2
e
X
k
(t) = /( i t), para t R. Assim, pela independencia das variaveis X
1
, . . . , X
n
,
n
(t) = e
i t
Sn
(t/
n)
= e
i t
n
_
1
1 i t/
n
_
n
=
_
1 +
x
n
(t)
n
_
n
,
onde
x
n
(t) = n
_
e
i t/
_
1
i t
n
_
_
= n
_
1
i t
n

t
2
2n
+. . .
_
1
i t
n
_
_

t
2
2
.
Conclumos assim que
n
(t) e
t
2
/2
=
N(0,1)
(t),
para todo o t R (note que se x
n
x entao (1 + x
n
/n)
n
e
x
), o que, pelo teorema
de LevyBochner, permite concluir que
S
n
d
N(0, 1).
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Nos proximos paragrafos mostraremos que a convergencia em distribui cao (10.1.1)
ocorre para uma vasta famlia de variaveis aleatorias. Um resultado deste tipo e conhe-
cido como teorema do limite central ou teorema central do limite, designa cao
esta devida a G. Polya (1920)
1
, onde a palavra central real ca a importancia que um
tal resultado teve na investiga cao em probabilidades ate meados do seculo XX.
Exerccios
1. Sejam X
1
, X
2
, . . . variaveis i.i.d. com P(X
i
= 1) = 1/2. Mostre que S
n
/
n
d
N(0, 1).
Suponha agora que, partindo dum ponto inicial, uma partcula se desloca uma unidade
para a esquerda ou para a direita com probabilidade 0.5, em cada segundo. De uma
aproxima cao para a probabilidade de ao m de uma hora a partcula se encontrar a uma
distancia superior a 200 unidades do ponto inicial.
2. Sejam X
1
, X
2
, . . . variaveis aleatorias independentes com distribui coes de Poisson de
parametro > 0. Prove que (S
n
n)/
n
d
N(0, 1).
3. Sejam (Y
n
) uma sucessao de v.a.r. e (a
n
) uma sucessao de n umeros reais tais que a
n
(Y
n
)
d
Y , com R e Y uma v.a.r.. Mostre que b
n
(Y
n
)
p
0, para toda a sucess ao
de n umeros reais (b
n
) com b
n
/a
n
0.
4. Seja (X
n
) uma sucessao de v.a.r. de quadrado integravel satisfazendo (10.1.1). Mostre
que se n/
_
Var(S
n
) +, entao (X
n
) obedece a uma lei fraca dos grandes n umeros
com
n
=
n
i=1
E(X
i
)/n.
5. Seja (X
n
) uma sucessao de v.a.r. i.i.d. de quadrado integravel com media satisfazendo
(10.1.1). Mostre que b
n
(S
n
/n)
p
0, para toda a sucessao de n umeros reais (b
n
) com
b
n
/n
1/2
0 (ver Exerccio 6.2.4), mas que n
1/2
(S
n
/n )
p
, 0.
10.2 O teorema do limite central classico
Neste paragrafo estabelecemos a convergencia em distribui cao (10.1.1) para variaveis
aleatorias independentes e identicamente distribudas de quadrado integravel.
Para que possamos generalizar os argumentos utilizados no paragrafo anterior a
outras distribui coes, e essencial o resultado seguinte que nao e mais do que um desen-
volvimento de Taylor duma fun cao caracterstica em que o resto e apresentado numa
forma que nos sera util.
Lema 10.2.1 Se E[X[
n
< +, para algum n N, ent ao para todo o t R,
X
(t) =
n
k=0
( i t)
k
k!
E(X
k
) +u
n
(t),
1
Polya, G., Math. Z., 8, 171180, 1920.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
onde
[u
n
(t)[ E
_
[tX[
n+1
(n + 1)!

2[tX[
n
n!
_
.
Dem: Para n 0 vale a igualdade
_
x
0
(x s)
n
e
i s
ds =
x
n+1
n + 1
+
i
n + 1
_
x
0
(x s)
n+1
e
i s
ds.
Por indu cao podemos entao obter
e
i x
=
n
k=0
( i x)
k
k!
+
i
n+1
n!
_
x
0
(x s)
n
e
i s
ds,
para n 1. Por um lado, a ultima parcela do segundo membro da igualdade anterior
e, em modulo, majorada por
_
x
0
[x s[
n
ds/n! [x[
n+1
/(n + 1)!. Por outro lado, e
atendendo à primeira das igualdades anteriores, e majorada por [
_
x
0
(x s)
n1
e
i s
ds
x
n
/n[/(n1)! 2[x[
n
/n!. Assim, integrando ambos os membros da segunda igualdade
depois de tomar x = tX, obtemos o pretendido.
Teorema 10.2.2 (do limite central classico
2
) Sejam (X
n
) vari aveis aleat orias in-
dependentes e identicamente distribudas de quadrado integr avel, com E(X
1
) = e
Var(X
1
) =
2
> 0. Ent ao
S
n
n
n
d
N(0, 1).
Dem: Basta considerar o caso em que = 0 e = 1. Denotemos por
n
a fun cao
caracterstica de S
n
/
n e por a fun cao caracterstica de X

1
. Para t R, temos
n
(t) =
Sn
(t/
n) =
n
(t/
n), onde pelo Lema 10.2.1, (t/
n) = 1+ i tE(X
1
)/
n+
i
2
t
2
E(X
1
)
2
/(2n) + v
n
(t) = 1 t
2
/(2n) + v
n
(t), com n[v
n
(t)[ E([tX
1
[
3
/(6n
1/2
)
[tX
1
[
2
) 0 (porque?). Assim,
n
(t) = (1+(t
2
/2+nv
n
(t))/n)
n
e
t
2
/2
=
N(0,1)
(t),
o que permite concluir.
Reescrevendo a variavel aleatoria (S
n
n)/
n na forma

n (S
n
/n), o teorema
anterior estabelece que

n (S
n
/n )
d
N(0,
2
). Em particular S
n
/n
p
(cf.
Exerccio 10.2.5), isto e, o teorema do limite central cl assico implica a lei fraca dos
grandes n umeros. Alem disso, estabelecendo a forma da distribui cao assintotica de S
n
,
o teorema do limite central da-nos uma informa cao mais precisa sobre o comportamento
assintotico de S
n
do que a lei fraca dos grandes n umeros.
2
Laplace, P.S., Mem. Acad. Sci. Paris, 10, 353415 e 559565, 1810 (reproduzidos em Oeuvres de
Laplace, 12, 301345 e 349353).
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Exerccios
1. (Convergencia da binomial para a normal
3
) Para n N, Seja Y
n
uma v.a. binomial
de parametros (n, p) com 0 < p < 1. Mostre que
Y
n
np
_
np(1 p)
d
N(0, 1).
Determine K N, de modo que a probabilidade de em 1000 lan camentos duma moeda
equilibrada obter entre 500K e 500+K caras, seja aproximadamente 0.99. Se em 1000
lan camento duma moeda forem observadas 455 caras, poderemos considerar essa moeda
equilibrada?
2. Retome os Exerccios 1.8.4 e 2.1.6. Mostre que
n(S
n
/n + 1/37)
d
N(0,
2
),
onde
2
= (37
2
1)/37
2
. Obtenha uma aproxima cao para P(S
n
0), quando n =
200, 1000 e 2000. Compare os resultados com os obtidos nos exerccios referidos.
3. (Convergencia do
2
para a normal) Se Y
n
e uma variavel com uma distribui c ao do
qui-quadrado com n graus de liberdade, mostre que (Y
n
n)/
2n
d
N(0, 1).
4. Sejam (X
n
) uma sucessao de v.a.r. i.i.d. com momentos nitos de quarta ordem, =
E(X
1
),
2
= Var(X
1
) e = E(X
1
)
4
.
(a) Mostre que

n(
1
n
n
i=1
(X
i
)
2
2
)
d
N(0,
4
).
(b) Conclua que

n(
2
n

2
)
d
N(0,
4
), onde
2
n
e a variancia emprica das
variaveis X
1
, . . . , X
n
5. Utilizando a tecnica das fun coes caractersticas demonstre a lei fraca dos grande n umeros
de Khintchine (ver Teorema 6.3.3).
10.3 O teorema do limite central de Lindeberg
Vamos neste paragrafo generalizar o Teorema 10.2.2 ao caso em que as variaveis
aleatorias X
1
, X
2
, . . ., apesar de independentes e de quadrado integravel nao sao neces-
sariamente identicamente distribudas. Denotaremos
k
= E(X
k
),
2
k
= Var(X
k
) e
s
2
n
= Var(S
n
) =
2
1
+. . . +
2
n
.
Deni cao 10.3.1 Dizemos que a sucess ao (X
n
) de vari aveis aleat orias independentes
e de quadrado integr avel satisfaz a condi c ao de Lindeberg se
> 0
1
s
2
n
n
k=1
E((X
k

k
)
2
1I
{|X
k
k
|>sn}
)0.
3
de Moivre, A., Approximatio as Summam Terminorum Binomii (a +b)
n
in Seriem Expansi, 1733,
e The Doctrine of Chances, 1738.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Comecemos por notar que uma sucessao de variaveis aleatorias independentes e
identicamente distribudas de quadrado integravel satisfaz a condi cao de Lindeberg.
Para > 0, e pelo teorema da convergencia dominada, temos
1
s
2
n
n
k=1
E((X
k

k
)
2
1I
{|X
k
k
|>sn}
)
=
1
n
2
n
k=1
E((X
k

k
)
2
1I
{|X
k
k
|>
n}
)
=
1
2
E((X
1

1
)
2
1I
{|X
1
1
|>
n}
) 0.
A condi cao de Lindeberg impoe que para cada k, a variavel aleatoria X
k
deve estar
concentrada num intervalo centrado na sua media e cuja amplitude deve ser pequena
quando comparada com s
n
. A proposi cao seguinte da enfase a esta interpreta cao,
expremindo-a em termos de variancias.
Proposi cao 10.3.2 Se (X
n
) satisfaz a condic ao de Lindeberg ent ao
_
n
k=1
2
k
s
2
n
0.
Dem: Para > 0, basta notar que
2
k
/s
2
n
= E((X
k
k
)
2
1I
{|X
k
k
|sn}
)/s
2
n
+E((X
k
k
)
2
1I
{|X
k
k
|>sn}
)/s
2
n

2
+
n
k=1
E((X
k

k
)
2
1I
{|X
k
k
|>sn}
)/s
2
n
.
Para que possamos generalizar os argumentos utilizados na demonstra cao do teo-
rema de limite central classico a variaveis aleatorias nao sao necessariamente identica-
mente distribudas e importante e lema seguinte sobre a compara cao de produtos de
n umeros complexos.
Lema 10.3.3 Para n N, sejam a
1
, . . . , a
n
, b
1
, . . . , b
n
n umeros complexos em m odulo
inferiores ou iguais a 1. Ent ao
i=1
a
i
i=1
b
i
i=1
[a
i
b
i
[.
Dem: Basta ter em conta que o resultado e valido para n = 2 e que [
n
i=1
a
i
n
i=1
b
i
[ =
[a
1
n
i=2
a
i
b
1
n
i=2
b
i
[ [a
1
b
1
[ +[
n
i=2
a
i

n
i=2
b
i
[.
Teorema 10.3.4 (de Lindeberg
4
) Sejam (X
n
) vari aveis aleat orias reais indepen-
dentes e de quadrado integr avel com Var(X
n
) > 0 para n sucientemente grande. Se
(X
n
) satisfaz a condic ao de Lindeberg, ent ao
S
n
E(S
n
)
s
n
d
N(0, 1).
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Dem: Basta demonstrar o resultado para variaveis centradas. Sendo
k
a fun cao ca-
racterstica de X
k
, pela independencia das variaveis X
1
, . . . , X
n
, obtemos,
Sn/sn
(t) =
n
k=1
X
k
/sn
(t) =
n
k=1
k
(t/s
n
), para t R. Com o objectivo de mostrar que
n
k=1
k
(t/s
n
) e
t
2
/2
, para todo o t R, provaremos que A
n
= [
n
k=1
k
(t/s
n
)
exp(
n
k=1
(
k
(t/s
n
) 1))[ 0 e que B
n
= [
n
k=1
(
k
(t/s
n
) 1)) + t
2
/2[ 0. Pelo
Lema 10.3.3, A
n

n
k=1
[
k
(t/s
n
) exp(
k
(t/s
n
) 1))[ =
n
k=1
[ exp(
k
(t/s
n
) 1)
1 (
k
(t/s
n
) 1)[, uma vez que [ exp(z 1)[ 1, quando [z[ 1. Pelo Lema 10.2.1 e
pela Proposi cao 10.3.2, obtemos ainda [
k
(t/s
n
) 1[ E([tX
k
[
2
/(2s
n
) 2[tX
k
[/s
n
)
t
2
E(X
2
k
)/(2s
2
n
) (t
2
/2)
n
k=1
2
k
/s
2
n
0. Assim, e tendo agora em conta que [ exp(z)
1 z[ 2[z[
2
, quando [z[ 1/2, obtemos nalmente, A
n

n
k=1
2[
k
(t/s
n
) 1[
2
n
k=1
2[
k
(t/s
n
)1[(t
2
/2)
n
k=1
2
k
/s
2
n
t
2
(
n
k=1
2
k
/s
2
n
)
n
k=1
(t
2
/2)
2
k
/s
2
n
= (t
4
/2)
n
k=1
2
k
/s
2
n
0. Pelo Lema 10.2.1 temos agora, para > 0, B
n
=
n
k=1
E([t[
3
[X
k
[
3
/(6s
3
n
)
t
2
X
2
k
/s
2
n
) [t[
2
n
k=1
E(X
2
k
1I
{|X
k
|>sn}
)/s
2
n
+[t[
3
n
k=1
E([X
k
[
3
1I
{|X
k
|sn}
)/(6s
3
n
) [t[
2
n
k=1
E(X
2
k
1I
{|X
k
|>sn}
)/s
2
n
+ [t[
3
/6. Sendo > 0 qualquer, a condi cao de Lindeberg
permite agora concluir.
Em 1935, W. Feller
5
e P. Levy
6
, trabalhando independentemente, estabelecem
condi coes necessarias para a validade do teorema do limite central mostrando que,
na presen ca da condi cao apresentada na Proposi cao 10.3.2, a condi cao de Lindeberg
e tambem necessaria para que se tenha
SnE(Sn)
sn
d
N(0, 1) (ver Feller, 1971, pg.
518521; sobre a prioridade da descoberta ver Le Cam, 1986.).
A condi cao que a seguir apresentamos, apesar de mais restrictiva que a condi cao de
Lindeberg, e normalmente simples de utilizar, em particular para = 1.
Proposi cao 10.3.5 Se (X
n
) e uma sucess ao de vari aveis aleat orias reais independen-
tes que, para algum > 0, satisfaz a condic ao
1
s
2+
n
n
k=1
E[X
k

k
[
2+
0,
dita de condi cao de Liapounov
7
ent ao (X
n
) satisfaz a condic ao de Lindeberg.
Exerccios
1. Mostre que
_
n
k=1

2
k
/s
2
n
0 sse s
2
n
e
2
n
/s
2
n
0.
4
Lindeberg, J.W., Math. Z., 15, 211225, 1922.
5
Feller, W., Math. Z., 40, 521559, 1935.
6
Levy, P., J. Math. Pures Appli., 14, 347402, 1935.
7
Liapounov, A., Bull. Acad. Sci. St. Petersbourg, 13, 359386, 1900, e Mem. Acad. Sci. St. Peters-
bourg, 12, 124, 1901.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
2. Demonstre a Proposi cao 10.3.5.
3. Sejam X
1
, X
2
, . . . v.a. independentes com X
n
U([n, n]). Mostre que S
n
/Var(S
n
)
d
N(0, 1), onde

(Sugestao: Use o facto de
1
n
+1
n
k=1
k
1
+1
.)
10.4 O teorema do limite central multidimensional
Neste paragrafo obtemos, via teorema de CramerWold, versoes multivariadas dos
teoremas do limite central classico e de Lindeberg.
Teorema 10.4.1 Se (X
n
) e uma sucess ao de vectores aleat orios independentes e iden-
ticamente distribudos de quadrado integr avel com media e matriz de covari ancia ,
ent ao
S
n
E(S
n
)
n
d
N(0, ).
Dem: Sem perda de generalidade supomos que os vectores X
k
sao centrados. Pelo
Teorema 9.5.5, basta mostrar que, para todo o a R
d
, a, S
n
/
n)
d
a, X), onde
X N(0, ), ou de forma equivalente, a, S
n
/
n)
d
N(0, a
T
a). Ora, a, S
n
/
n) =
n
k=1
a, X
k
)/
n, onde a, X
k
), k = 1, 2, . . ., sao variaveis reais independentes com
media 0 e variancia a
T
a. Se a
T
a > 0, o resultado e assim consequencia do Teorema
10.2.2. Se a
T
a = 0, a, X
k
) = 0, q.c., para k = 1, 2, . . ., e a, S
n
/
n) N(0, 0) =
N(0, a
T
a).
n
) uma sucess ao de vectores aleat orios independentes de qua-
drado integr avel com medias
n
e matrizes de covari ancia
n
. Se
1
n
(
1
+. . . +
n
),
e
> 0
1
n
n
k=1
E([[X
k

k
[[
2
1I
{||X
k
k
||>
n}
) 0,
ent ao
S
n
E(S
n
)
n
d
N(0, ).
Exerccios
1. Demonstre o Teorema 10.4.2.
2. Para n N, seja X
n
M(n, p
1
, . . . , p
k
) com
k
i=1
p
i
= 1. Mostre que (X
n
E(X
n
))/
n
e assintoticamente normal.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
3. Seja (X
n
) uma sucessao de ve.a. i.i.d. com momentos de ordem 2k, para k N xo.
(a) Estabele ca a normalidade assintotica do vector dos k primeiros momentos empricos
(
n
i=1
X
i
/n; = 1, . . . , k).
(b) Usando o Exerccio 9.5.4 e a normalidade assintotica estabelecida na alnea anterior,
resolva novamente a alnea (b) do Exerccio 10.3.4.
10.5 Bibliograa
Araujo, A., Gine, E. (1980). The Central Limit Theorem for Real and Banach Valued
Random Variables, Wiley.
Feller, W. (1971). An Introduction to Probability Theory and its Applications, Vol. 2,
Wiley.
Le Cam, L. (1986). The central limit theorem around 1935, Statistical Science, 1, 7896.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Tabela 1
Valores da funcao de distribuicao
normal standard
139
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Tabela da distribui c ao normal 141
Tabela 1: Valores da fun cao de distribui cao normal
x
1
2
_
x
e
t
2
/2
dt
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
0,00 0,02 0,04 0,06 0,08
3,0 0,998650 0,998736 0,998817 0,998893 0,998965
3,1 0,999032 0,999096 0,999155 0,999211 0,999264
3,2 0,999313 0,999359 0,999402 0,999443 0,999481
3,3 0,999517 0,999550 0,999581 0,999610 0,999638
3,4 0,999663 0,999687 0,999709 0,999730 0,999749
3,5 0,999767 0,999784 0,999800 0,999815 0,999828
3,6 0,999841 0,999853 0,999864 0,999874 0,999883
3,7 0,999892 0,999900 0,999908 0,999915 0,999922
3,8 0,999928 0,999933 0,999938 0,999943 0,999948
3,9 0,999952 0,999956 0,999959 0,999963 0,999966
4,0 0,999968 0,999971 0,999973 0,999975 0,999977
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Bibliograa Geral
Sobre Teoria das Probabilidades
Chow, Y.S., Teicher, H. (1997). Probability Theory: Independence, Interchangeability,
Martingales, Springer.
Chung, K.L. (1974). A Course in Probability Theory, Academic Press.
Durrett, R. (1996). Probability: Theory and Examples, Duxbury Press.
Feller, W. (1971). An Introduction to Probability Theory and its Applications, Vol. 2,
Wiley.
Masson.
Company (tradu cao do original Grundbegrie der Wahrscheinlichkeitrechnung
datado de 1933).
Laha, R.G., Rohatgi, V.K. (1979). Probability Theory, Wiley.
Loève, M. (1977). Probability Theory I, Springer.
Monfort, A. (1980). Cours de Probabilite, Economica.
143
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Sobre alguns temas especficos
Araujo, A., Gine, E. (1980). The Central Limit Theorem for Real and Banach Valued
Random Variables, Wiley.
Billingsley, P. (1968). Convergence of Probability Measures, Wiley.
Gnedenko, B.V., Kolmogorov, A.N. (1968). Limit Distributions for Sums of Indepen-
dent Random Variables, Addison-Wesley.
Le Cam, L. (1986). The central limit theorem around 1935, Statistical Science, 1, 7896.
Lukacs, E. (1964). Fonctions Caracteristiques, Dunod.
Lukacs, E. (1975). Stochastic Convergence, Academic Press.
Revesz, P. (1968). The Laws of Large Numbers, Academic Press.
Williams, D. (1991). Probability with Martingales, Cambridge University Press.
Sobre Teoria da Medida e Integrac ao
Cohn, D.L. (1980). Measure Theory, Birkhauser.
Fernandez, P.J. (1976). Medida de Integrac ao, IMPA.
Halmos, P.R. (1950). Measure Theory, D. Van Nostrand Company.
Rudin, W. (1974). Real and Complex Analysis, McGraw-Hill.
Sobre a hist oria das Probabilidades (e n ao s o)
Borel, E. (1950).

Elements de la Theorie des Probabilites,

Editions Albin Michel.
Hald, A. (1990). A History of Probability and Statistics and their applications before
1750, Wiley.
Hald, A. (1998). A History of Mathematical Statistics from 1759 to 1930, Wiley.
Sobre simulac ao de experiencias aleat orias
Grycko, E., Pohl, C., Steinert, F. (1998). Experimental Stochastics, Springer.
Knuth, D.E. (1981). The Art of Computer Programming, vol. II, Addison-Wesley.
Tompson, J.R. (2000). Simulation: a Modelers Approach, Wiley.
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
Indice Remissivo
acontecimento
aleatorio, 3, 5
certo, 3
elementar, 3
impossvel, 3
acontecimentos aleatorios
incompatveis, 4
independentes, 49
Bernoulli, D., 65
Bernoulli, J., 87
Bernoulli, N., 65
Bienayme, I.-J., 68
Bochner, S., 126
Borel, E., 57, 87
Box-Muller
metodo de, 44, 54
Cantelli, F.P., 57
cilindro
de base A, 16
de dimensao nita, 16
coeciente
de achatamento, 66
de assimetria, 66
de correla cao, 69
condi cao
de Liapounov, 136
de Lindeberg, 134
convergencia
da binomial para a Poisson, 34, 120
em distribui cao, 117
caracteriza coes da, 118
propriedades da, 119, 121
em media de ordem p, 78, 81
em media quadratica, 78, 81
em probabilidade, 76, 81
quase certa, 75, 81
quase completa, 76
convolu cao
de densidades de probabilidade, 44, 54
de fun coes de probabilidade, 54
covariancia, 69
e independencia, 113
matriz de, 71
Cramer, H., 127
d-sistema, 50
de Moivre, A., 134
densidade condicional, 46
densidade de probabilidade, 10, 15, 35, 43
normal bivariada, 10
normal univariada, 10
uniforme, 15
desigualdade
de Bienayme-Tchebychev, 68
de Cauchy-Schwarz, 68
de Levy, 96
de Tchebychev-Markov, 79
maximal de Kolmogorov, 90
desvio-padrao, 66
distribui cao
145
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
absolutamente contnua, 35
binomial, 31
binomial negativa, 33
condicional, 46
da soma de variaveis reais, 54
de Bernoulli, 30
de Cauchy, 40
de Erlang, 56
de Laplace, 40
de Pascal, 33
de Poisson, 33
de Rayleigh, 44
de Weibull, 41
degenerada, 38
discreta, 35
do qui-quadrado, 56
exponencial, 39
fun cao de, 15
geometrica, 33
log-normal, 67
logstica, 41
marginal, 31
multinomial, 32
normal, 32, 111, 112
singular, 35
suporte da, 35
triangular, 44
uniforme, 32
uniforme discreta, 38
distribui cao de probabilidade, 30
espa co
de probabilidade, 5, 14
dos resultados, 3
fundamental, 3
esperan ca matematica, 62, 70, 101
calculo da, 64
experiencia aleatoria, 3, 5
modela cao de uma, 5, 6, 812, 20
simula cao de uma, 24
formula
da probabilidade composta, 19
da probabilidade total, 20
de Daniel da Silva, 8
Feller, W., 136
Fermat, P., 13
fun cao
caracterstica, 102
calculo da, 103
derivadas e momentos da, 104
dum vector normal, 112
formulas de inversao, 107
injectividade, 106
propriedades da, 102
de distribui cao, 15, 36, 41
de probabilidade, 35
quantil, 39
Galileu Galilei, 6
Galton, F., 9
Gauss, C.F., 9
Helly, E., 123
Huygens, C., 14
independencia
caracteriza coes, 5153
de acontecimentos aleatorios, 49
de classes, 50
de variaveis aleatorias, 51
jogo justo, 64
Khintchine, A., 81, 89
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t

Kolmogorov, A.N., 3, 4, 58, 81, 88, 90, 91,
93, 95
Levy, P., 126, 136
Laplace, P.S., 133
lei dos grandes n umeros
em media de ordem p, 84
em media quadratica, 85
lei forte dos grandes n umeros, 84, 86
de Borel, 87
de Kolmogorov, 93
lei fraca dos grandes n umeros, 84
de Bernoulli, 87
de Khintchine, 89
de Markov, 85
de Poisson, 87
de Tchebychev, 87
lei zero-um
de Borel, 57
de Kolmogorov, 58
Lindeberg, J.W., 136
media emprica, 93, 115
metodo
das subsucessoes, 86
de Box-Muller, 44, 54
de congruencia linear, 24
de Monte Carlo, 26, 93
Marcinkiewicz, J., 93
Markov, A.A., 85
medida, 5
alheia, 34
difusa, 34
discreta, 34
singular, 34
modelo probabilstico, 5
Montmort, P.R., 8, 65
n umeros pseudo-aleatorios, 25
Polya, G., 132
Paccioli, L., 14
parametros
de dispersao, 65
de forma, 66
de localiza cao, 62
paradoxo
das coincidencias, 8
de Sao Petersburgo, 65
do dia de aniversario, 6
do teste para despiste duma doen ca
rara, 21
Pascal, B., 13
-sistema, 50
Poisson
distribui cao de, 33
processo de, 12
Poisson, S.D., 87
probabilidade, 5
a posteriori, 20
a priori, 20
conceito frequencista de, 4
condicionada, 19
das causas, 22
de transi cao, 23
deni cao classica de, 5, 14
densidade de, 10, 15
espa co de, 5, 14
geometrica, 6
imagem, 16
produto, 16, 18
produto generalizado de, 22
propriedades duma, 7
problema
da divisao das apostas, 13
da runa do jogador, 14
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t
do concurso das portas, 24
processo estocastico, 29
produto
de espa cos de probabilidade, 18
de espa cos mensuraveis, 17
generalizado de probabilidades, 22
innito de probabilidades, 16
Prohorov, Yu.V., 124
rectangulo
mensuravel, 17
semi-aberto à esquerda, 15
representa cao de Skorokhod, 39
Schee, H., 120
semi-algebra, 7
semi-anel, 7
-algebra, 5
assintotica, 58
gerada, 18
produto, 16
trivial, 57
Silva, D., 8
simetriza cao, 95
simula cao de variaveis, 39, 40
de Cauchy, 40
de Laplace, 40
de Weibull, 41
exponenciais, 39
logsticas, 41
normais, 44, 54
sucessao
aleatoria, 29
de Cauchy em L
p
, 80
de Cauchy em probabilidade, 77
de Cauchy quase certamente, 76
limitada em probabilidade, 122
Tchebychev, P.L., 68, 87
teorema
da continuidade de LevyBochner, 126
da convergencia dominada, 79, 80
da decomposi cao de Lebesgue, 34
da diferencia cao de Lebesgue, 37
da mudan ca de variavel, 43
da selec cao de Helly, 123
das tres series, 95
de Bayes, 20
de Borel-Cantelli, 57
de CramerWold, 127
de Prohorov, 124
de Schee, 120
de Slutsky, 127
do limite central, 132
do limite central classico, 133, 137
do limite central de Lindeberg, 135,
137
variavel aleatoria, 29
binomial, 31
binomial negativa, 33
centrada e reduzida, 66
complexa, 101
de Bernoulli, 30
de Cauchy, 40
de Laplace, 40
de Pascal, 33
de Poisson, 33
de Rayleigh, 44
de Weibull, 41
degenerada, 38
discreta, 35
do qui-quadrado, 56
exponencial, 39
geometrica, 33
independencia de, 51
t
e
n
r
e
i
r
o
@
m
a
t
.
u
c
.
p
t

integravel, 62, 70, 101
log-normal, 67
logstica, 41
momentos de uma, 65
multinomial, 32
nao-correlacionadas, 69
normal, 111, 112
real, 29
simula cao duma, 40
singular, 35
suporte da, 35
triangular, 44
uniforme discreta, 38
variancia, 66
calculo da, 66
emprica, 93, 115
propriedades da, 66
vector aleatorio, 29
margens dum, 31
Wold, H., 127
Zygmund, A., 93

ATP0204

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

ATP0204

Încărcat de

Drepturi de autor:

Formate disponibile

t

Indice Remissivo 144

acontecimento que se realiza quando A nao se realiza; A B acontecimento que se

, e processo estocastico ou fun cao aleatoria se E = R

quando muito numeravel tal que

(x) = infs R : F(s) x,

diz-se inversa generalizada de F ou fun cao quantil de F).

(x) u sse x F(u), para u R; ii. Se U U(]0, 1[), entao F

(x)) = x; ii. F(X) U([0, 1]).

, K S, K nito. Vamos pro-

a -algebra assintotica associada ` a sucess ao (B

sao independentes, sendo, pelo

e independente de si propria, ou seja,

= X 0, sao ditas parte positiva e parte negativa de X,

dP < +. Se alem disso

for integravel, e existe e e nita quando e so quando X for integravel.

e ter em conta que (g X)

(X). (Apresente uma demonstra cao alternativa usando a Proposi cao

denotaremos um vector aleatorio sobre R

e um vector aleatorio com margens independentes que seguem

podemos dizer que N

com densidade de probabilidade dada por (7.4.1) e normal.

n), mostre que

n ao-decrescente, contnua ` a direita, com 0 F

(x), para todo o x C(F

(x) 1, para todo o x D. Para x R

(y) : y > x, y D e limitado em R, o nmo anterior e um elemento do

e contnua `a direita em todo o ponto x R

). Dado agora y ]x, x

(y). Fazendo tender para zero, obte-

(y). ii) Veriquemos que F

]a, b]. iii) Veri-

(x), para todo o x C(F

(x), o que prova

, cuja existencia e estabelecida no resultado anterior, nao-

e uma probabilidade, e nesse caso X

como distribui cao de probabili-

). Para concluir basta provar que a me-

e uma probabilidade. Para > 0, existe M > 0

) onde V e o conjunto dos vertices do rectangulo ]a, b], temos

a fun cao cuja existencia e

(t), para todo o t R

. Mostremos agora que X

(t), para todo o t R

e contnua na origem, ent ao

(t), para todo

e contnua na origem, entao a sucessao (X

(2t/k)) d(t). Pela continuidade de

na origem, uma nova aplica cao

duma sucessao de fun coes caractersticas e uma

n e por a fun cao caracterstica de X

n), onde pelo Lema 10.2.1, (t/

N(0, 1), onde

Indice Remissivo 147

Indice Remissivo 149

S-ar putea să vă placă și