Introdução A Processos Estocásticos para Matemáticos

i i
PrincipalNovo 2016/5/24 20:13 page V #1

i i
Introduo aos Processos Estocsticos
para estudantes de Matemtica
Artur O. Lopes e Slvia R. C. Lopes
i i
i i
i i
PrincipalNovo 2016/5/24 20:13 page VI #2

i i
Texto da dedicatria
Texto da dedicatria.
i i
i i
i i
PrincipalNovo 2016/5/24 20:13 page VII #3

i i
Sumrio
Prefcio IX
1 Introduo 1
2 Cadeias de Markov com Tempo Discreto 37

2.1 Processos e Cadeias de Markov com Tempo Discreto . . . . . . 37
2.2 Vetor de Probabilidade Estacionrio e Processos Estacionrios . 68
2.3 Classicao de Estados de Cadeias de Markov . . . . . . . . . . 89
2.4 Tempo de Primeira chegada . . . . . . . . . . . . . . . . . . . . 99
2.5 Critrios de Recorrncia e Transincia . . . . . . . . . . . . . . . 105
2.6 Periodicidade e Aperiodicidade . . . . . . . . . . . . . . . . . . 131
2.7 Estados Recorrentes Nulos e Positivos . . . . . . . . . . . . . . . 147
2.8 Cadeias do Tipo Recorrente, Aperidica e Irredutvel . . . . . . 166
2.9 Tempo de Parada e a Propriedade Forte de Markov . . . . . . . 175
2.10 Processos de Nascimento e Morte . . . . . . . . . . . . . . . . . 195
2.11 Apndice - Cadeias de Markov de Ordem Superior . . . . . . . . 206
2.12 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
3 Convergncia de Variveis Aleatrias 227

3.1 Lei dos Grandes Nmeros . . . . . . . . . . . . . . . . . . . . . 228
3.2 Lema de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . 233
3.3 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . 242
VII
i i
i i
i i
PrincipalNovo 2016/5/24 20:13 page VIII #4

i i
VIII SUMRIO
3.4 Funes Geradoras de Probabilidade e Funes Caractersticas . 251

3.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
4 Cadeias de Markov em Tempo Contnuo 273

4.1 Introduo e Propriedades Gerais . . . . . . . . . . . . . . . . . 273
4.2 O Processo de Poisson . . . . . . . . . . . . . . . . . . . . . . . 316
4.3 Processos de Nascimento e Morte . . . . . . . . . . . . . . . . . 332
4.4 Estados Recorrentes e Cadeias Irredutveis . . . . . . . . . . . . 346
4.5 Apndice - Breve Introduo s Equaes Diferenciais . . . . . . 349
4.6 Apndice - Distribuio Geomtrica e Exponencial . . . . . . . . 379
4.7 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
5 Reviso de Teoria da Medida e Propriedades Gerais de Pro-

cessos 387
5.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
5.2 Propriedades Gerais de Processos Estocsticos . . . . . . . . . . 428
5.3 Processos Estocsticos Independentes . . . . . . . . . . . . . . . 443
5.4 Processos Estocsticos Estacionrios e Ergdicos . . . . . . . . . 462
5.5 Esperana e Probabilidade Condicional . . . . . . . . . . . . . . 482
5.6 Martingale e tempo de parada . . . . . . . . . . . . . . . . . . . 497
5.7 O movimento Browniano . . . . . . . . . . . . . . . . . . . . . . 507
5.8 Processos de Difuso . . . . . . . . . . . . . . . . . . . . . . . . 520
Bibliograa 527
i i
i i
i i
PrincipalNovo 2016/5/24 20:13 page IX #5

i i
Prefcio
O presente texto apresenta uma introduo Teoria dos Processos Estocsti-
cos para alunos que se encontram em algum programa de graduao (ou, no
comeo do mestrado) em Matemtica. O texto foi escrito de tal forma que
(praticamente) no requer que o leitor tenha feito um curso de Probabilidade
para entender o seu contedo.
Observamos que este livro foi escrito visando apenas alunos do Bacharelado
e Mestrado em Matemtica.
O Captulo 1 foi elaborado com a inteno de dar ao leitor uma idia inicial
intuitiva do que um Processo Estocstico. Ele apresenta alguns exemplos
elementares e destaca qual o ponto de vista correto pelo qual se deve encarar
a teoria, e, ainda, quais so algumas das perguntas bsicas em que se est
interessado. Diferentemente dos outros ele tem um carter informal.
O livro est estruturado de tal jeito que possvel seguir duas rotas distintas
na sua leitura.
Para o leitor que deseja um contato preliminar do assunto, sem o conheci-
mento mais profundo de Teoria da Medida, sugerimos a leitura na ordem das
sees apresentadas no ndice do livro.
Para aquele que prefere uma abordagem dos Processos Estocsticos de uma
maneira mais bem formalizada do ponto de vista matemtico, sugerimos que
leia primeiro o Captulo 1, e a seguir, se dirija ao Captulo 5. Aps a leitura
do mesmo, ento volte ao Captulo 2, e a seguir, o Captulo 3 e 4.
No segundo captulo, tratamos de Cadeias de Markov a tempo discreto.
IX
i i
i i
i i
PrincipalNovo 2016/5/24 20:13 page X #6

i i
X Prefcio
O pr-requisito para esta seo apenas o conhecimento de resultados bsicos

sobre matrizes e um pouco de lgebra Linear. No terceiro apresentamos alguns
resultados sobre limites de variveis aleatrias, entre eles a Lei dos Grandes
Nmeros e o Teorema Central do Limite. Numa primeira leitura, sem maiores
prejuzos para o que segue, se poderia pular a demonstrao dos resultados
mais sosticados
No quarto captulo analisamos as Cadeias de Markov a tempo contnuo.
Neste captulo se usa alguns resultados de equaes diferenciais e sistemas
lineares de equaes diferenciais. No apndice 4.5 apresentamos uma breve
introduo s equaes diferenciais. Nosso objetivo foi tornar o livro pratica-
mente auto-suciente. Com o propsito de facilitar a leitura, o material que
envolve tpicos fora do cerne da teoria desenvolvido ou descrito brevemente
em apndices.
Muitos exemplos so discutidos ao longo da apresentao. Alguns exerc-
cios so propostos ao longo do texto e recomendamos o leitor tentar resolve-los
no momento em que aparecem. Finalmente, ao m da cada captulo, apresen-
tamos uma lista extensa de exerccios cobrindo o material desenvolvido.
Por m, no Captulo 5 Seo 5.1, apresentamos uma apanhado geral de cer-
tos resultados da Teoria da Medida. A partir da, introduzimos as denies e
demonstramos alguns dos resultados bsicos da Teoria dos Processos Estocs-
ticos. Apresentamos alguns resultados bsicos sobre processos independentes
e ergdicos. Muitos exemplos que ilustram a teoria so abordados ao longo
desta seo.
Ao m do texto decrevemos brevemente alguns tpicos que so de grande
importncia: martingales, movimento Browniano e difuses. Um tratamento
matemtico mais completo destes assuntos foge ao escopo deste livro.
Quando se deseja demonstrar resultados sobre quase todos os caminhos
amostrais se necessita de Teoria da Medida, companhia inseparvel dos Pro-
cessos Estocsticos. Segundo M. Kac, Probabilidade a Teoria da Medida
i i
i i
i i
PrincipalNovo 2016/5/24 20:13 page XI #7

i i
Prefcio XI
com uma alma.

Esclarecemos o leitor que todo o material do livro apresentado de forma
matematicamente precisa. As demonstraes so desenvolvidas com correo.
No entanto, algumas questes mais complexas da teoria requerem uma maior
maturidade analtica e uma formalizao matemtica mais sosticada. Isto
foi deixado para o m. Com o objetivo de atingir um pblico mais amplo,
optamos por seguir a presente sequncia.
Tratamos aqui com muitos detalhes o caso de sistemas com espao de es-
tados discreto (mas no exclusivamente).
O presente texto sofreu inuncia na sua redao daqueles livros que no
nosso entender introduzem a Teoria dos Processos Estocsticos da maneira
mais elegante possvel:
P. Billingsley, Probability and Measure, Wiley, 1995
G. Grimmett and D. Stirzaker, Probability and Random Processes, Oxford
Press, 1994
D. W. Stroock, An introduction to Markov Processes, Springer Verlag, 2005
S. Ethier and T. Kurtz, Markov Processes, John Wiley, 1986
Karlin and Taylor, A First Course in Stochastic Processes, Academic Press,
1975
Karlin and Taylor, A Second Course in Stochastic Processes, Academic
Press, 1975
J. Norris, Markov Chains, Cambridge Press, 1997
R. Durrett, Probability: Theory and Examples, Cambridge Press
Finalmente, gostaria de agradecer a vrios colegas e estudantes que leram
e nos auxiliaram a corrigir vrias imperfeies em verses preliminares do pre-
sente texto: Jairo Mengue, Adriano Tort, Carlos Felipe Lardizabal, Rafael R.
Souza, Cleonis Figueira, Adriana N. de Oliveira, Marcelo Disconzi, Everton
Artuso, Gustavo Muller, Matheus Stapenhorst, Rafael Pereira e Thomas J.
Spier.
i i
i i
i i
PrincipalNovo 2016/5/24 20:13 page XII #8

i i
XII Prefcio
Porto Alegre, 2 de maro de 2015
Artur O. Lopes
Slvia R. C. Lopes
i i
i i
i i
PrincipalNovo 2016/5/24 20:13 page 1 #9

i i
1
Introduo
Vamos apresentar inicialmente algumas denies preliminares, exibir alguns
exemplos de natureza simples e discutir tambm algumas das idias bsicas
da Teoria da Probabilidade e dos Processos Estocsticos. Certas partes desta
seo tm um carter levemente informal. a nica do livro com tais carac-
tersticas.
O objetivo aqui descrever certos aspectos essenciais do ponto de vista
probabilstico ou estatstico (de se analisar um problema matemtico).
Considere xado um conjunto K . Uma probabilidade P em K uma lei
que associa a cada subconjunto A de K um valor real no negativo P (A) menor
ou igual a um. O valor P (K) se assume ser igual um. Algumas propriedades
mais (Denio 1.2) sero requeridas para P .
Fixado o conjunto K , denotamos por p(K) = {A : A K}, o conjunto
das partes de K .
Infelizmente, em muitos casos interessantes no se pode denir P (com as
tais propriedades que desejamos) em todos os subconjuntos A de K , ou seja
sobre a classe de conjuntos p(K).
Sendo assim, necessrio introduzir a seguinte denio:
Denio 1.1. Uma famlia A de subconjuntos de um conjunto K chamado
de -lgebra sobre K no caso em que:
i i
i i
i i

i i
2 Introduo Cap. 1
a) o conjunto K pertence a A,
A pertence a A, ento o complemento K A tambm pertence a A,
b) se
c) se (An )nN uma coleo enumervel de conjuntos em A, ento a unio
nN An tambm est em A.
Segue da denio que est em A.

Note que A p(K). Note tambm que se (An )nN uma coleo enu-
mervel de conjuntos em A, ento a interceo nN An = K nN (K An )
est em A.
Os conjuntos A em A so chamados de conjuntos A-mensurveis, ou, sim-
plesmente conjuntos mensurveis, se estiver claro qual a -lgebra A a qual
estamos nos referindo.
Quando K for um conjunto nito ou enumervel a nica -lgebra que
iremos considerar sobre K ser p(K).
Observamos que quando K nito, ento p(K) nito, mas quando K
enumervel innito, ento p(K) no enumervel.
Denio 1.2. Uma probabilidade P sobre uma -algebra A de subconjuntos

de K uma lei que associa a cada A em A um nmero real P (A) tal que
P (K) = 1,
a)
b) se En , n N, uma coleo enumervel de subconjuntos de A tal que

En Em = , para m = n, ento P (nN En ) = nN P (En ).
Como K = K , ento P () = 0.
Chamamos o par (K, A), como denido acima, de espao mensurvel.
Uma vez xada a probabilidade P sobre a -lgebra A chamamos a tripla
(K, A, P ) de espao de probabilidade.
Um exemplo simples aparece quando jogamos um dado: existem seis faces e
intuitivamente sabemos que cada uma tem probabilidade 1/6 de sair. Podemos
modelar tal problema com K = {1, 2, 3, 4, 5, 6}, e P ({i}) = 1/6, onde i K .
i i
i i
i i

i i
A - algebra A o conjunto das partes p(K). A probabilidade de sair 1 ou 2

2/6. Ou seja
P ({1, 2}) = P ({1}) + P ({2}) = 1/6 + 1/6 = 2/6.
Este um problema no determinstico. No podemos armar qual face

ir sair ao lanar o dado, podemos apenas falar na probabilidade de sair uma
certa face.
A ideia que o conceito geral de probabilidade traduz que um conjunto A
A tal que P (A) = 0 de natureza desprezvel (probabilisticamente falando),
ou seja, w A no ocorre em termos probabilsticos (ou, estatsticos). Por
sua vez, um conjunto A tal que P (A) = 1 traduz o fato que w A ocorre
com certeza em termos probabilsticos. Estamos tratando aqui de eventos
aleatrios, sendo assim s se pode falar da probabilidade de algo ocorrer. O
conjunto A descreve um conjunto de elementos w com certas propriedades.
Quanto maior for o valor P (A), maior a probabilidade de A ocorrer.
No exemplo do dado considerado antes, apenas o conjunto vazio tem prob-
abilidade zero. Neste caso, no aparece de maneira muito transparente o que
estamos tentando destacar acima. O problema que tomamos um exemplo
muito simples. Outros mais complexos aparecero em breve.
Quando K for nito ou enumervel, ou seja da forma K = {k1 , k2 , ..., kn }
ou K = {k1 , k2 , ..., kn , ...}, a probabilidade P sobre A = p(K) ca especicada

apenas pelos valores pi = P ({ki }). Note que assumimos que j=1 P ({ki }) = 1.
usual se denotar o espao K onde P atua por e denomin-lo de espao
amostral. Um elemento w em ser denominado de uma amostra de ou
tambm de um evento.
Denio 1.3. Considere K equipado com uma -lgebra A e V outro con-

junto equipado com uma -lgebra G . Uma funo : K V chamada de
1
mensurvel se (A) A para todo A G .
i i
i i
i i

i i
4 Introduo Cap. 1
Consideraremos inicialmente apenas funes mensurveis : K V , em

que V nito ou enumervel, V = {v1 , v2 , ..., vi , ...}, e contido em R (ou ainda
em Rm para algum m natural). O conjunto K no precisa necessariamente
estar estar dentro de um Rk .
Uma funo mensurvel : (K, F) (R, R) tambm denominada de
Varivel Aleatria.
Quando A for p(K), o conjunto das partes de K , ento qualquer : K V
mensurvel (para qualquer -lgebra que consideremos sobre V ).
Sobre R ser considerado muitas vezes uma sigma-algebra denominada de
sigma-algebra de Borel e denotada algumas vezes por R e que ser propria-
mente denida mais tarde (ver seo 5).
Esta sigma algebra R contm todos os intervalos (e assim unies e inter-
cees enumerveis de intervalos) Um ponto qualquer x0 tal que {x0 } =
nN (x0 1/n, x0 + 1/n), e assim o conjunto {x0 } est tambm em R. Na
parte incial do livro no iremos necessitar de tal conceito.
Em qualquer caso usual a notao X : (, A) (V, G), ou seja se uti-
liza letras maisculas, para descrever a funo = X com as propriedades
acima descritas. A funo mensurvel X usualmente denominada de varivel
aleatria. comum denotar os elementos de por w e os elementos onde X
toma valores por x, logo x denota um elemento em V (a letra minscula x corre-
spondendo a mauscula X ). Assim se considerarmos uma Y : (, A) (V, G)
os elementos de V sero denominados de y .
Vamos dar um exemplo de um jogo que ilustra tal conceito: considere um
dado com seis faces e que ser jogado uma vez. O jogo o seguinte: se sair
a face 1 ou 2 ganhamos 1 real, caso contrrio ganhamos 2 reais. Considere
X : {1, 2, 3, 4, 5, 6} = {1, 2}, tal que
X(1) = 1, X(2) = 1 , X(3) = 2 , X(4) = 2 , X(5) = 2, X(6) = 2.
A funo X descreve o que vamos ganhar quando se joga o dado em funo
i i
i i
i i

i i
da face que sai. Neste caso natural concluir que
P ({w : X(w) = 1}) = 1/3 e P ({w : X(w) = 2}) = 2/3.
Seguindo a notao descrita acima, a -lgebra a ser considerada em

A = p({1, 2, 3, 4, 5, 6}). Ainda V = {1, 2} e G = p({1, 2}).
fcil ver que soma, produtos e compostas de funes mensurveis deter-
minam novas funes mensurveis.
Como outro exemplo de probabilidade, considere uma cidade que possui
populao de N = 10.000 habitantes e que cada habitante utiliza um e apenas
um de dois provedores de internet. Suponhamos que num dado dia 7.000
habitantes utilizam o provedor 1 e 3.000 usam o provedor 2.
Neste caso natural tomar como o conjunto dos 10.000 habitantes, A
como a classe das partes p() e ainda considerar a probabilidade P em p()
tal que
nmero de pessoas no conjunto A
P (A) = .
10.000
Seja X : V = {1, 2}, que associa cada habitante a seu provedor no dia
em questo. Como e V so nitos (logo A = p()) ento X mensurvel.
Seja : (K, A, P ) (V, G) mensurvel, ento ca naturalmente denido
uma probabilidade P sobre (V, G), atravs de P (B) = P (1 (B)) para cada
B G . fcil ver que P uma probabilidade sobre (V, G).
Por exemplo, para uma coleo de En G disjuntos,

P (n En ) = P (1 (n En )) = P (n 1 (En )) = P (1 (En )) = P (En ).
n n
Algumas vezes denotaremos tal P por P , para enfatizar que foi obtida de
P atravs de .
Dado X : (, A, P ) (V, G), diremos que P = PX a probabilidade (em
V ) induzida pela funo mensurvel (varivel aleatria) X e pela probabilidade
P (em ).
i i
i i
i i

i i
6 Introduo Cap. 1
Voltando ao nosso problema original, tal probabilidade PX denominada

de distribuio da varivel aleatria X . Quando X toma valores reais, ou seja
V = R, a probabilidade PX estar denida para subconjuntos B da reta real.
Em breve veremos que a distribuio PX de X na verdade mais importante
que a prpria probabilidade P .
No exemplo que estamos considerando acima, onde denimos X : V =
{1, 2}, obtemos, a partir da probabilidade P inicialmente considerada, uma
nova probabilidade P = PX denida acima como P ({1}) = 0.7 e P ({2}) = 0.3.
Usando a propriedade aditiva da probabilidade, ento claro que disto segue
que P ({1, 2}) = 1. Ainda P () = 0. Deste modo caram explcitos os valores
de P = PX sobre P({1, 2}).
Este um dos exemplos mais simples de probabilidade que conseguimos
imaginar.
Podemos ento dizer que utilizar o provedor 1 tem probabilidade 0.7 e
utilizar o provedor 2 tem probabilidade 0.3, ou seja PX ({1}) = 0.7 e PX ({2}) =
0.3. prefervel a notao P (X = 1) = 0.7 e P (X = 2) = 0.3.
Acima P (X = 1) signica P ({w : X(w) = 1}), etc...
Fixado X , para simplicar a notao, muitas vezes no se diferencia a
probabilidade P (inicialmente considerada) da distribuio PX , omitindo assim
expresses com P ou PX (que age sobre subconjuntos de V ) e usando apenas
a letra P (que age sobre subconjuntos de ). Logo, quando esta claro de qual
X falamos, no deve ser motivo de confuso falar de P (B) para um conjunto
B V . Neste caso, P (B) = P ({ : X() B}).
Um exemplo ilustrativo o seguinte: seja = [0, 1] = {x R : 1 x 1}
e X : [0, 1] R. As -lgebras "naturais"a serem consideradas neste caso
sero descritas com detalhe na seo 5.
Suponha que X seja uma funo mensurvel. Vamos ver no captulo 5
que se X continua ento ela mensurvel. Uma probabilidade P natural
a ser considerada aqui aquela que a um subconjunto da forma [a, b] (um
i i
i i
i i

i i
intervalo contido em [0, 1]) d o valor P ([a, b]) = b a. Observamos que os

intervalos sero conjuntos mensurveis na -lgebra natural. No entanto, esta
sigma-algebra no ser p([0, 1]) (conforme captulo 5).
Desejamos introduzir o conceito de integral de uma funo mensurvel com
respeito a uma probabilidade.

Se X = I[a,b] natural dizer que X(x)dP (x) = XdP = I[a,b] dP =

b a. Por exemplo, se X = I[0.3,0.7] , ento XdP = 0.4.
Ainda se X = 5 I[0.3,0.7] + 8 I[0.9,1.0] ento

X(x) dP (x) = 5 P [0.3, 0.7] + 8 P [0.9, 1.0] = 0.4 + 8 0.1 = 2.8.
Isto porque qualquer conceito razovel de integral deveria ser linear na funo
a ser integrada.
Suponha que x0 = 0 < x1 < x2 < ... < xn1 < xn . Considere os intervalos

cn = [xk , xk+1 ], k = 0, ..., n 1. Seja agora X = n1
k=0 n Icn , onde k R,
k = 0, ..., n 1. Parece tambm natural que

n1
n1
X dP = k P ([xk , xk+1 ]) = k (xk+1 xk ).
k=0 k=0
Vamos pensar por exemplo que os peixes num grande lago tem comprimento
entre 0 e 1 metro e que a probabilidade do peixe ter comprimento com valor
no intervalo [a, b] b a (a unidade de medida metro). Estes peixes so
pescados e vendidos no mercado. Aps medies de alguns peixes colhidos no
lago e o faturamento da venda dos mesmos ao longo dos meses se chegou a
concluso que
1) os peixes com comprimento no intervalo [0, 1/4] so vendidos a 10 reais,
2) os peixes com comprimento no intervalo (1/4, 3/4] so vendidos a 15
reais,
3) e, os peixes com comprimento no intervalo (3/4, 1] so vendidos a 25
reais.
i i
i i
i i

i i
8 Introduo Cap. 1
Vamos supor que os peixes so pescados de forma que com a probabilidade

ba eles tem comprimento entre a e b. Vamos denotar por P tal probabilidade.
Com isto queremos dizer, por exemplo, que se forem pescados 400 peixes, ento
o nmero N dos que tem comprimento entre 3/4 = 0.75 e 1 metro seria tal
que
N
= 1/4 = 1 3/4 = P ([3/4, 1]).
400
Este P o mesmo que vimos acima.
Assim, o valor
10 P ([0, 1/4]) + 15 P (1/4, 3/4] + 25 P (3/4, 1] =
10 0.25 + 15 0.5 + 25 0.25 = 2.5 + 7.5 + 6.25 = 16.25

parece indicar o valor mdio de venda de peixe. Assim, se pescarmos e ven-
dermos 400 peixes receberamos em reais
400 16.25 = 6500.
Dizemos que 10 0.25 + 15 0.5 + 25 0.25 = 16.25 nos d o valor

esperado de venda de peixe.
Note que se X = 10 I[0,1/4] + 15 I[1/4,3/4] + 25 I[3/4,1] ento

XdP = 10 P ([0, 1/4]) + 15 P (1/4, 3/4] + 25 P (3/4, 1] = 16.25.
usual denotar por E(X) (valor esperado da varivel X segundo P ) esta

integral X dP. No caso seria o valor esperado do preo do peixe vendido.
1
Para uma funo contnua X : [0, 1] R a integral 0 X(x)dx um con-
ceito bem conhecido do Clculo Diferencial e Integral. A integral de Riemann
de X obtida atravs do limite de somas de Riemann da forma

n1
X(yk ) (xk+1 xk ),
k=0
i i
i i
i i

i i
onde yk [xk , xk+1 ].

Este limite vai acontecer quando n for grande e todos os comprimentos
envolvidos |xk+1 xk |, k = 0, 1, ..., n 1, forem uniformemente pequenos.

Em resumo os valores n1 k=0 X(yk ) (xk+1 xk ) so aproximaes da integral

X(x)dx.

Assim dada uma funo continua X : [0, 1] R a integral X(x)dx
descreve de alguma forma o valor esperado da varivel X segundo a P descrita

acima. Ser ento natural denotar E(X) = X(x)dx.
Vamos agora voltar ao caso geral. Dada uma funo meansurvel X :

R desejamos dar sentido ao que seria X dP. Ou seja, dar um sentido a
integral de X com relao a P .

Se A um conjunto mensurvel ser ento natural denir IA dP = P (A).

Ainda se X = ni=1 i IAi , onde os Ai so mensurveis disjuntos dois a dois, e
os k so nmeros reais, ento

n
X dP = i P (Ai ).
i=1
Suponha agora que Ui=1

n
Ai = .
Para uma funo meansurvel geral X : R, se pode tomar uma

aproximao da forma acima ni=1 X(yi )P (Ai ) (com n grande e Ui=1
n
Ai = ),
cada yi Ai e as probabilidades P (Ai ) uniformemente pequenas. No limite

se teria o valor X dP. O paralelo com a integral de Riemann descrita acima
ca evidente. Esta uma descrio bem informal do que ser rigorosamente
apresentado no Captulo 5.

Neste caso o valor esperado de X segundo P seria XdP = E(X). Na
Denio 2.16 abaixo vamos voltar a abordar este conceito em um caso inter-

essante em que XdP pode ser calculado de uma maneira simples e natural.
Vamos agora denir o que um processo estocstico.
i i
i i
i i

i i
10 Introduo Cap. 1
Denio 1.4. Seja (, A, P ) espao de probabilidade, (S, G) um espao men-

survel e ainda uma famlia de variveis aleatrias Xt indexadas por um parmetro
t T , onde T R (isto , cada Xt : (, A, P ) (S, G) mensurvel). Dize-

mos que tal (Xt )tT um processo estocstico. No presente texto S sempre
nito ou enumervel e assim G = p(S).
Denio 1.5 (Espao de ndices ou parmetros temporais). O con-

junto T = contido em R denominado espao de parmetros temporais, ou,
ndices do processo. O conjunto T possui uma ordem e vamos pensar que para
cada t T a varivel Xt descreve o que acontece com o processo no tempo t.
Dois casos importantes so:
Parmetro Temporal Discreto - T = N, ou Z, ou ainda {1, 2, ..., n}.

Parmetro temporal Contnuo - T = [a, b], ou T = {t R : t 0} =
R+ ou ainda T = R.
Denio 1.6 (Espao de Estados). o conjunto S, ou seja, o elenco dos
possveis valores de cada varivel aleatria Xt .
Quando S nito, S ser SEMPRE descrito na forma {1, 2, ..., m} ou

ainda da forma {1, 2, ..., m}k , onde m e k so nmeros naturais.
Por exemplo, se S denota o conjunto de trs possveis canais de TV, escol-
heremos para cada um deles um nmero de 1 a 3.
Se S for enumervel innito S ser SEMPRE descrito na forma S = N,
ou, S = Z (dependendo do caso).
Quanto ao parmetro temporal o nico caso que iremos tratar aqui neste
captulo quando T = N. Alguns exemplos iniciais sero para T nito.
Para todo w xado, e t tambm xo, Xt (w) determina o valor do
processo no tempo t avaliado em w e algumas vezes denotado por wt . Quando
w est xo e t varivel, os valores Xt (w) = wt descrevem a evoluo
temporal ao longo do tempo t T . Usamos a letra grega para denotar
= {wt }tT S T associado a um certo w. Observe que w e S T . Por
i i
i i
i i

i i
11
exemplo, se S = {1, 2, 3} e T = N, um poderia ser a sequncia ordenada

innita (2, 2, 3, 1, 2, 3, 1, 2, 3, 3, ...) = (w1 , w2 , w3 , ..., wn , ...).
Note ainda que usaremos aqui a seguinte notao: se o conjunto A denido
por
A = {w : Xt1 (w) = a1 , Xt2 (w) = a2 , ..., Xtn (w) = an } =
{Xt1 = a1 , Xt2 = a2 , ..., Xtn = an }
e B por
B = {w : Xs1 = b1 , Xs2 = b2 , ..., Xsm = bm },
ento
A B = {w : Xt1 (w) = a1 , Xt2 (w) = a2 , ..., Xtn (w) = an ,
Xs1 (w) = b1 , Xs2 (w) = b2 , ..., Xsm (w) = bm },
ou seja, sem maior preocupao com a ordem dos tempos envolvidos.

Concretamente, se
A = {X2 = 1, X6 = 3, X8 = 4},
e
B = {X1 = 4, X2 = 1, X8 = 3, X9 = 2},
podemos denotar A B , indistintamente como
A B = {X1 = 4, X2 = 1, X6 = 3, X8 = 3, X8 = 4, X9 = 2},
ou como
A B = {X2 = 1, X6 = 3, X8 = 4, X1 = 4, X2 = 1, X8 = 3, X9 = 2}.
Note que neste caso
{X1 = 4, X2 = 1, X6 = 3, X8 = 3, X8 = 4, X9 = 2} = ,
i i
i i
i i

i i
12 Introduo Cap. 1
porque no pode existir w tal que X8 (w) = 4 e X8 (w) = 3.

No confunda este conjunto com
= {X1 = 4, X2 = 1, X6 = 3, X8 {3, 4}, X9 = 2} =
{X1 = 4, X2 = 1, X6 = 3, X8 = 3, X9 = 2}
{X1 = 4, X2 = 1, X6 = 3, X8 = 4, X9 = 2}.
Note ainda que
{X1 {2, 4}, X2 = 1, X4 {3, 4}} =
{X1 = 4, X2 = 1, X4 = 3}
{X1 = 2, X2 = 1, X4 = 4}.
Prosseguindo com o exemplo da cidade com N = 10.000 habitantes, va-
mos supor que a cada ms se faz uma enquete e cada pessoa informa qual
internet est usando. Vamos estabelecer que se vai realizar enquetes em trs
oportunidades seguidas com intervalo de um ms. Fica assim determinado que
T = {1, 2, 3}, S = {1, 2} e Xt descreve qual provedor uma determinada pessoa
estava utilizando no dia da t-sima enquete, t {1, 2, 3}.
Para simplicar assumimos que em cada ms cada pessoa w utiliza um
e apenas um provedor. Neste caso, natural tomar = {1, 2, ..., N }, e uma
amostra w um habitante da cidade. Neste caso, Xt (w) = wt S , t {1, 2, 3},
descreve o provedor utilizado pelo indivduo (ou amostra) w na enquete t-
sima.
Um elemento poderia ser, por exemplo, = (1, 2, 1) S T . Este
corresponde a indivduos w tais que usavam a internet 1 no ms 1, a internet
2 no ms 2 e a internet 1 no ms 3.
As perguntas que estaremos preliminarmente interessados em analisar en-
volvem por exemplo: qual o valor de
P (X1 = 2, X2 = 2, X3 = 1) = P (X1 {2}, X2 {2}, X3 {1}) =
i i
i i
i i

i i
13
P ({w , tais que X1 (w) = 2, X2 (w) = 2, X3 (w) = 1} )?

Para efetuar este clculo, contamos cada indivduo que na primeira enquete
usava o provedor 2, na segunda o mesmo provedor 2, e na terceira trocou para
o provedor 1. A seguir dividimos o nmero obtido por N = 10.000.
Os possveis wt tomariam valores em
S T = {1, 2}3 = {1, 2} {1, 2} {1, 2}.
Note que diferentes pessoas w podem determinar o mesmo valor =

(wt )tT {1, 2}3 .
Um conceito de fundamental importncia em probabilidade o de proba-
bilidade condicional.
Denio 1.7. Fixado (, A, P ), denotamos por
P (A B)
P (A | B) = ,
P (B)
a probabilidade de ocorrer A dado que ocorreu B. Isto s faz sentido, claro,
se P (B) = 0.
Por exemplo, para saber qual a probabilidade de um estudante do colgio

B passar no exame vestibular da universidade A, considera-se o quociente
nmero de estudantes do colgio B que passaram na universidade A
.
nmero de estudantes do colgio B
Denio 1.8. Fixada uma probabilidade P, dizemos que o evento denido
pelo conjunto A independente do evento denido pelo conjunto B se
P (A | B) = P (A),
ou seja, se
P (A B) = P (A) P (B).
i i
i i
i i

i i
14 Introduo Cap. 1
Esta propriedade descreve o fato que para os conjuntos A, B em consider-

ao, a ocorrncia de A no inuencia, em trmos estatsticos, a ocorrncia ou
no de B .
Dadas funes X, Y o sentido de
P (X = a | Y = b) P ({w1 | X(w1 ) = a} | {w2 | Y (w2 ) = b} ).
Dadas funes X, Y, Z, V o sentido de
P (X = a , Y = b| Z = c, V = d) P ({ X = a, Y = b} | { Z = c , V = d} ).
Denio 1.9. Sejam (X, F, P ) onde X(w) S e(Y, F, P ) onde Y (w) S1 ,

e S e S1 so nitos. Diremos que X independente de Y se para quaisquer
elementos aSR e b S1 R vale que
P (X = a | Y = b) = P (X = a),
ou seja, se
P (X = a, Y = b) = P ({X = a} {Y = b}) = P ({X = a}) P ({Y = b}).
Como exemplo, considere X a varivel que descreve a face que sai quando
se joga um dado pela primeira vez e Y a varivel que descreve a face que sai
quando jogamos o dado pela segunda vez.
Sejam a, b {1, 2, 3, 4, 5, 6} xados, ento
P (X = a, Y = b) = 1/36 = (1/6)2 .
Isto porque, temos ao todo 62 possibilidades de sadas de pares ordenados

de faces (x, y) {1, 2, 3, 4, 5, 6} {1, 2, 3, 4, 5, 6}. O par (a, b) corresponde a
apenas uma possibilidade. Cada par tem a mesma chance de sair, logo tem
mesma probabilidade.
i i
i i
i i

i i
15
Sendo assim,
P (X = a, Y = b) = 1/36 = 1/6 1/6 = P (X = a) P (Y = b).
Logo, a face que sai no primeiro lanamento do dado independente do

que sai no segundo lanamento. usual colocar o tempo como parmetro e
assim denominar X = X1 e Y = X2 . Se fssemos lanar a moeda uma terceira
vez, o resultado seria X3 .
Dadas funes X, Y, Z, V dizemos que X, Y so independentes de Z, V se
para quaisquer a, b, c, d vale
P (X = a , Y = b| Z = c, V = d) = P (X = a , Y = b).
Da mesma forma, Dadas funes X1 , X2 , .., Xn , dizemos que elas indepen-

dem das funes Y1 , Y2 , .., Yk se para quaiquer x1 , x2 , .., xn , y1 , y2 , .., yk vale
P (X1 = x1 , X2 = x2 , ... , Xn = xn | Y1 = y, Y2 = y2 , ..., Yk = yk ) =
P (X1 = x1 , X2 = x2 , ... , Xn = xn ).
Suponha que funes X, Z, V so tais que X, Z independam de V . Ento
P (X = a , Z = c, V = d)
P (X = a | Z = c, V = d) = =
P (Z = c, V = d)
P (X = a , Z = c, V = d) P (V = d)
=
P (V = d) P (Z = c, V = d)
P (V = d)
P (X = a , Z = c | V = d) =
P (Z = c) P (V = d)
1
P (X = a , Z = c) = P (X = a | Z = c) ()
P (Z = c)
i i
i i
i i

i i
16 Introduo Cap. 1
Ou seja, a informao de V pode ser descartada.

Outra propriedade interessante a seguinte: suponha que X seja indepen-
dente de Y e Z .
Ento, X independente de Y + Z .
De fato, dados a, b ento
P (X = a , Y + Z = b)
P (X = a | Y + Z = b) = =
P (Y + Z = b)
P (X = a , Y + c, Z = b c)
=
c
P (Y + Z = b)
P ( Y + c, Z = b c)
P (X = a) = P (X = a) ()
c
P (Y + Z = b)
fcil ver de forma semelhante que se X independente de Y1 , Y2 , .., Yk ,
ento X independente de Y1 + Y2 + ... + Yk , ento
Voltando ao modelo do uso da internet, poderamos denir uma varivel
Y tal que Y (w) = 4 se a renda mensal do indivduo w abaixo de 4.000, 00
reais e Y (w) = 5 caso contrrio. Neste caso, S1 = {4, 5}, e se por acaso X
independente de Y , ento existe uma clara indicao de que o uso da internet
1 ou 2 independente da classe de renda do indivduo w.
Podemos nos perguntar tambm: qual a probabilidade de uma pessoa uti-
lizar a internet 1 na terceira enquete, dado que utilizou a internet 2 nas duas
primeiras? Ser que nesta questo especca existe independncia?
Para responder tal pergunta devemos calcular
P (X1 = 2, X1 = 2, X3 = 1)
P (X3 = 1 | X1 = 2, X2 = 2) = .
P (X1 = 2, X2 = 2)
Vai existir independncia (do que acontece no tempo 3 em funo do uso
anterior no tempo 1 e 2), se, por acaso,
P (X1 = 2, X2 = 2, X3 = 1)
= P (X3 = 1).
P (X1 = 2, X2 = 2)
i i
i i
i i

i i
17
No nos parece natural que v ocorrer independncia, pois existe sempre

uma certa dose de inrcia nas ndole das pessoas: se um indivduo usava a
internet 2 no mes 2, ento o valor da probabilidade que ele v continuar usando
a internet 2 no ms 3 maior do que o valor da probabilidade que ele passe a
usar a internet 1 no ms 3.
Para responder com certeza a pergunta acima seria necessrio obter os
dados exatos sobre os habitantes da tal cidade nestas trs oportunidades e
fazer a conta acima.
Voltemos agora ao exemplo do uso da internet. Consideramos nalmente

o caso mais interessante em que T = N e Xt : {1, 2} que vai descrever a
evoluo temporal ilimitada do uso do provedor de cada habitante w da cidade.
Uma pergunta natural que podemos nos fazer neste caso a seguinte: ser que
existem os limites
lim P (Xt = 1) = 1 ,
t
e
lim P (Xt = 2) = 2 ?
t
Outra questo: ser que existe o limite
lim P (Xt = 1 | X1 = 2)?

t
Um dos objetivos da teoria atacar questes desta natureza.
Denio 1.10. Para cada amostra w xada, seja a sequncia =

(wt )tN = (Xt (w))tN { : N S} = S N , que ser denominada de caminho
amostral.
Na verdade os = (wt )tN desempenham na teoria um papel mais funda-

mental do que os w.
Os exemplos do mundo real, no entanto, muitas vezes aparecem de maneira
natural no domnio dos w .
i i
i i
i i

i i
18 Introduo Cap. 1
Alertamos o leitor que, xado o processo estocstico (Xt )tN , usual no

fazer muita distino entre w e e tambm entre e S N . Ou seja, podemos
falar em , ou w S N . Preferimos analisar as questes sobre o ponto de
vista dos w S N que so mais fundamentais no modelo matemtico.
Vamos considerar a seguir uma classe importante de processos estocsticos.
Denio 1.11. Fixados (, A, P), dizemos que o processo Xt tomando val-
ores em S (enumervel) e com parmetro t T = N independente se para

cada n e cada sequncia t1 < t2 < ... < tn , ti T = N, e para cada sequncia
de conjuntos A1 , A2 , ..., An , onde Ai S , i {1, 2, ..., n}, vale que
P (Xt1 A1 , Xt2 A2 , ..., Xtn An ) =
P (Xt1 A1 ) P (Xt2 A2 )...P (Xtn An ).
Vamos voltar ao exemplo do jogo com um dado que mencionamos antes.

Como vimos, neste jogo P (X = 1) = 1/3 e P (X = 2) = 2/3. Vamos agora
jogar o dado sucessivamente e Xt vai descrever o que ganhamos na jogada
t T = N em funo da face que saiu. natural assumir que para cada t xo,
a varivel Xt descrita tambm por X como acima.
Uma conta fcil (levando em conta o conjunto das possibilidades) mostra
que
2 .4 .2 16
P (X1 = 1, X2 = 2, X3 = 1) = 3
= =
6 216
2 4 2
. . = P (X1 = 1) P (X2 = 2) P (X3 = 1).
6 6 6
Procedendo de maneira semelhante fcil ver que
P (Xt1 = a1 , Xt2 = a2 , ..., Xtn = an ) =
P (Xt1 = a1 ) P (Xt2 = a2 )...P (Xtn = an ),

para qualquer sequncia t1 < t2 < ... < tn e ai {1, 2}, i {1, 2, ..., n}.
i i
i i
i i

i i
19
Mais explicitamente,
1 2
P (Xt1 = a1 , Xt2 = a2 , ..., Xtn = an ) = ( )k ( )nk ,
3 3
onde k o nmero de valores 1 entre os n valores a1 , a2 , ..., an .
Procedendo da forma acima, agora para conjuntos Ai S , fcil de se
concluir que o processo estocstico associado a jogar o dado sucessivas vezes
(e ver se obtemos X = 1 ou X = 2) um processo independente.
Outra questo: vamos jogar o dado n vezes e denotar por X1 , X2 , ..., Xn os
resultados obtidos sucessivamente em ordem de aparecimento; qual a proba-
bilidade de se obter k vezes Xi = 1 (ou seja, sair a face 1 ou 2 do dado), entre
os i {1, 2, 3.., n}? Ora existem
n!
Cnk =
(n k)! k!
possibilidades de isto ocorrer no universo de 2n ocorrncias de X = 1 ou X = 2,
ou seja dos possveis resultados Xi que se obtem ao jogar o dado n vezes.
Cada uma das ocorrncias tem probabilidade ( 31 )k ( 23 )nk . Aqui estamos
usando a expresso acima que segue da independncia do processo.
Logo a probabilidade que buscamos vale
n! 1 2
( )k ( )nk .
(n k)! k! 3 3
Mais geralmente, se ocorrer no jogo uma probabilidade p de sair X = 1 e
uma probabilidade 1 p de ocorrer X = 2 em uma jogada, a probabilidade de
ocorrer um total de k vezes o X = 1 em n jogadas igual a
n!
pk (1 p)nk .
(n k)! k!
Estamos supondo claro que existe independncia entre as sucessivas jo-
gadas.
i i
i i
i i

i i
20 Introduo Cap. 1
Esta distribuio denominada de Binomial (n, p) e denotada por B(n, p).

Para cada k temos um valor e a soma destes valores para k = 0, 1, 2, .., n
igual a 1.
Para checar que a soma destes valores exatamente igual a 1, podemos
usar o Binmio de Newton:

n
n!
1 = (p + (1 p))n = pk (1 p)nk ,
k=0
(n k)! k!
Denio 1.12. Fixados (, A, P), dizemos que o processo Xt tomando val-
ores em S (enumervel) e com parmetro tT =N independente e iden-
ticamente distribudo, denotado por i. i. d., se ele independente, e ainda,
para todo t, vale
P (Xt A) = P (X0 A),
para todo subconjunto A de S.
Note que, neste caso, se denotamos P (X0 = s) = ps = P (Xt = s), para

todo t 0 e s S , ento
P (X0 = a0 , X1 = a1 , X2 = a2 , ..., Xn = an ) = pa0 pa1 pa2 ..., pan .
Vamos agora dar um exemplo prtico do uso da Teoria das Probabilidades.

Uma companhia area possui um avio com s lugares. Ela sabe que em geral
ocorre que um certo nmero de pessoas compram a passagem mas no apare-
cem na hora do voo. Ento ela vende v lugares para o voo e v > s. Atravs
da experincia passada, a companhia sabe que, em termos estatsticos, existe
uma probabilidade p de comparecimento. Ou seja, cada indivduo, entre as v
pessoas que compram passagem, comparece ao voo com probabilidade p. Qual
o risco de que o nmero de pessoas que comparecem ao vo supere o nmero
de assentos s? Ora, primeiro note que se pode supor independncia na anlise
i i
i i
i i

i i
21
da questo. Qual probabilidade r(j) de aparecerem j dos v passageiros que

compraram a passagem? Resposta:
v!
r(j) = pj (1 p)nj .
(v j)! j!
Logo, a probabilidade de que o nmero de pessoas que comparecem ao voo
supere o nmero de assentos s

v
r(j).
j=s+1
Estamos supondo para simplicar que todos os passageiros a embarcar

esto comeando seu voo na mesma cidade, que no existe a questo de voo
de conexo, etc... Assim, razovel supor a independncia do comportamento
dos envolvidos e da sua capacidade de comparecer ao voo em considerao, ou,
no.
Denio 1.13. Fixados (, A, P ), (V, V) = (V, p(V )), onde V R nito

ou enumervel, e uma funo mensurvel X : (, A, P ) (V, p(V )), chamamos
de integral de X em relao a P , o valor real

x P ({w tal que X(w) = x}),
xV

e que ser denotado por XdP = X(w)dP (w).

Como dissemos antes usual chamar XdP de esperana da varivel
aleatria X e denotar este valor por E(X).
Note que dadas as variveis aleatrias X : V R e Y : V R,

ento (X + Y )dP = XdP + Y dP .
Vamos calcular agora E(X1 ) no caso do exemplo do processo independente
em que jogamos sucessivamente um dado.
i i
i i
i i

i i
22 Introduo Cap. 1
Segue da denio acima que

E(X1 ) = X1 dP = 1.P (X1 = 1) + 2.P (X1 = 2) = 1 . 1/3 + 2 . 2/3 = 5/3.
Este valor corresponde ao lucro mdio esperado quando se joga a moeda

uma vez.
Note que neste caso tambm vale para qualquer tempo i que E(Xi ) = 5/3.
Para saber a riqueza acumulada at a terceira jogada deveramos considerar
a varivel aleatria S3 = X1 + X2 + X3 .
A varivel S3 est denida sobre
S = {1, 2, 3, 4, 5, 6}3 ,
ou seja,
S3 : {1, 2, 3, 4, 5, 6}3 N.
Para simplicar a notao usual considerar que embora inicialmente X1 :

{1, 2, 3, 4, 5, 6} {1, 2}, podemos usar a mesma expresso X1 para denotar
X1 : {1, 2, 3, 4, 5, 6}3 {1, 2}, ou seja, X1 (w1 , w2 , w3 ) = X1 (w1 ).
O mesmo vale analogamente para X2 e X3 . Este procedimento completa-
mente geral e ser utilizado no texto em outros casos similares sem nenhuma
meno a esta pequena sutileza. Logo X1 , X2 , X3 e S3 podem ser consideradas
todas sobre o mesmo domnio {1, 2, 3, 4, 5, 6}3 .
Como a integral aditiva na funco obtemos ento que
E(S3 ) = E(X1 ) + E(X2 ) + E(X3 ) = 3 . 5/3 = 5.
S3 descreve o ganho em trs jogadas e uma varivel aleatria tomando

valores em R. Ainda, E(S4 ) = E(X1 ) + E(X2 ) + E(X3 ) + E(X4 ) = 20/3.
Se tivermos que calcular o que se ganha na mdia neste jogo em trs jogadas,
a resposta ser E(S3 ) = 5.
i i
i i
i i

i i
23
Podemos considerar outros jogos em que dependendo das faces que apare-
cem sucessivamente quando uma moeda lanada quatro vezes seguidas se
ganha uma certa quantia, ou ento um jogo de roleta, etc...
Da mesma forma como antes, se pode calcular a esperana do ganho auferido
em cada um destes diversos jogos. Se tivermos que tomar uma deciso so-
bre qual jogo seria mais lucrativo jogar, a escolha mais sbia seria participar
daquele que tem o maior valor esperado do ganho.
Vamos apresentar mais um exemplo da importncia do clculo do valor
esperado. No caso da venda de passagem da companhia area discutido previ-
amente, assuma que para cada passageiro que exceda os s assentos disponveis
ser necessrio pagar uma diria de hotel (at que saia o prximo vo no dia
seguinte) de 200,00 reais. Qual ser a despesa mdia esperada L(v) oriunda do
procedimento de vender v passagens com v > s para um avio de s lugares?
A resposta

v
L(v) = r(j) (j s) 200, 00.
j=s+1
Agora devemos calcular, em funo do valor do preo de cada passagem,

o lucro obtido com a venda de t passagens e comparar com o prejuzo L(v)
oriundo do eventual comparecimento de mais de s passageiros com a venda de
v passagens.
Para simplicar nossa anlise no estamos levando em conta a inuncia
no nmero de assentos necessrios no avio no dia seguinte na eventualidade
de comparecimento de mais de s passageiros num certo dia.
A questo relevante para a companhia area seria ento encontrar para
qual v ocorre o valor mximo de lucro. No vamos discutir aqui as eventuais
questes ticas envolvidas no problema.
Aps estes exemplos vamos voltar ao nosso tpico principal, ou seja os

Processos Estocsticos.
i i
i i
i i

i i
24 Introduo Cap. 1
Voltamos agora ao caso geral de processo estocstico (Xt )tN , sobre um o

espao de probabilidade (, A, P ) xado, onde Xt : S para um certo
conjunto nito ou enumervel S . O caso que realmente nos interessa quando
t N, ou seja, t ilimitado. Neste caso, podemos, por exemplo, analisar o
comportamento limite de um caminho amostral (wt )tN (com probabilidade 1)
obtido do processo, etc...
Por exemplo, no caso em que S = {1, 2}, podemos nos perguntar: xado
= (w1 , w2 , w3 , ..., wn , ...) ser que existe o limite
# vezes que aparece o 1 entre os valores w1 , w2 , w3 , ..., wn1

lim .
n n
Como se pode calcular tal valor? Este tipo de resultado ocorre, por ex-
emplo, para processos independentes e contemplado pela Lei dos Grandes
Nmeros, um dos teoremas mais importantes da Probabilidade (ver seo 2.1
para um enunciado preciso).
Observao 1 -Existem = (wt )tN para os quais tal limite no existe.

O que desejamos saber se existe um conjunto K = {1, 2}N tal que
P (K) = 1 e para K , vale que existe o limite acima. Esta a essncia da
viso probabilstica (ou estatstica) de analisar o problema. Tal conjunto K
existe mas no depende apenas de nitas coordenadas ( mais complexo que
isto como veremos no ltimo captulo).
Concretamente, no caso em que se joga sucessivamente uma moeda, e as-

sociamos 1 cara e 2 coroa, se Xn {1, 2} determina a face que saiu na
jogada n-sima, sabemos intuitivamente que quando a moeda jogada um
nmero grande de vezes, na mdia, na metade delas sai cara. Este fato segue
da Lei dos Grandes Nmeros e do fato que o processo Xn , neste caso, inde-
pendente (conforme captulo 4 e 5).
Armamos que existe um conjunto K = {1, 2}N , onde vale que para
i i
i i
i i

i i
25
qualquer w = (w1 , w2 , ..., wn , ...) K
# vezes que aparece o 1 entre os valores w1 , w2 , ..., wn1 1

lim = .
n n 2
O conjunto K vai estar numa sigma algebra F na qual se pode falar da
sua probabilidade P (K) (oriunda da informao de que a cada jogada existe
probabilidade meio de sair cara ou coroa). Armamos que P (K) = 1!!! Este
resultado ser demonstrado mais tarde no captulo 5.
Note que possvel que saia sempre (portanto, innitas vezes) cara, o
que corresponderia ao evento = (1, 1, 1, 1, 1, 1, 1, 1, ...). O fato que este
elemento est fora do conjunto K .
Sendo assim, do ponto de vista probabilstico no possvel que =
(1, 1, 1, 1, 1, 1, 1, 1, ...) ocorra.
Um fato de fundamental importncia que o conjunto K dos caminhos
amostrais w = (w1 , w2 , w3 , ..., wn , ...) que tem limite 1/2 no depende de nitas
coordenadas. necessrio conhecer cada wn , para todo n N, para decidir se
w est ou no em K .
Armar que P (K) = 1 traduz em termos matemticos precisos o que a
nossa intuio nos diz. Fica claro, desta forma, o sentido do estudo do ponto
de vista probabilstico de se entender os fenmenos aleatrios.
Voltemos ao exemplo em que uma companhia vende v lugares para um

avio de s lugares, onde v > s. Vamos supor que a cada dia oferecido um
voo seguindo esta poltica, onde v e s esto xos. Suponha que Xn descreva
o nmero de passageiros que aparecem no dia n. O processo estocstico Xn
toma valores em S = {0, 1, 2, 3, ..., v}. razovel supor que Xn um processo
independente. Conforme calculado antes, L(v) o valor esperado de gasto
com hotel oriundo desta poltica. Uma das consequncias da Lei dos Grandes
Nmeros que, neste caso, se calcularmos o valor mdio durante, digamos 100
dias, iremos obter aproximadamente o valor L(v). Mais precisamente, seja Ln
i i
i i
i i

i i
26 Introduo Cap. 1
o gasto no dia n com hotel para passageiros que no conseguem lugar no voo
(quando Xn > s), ento da LGN segue que
L1 + L2 + ... + Ln
lim = L(v).
n n
Sendo assim, o gasto estimado em 100 dias seria aproximadamente 100 L(v).
Desejamos esclarecer um ponto importante sobre como so em geral intro-
duzidos os modelos na teoria.
Considere T = N, as variveis Xt : S , t N, a probabilidade P , etc...
Como sempre S nito, ou, se innito, ento enumervel. Considere agora
para n xo, uma seqncia tambm xada de tempos ordenados, t1 < t2 <
... < tn T.
Considere uma sequncia A1 , A2 , ..., An S xada. Considere
P ({ w tais que Xt1 (w) A1 , Xt2 (w) A2 , ..., Xtn (w) An }) =
P (Xt1 A1 , Xt2 A2 , ..., Xtn An ).

Dizemos que P ( Xt1 A1 , Xt2 A2 , ..., Xtn An ) determina a dis-
tribuio conjunta das variveis Xt1 , Xt2 , ..., Xtn quando exaurimos todas as
possibilidades de Ai ,
A1 , A2 , ..., An S.
As informaes acima descritas e que so fornecidas pelas distintas pos-
sibilidades de todos os n, t1 t2 ... tn , e A1 , A2 , ..., An S so de-
nominadas distribuies nito-dimensionais. Ela so obtidas a partir do
conhecimento explcito de P , de , das Xt , onde t T = N etc...
As distintas classes de Processos Estocsticos que so analisadas em di-
versos livros, em geral, no so apresentadas do modo concreto (uso da inter-
net, passageiros que utilizam uma companhia area) descrito inicialmente. Se
assume em cada modelo (na maioria das vezes) que o processo satisfaz cer-
tas propriedades baseadas na distribuies nito-dimensionais. Isto natural
i i
i i
i i

i i
27
quando se busca encontrar modelos e no se parte de um exemplo concreto.

Aps obtermos uma srie de distintos modelos tericos que far sentido anal-
isar um determinado problema do mundo real. Ento, nos perguntaremos: em
qual dos diversos modelos tericos anteriormente estudados melhor se encaixa
o fenmeno natural em anlise? Quanto maior for a riqueza e diversidade
de modelos que tivermos a nossa disposio, com mais preciso ser descrito
o fenmeno natural e melhor podero ser as nossas previses futuras a seu
respeito. Como se diz, "se na sua caixa de ferramentas, a nica que est
disponvel um martelo, todo problema vai lhe parecer com um prego".
Denio 1.14. Os conjuntos da forma
{Xt1 A1 , ..., Xtj Aj , ..., Xtn An },
para t1 < t2 < ... < tn , A1 , A2 , ..., An S , xos, so denominados de conjuntos

cilndricos ou cilindros.
Por exemplo, suponha S = {1, 2, 3, 4}, n = 2, t1 = 0, t2 = 3, A1 =

{1, 2}, A2 = {1}, assim
{ X0 {1, 2}, X3 = 1 } = { X0 {1, 2}, X1 S, X2 S, X3 {1} }
um cilindro.
De outra forma, o conjunto acima descrito por
{w = (1, w1 , w2 , 1, w4 , w5 , ..., wn , ...)} {w = (2, w1 , w2 , 1, w4 , w5 , ..., wk , ...)}.
Repetindo, o que armamos anteriormente, em geral no se parte do con-

hecimento explcito da P , de , das Xt : S , etc..., mas sim supe-se que
P satisfaa alguma condio em termos das distribuies nito dimensionais
(que devem satisfazer certas condies de compatibilidade que sero descritas
posteriormente). Ou seja, se parte da informao do valor da probabilidade P
sobre os cilindros de todos os tamanhos n.
i i
i i
i i

i i
28 Introduo Cap. 1
Para simplicar vamos pensar que o parmetro temporal est sobre N.

Conjuntos A S N = com maior complexidade que os cilindros so de
grande importncia. Estes estaro numa certa -lgebra F p() e o valor
P (A) ser obtido via um processo de extenso da informao da probabildade
dos cilindros. O resultado que assegura esta extenso se denomina o teorema
de Caratheodori-Kolmogorov (a ser formalizado no captulo 5).
Observamos que P , e F no so nicos. Ou seja, podemos obter distin-
tos P, etc..., a partir da mesma informao obtida das distribuies nito-
dimensionais. Dito isto, a partir de agora, um processo estocstico {Xn }nN
tomando valores em S ser, nada mais nada menos que uma probabilidade P
sobre o conjunto = S N . Ainda, se = (w0 , w1 , w2 , ..., wn , ...) = S N ,
ento, assumiremos SEMPRE que Xn (w) = wn . Sobre a questo de quem
exatamente a -lgebra F p(), denida no conjunto = S N , diremos no
momento apenas que ela contm todos os conjuntos da forma
{w : Xt1 (w) = a1 , Xt2 = a2 , ..., Xtn = an } S N ,
onde n N, t1 < t2 < ... < tn e a1 , a2 , ..., an S .

Vamos apresentar agora um exemplo interessante.
Uma matriz P = (Pij )i,j = 1,2,..,n da forma n por n dita estocstica se os
elementos Pij da matriz so no negativos e a soma de cada linha igual a 1.
Para simplicar a exposio considere S = {1, 2} e T = N.
Neste caso, um exemplo de matriz estocstica seria
( )
1/3 2/3
P= .
4/7 3/7
Um vetor = (1 , 2 ) denominado de vetor de probabilidade (inicial)
sobre S = {1, 2} se R2 tal que 1 , 2 0 e 1 + 2 = 1 .
Por exemplo = (2/5, 3/5).
Fixado P e vamos denir primeiro a probabilidade P sobre = {1, 2}N
para certos tipos de conjunto.
i i
i i
i i

i i
29
Por denio,
P (X0 = a0 , X1 = a1 , X2 = a2 , X3 = a3 , ..., Xn = an ) =
P ( {w : X0 = a0 , X1 = a1 , X2 = a2 , X3 = a3 , ..., Xn = an } ) =
a0 Pa0 a1 Pa1 a2 Pa2 a3 .... Pan1 an ,
onde n N, ai {1, 2} e 0 = t0 < 1 < 2 < ... < n.
Ainda, por denio
P (X0 = s) = s ,
para todo s.
Por exemplo, no caso da matriz dois por dois P , e do vetor de probabilidade
, descrito acima, obtemos que
P (X0 = 2, X1 = 1, X2 = 1) =
341 12
2 P2 1 P1 1 = = .
573 105
Armamos que as regras de compatibilidade (a que nos referimos informal-
mente) esto satisfeitas para a P dada, e assim, pelo Teorema de Caratheodori-
Kolmogorov (ver Captulo 5), esta P pode ser considerada sobre uma certa
-lgebra F p() e existe um processo estocstico Xt compatvel com a in-
formao fornecida pela informao inicial dada pelo valor de P nos cilindros.
Todos os conjuntos da forma
{w : X0 = a0 , Xt1 = a1 , Xt2 = a2 , Xt3 = a3 , ..., Xtn = an },
esto em F .
O processo Xt , ou seja, a famlia de funes mensurveis (ou, variveis
aleatrias) Xt : = {1, 2}N {1, 2} = S , t T = N, que obtemos tal que
Xt () = wt , se
= (w0 , w1 , ..., wt , ...) = S N = {1, 2}N ,
i i
i i
i i

i i
30 Introduo Cap. 1
e t T = N.
P uma probabilidade sobre = {1, 2}N = S N . Assim, por exemplo,
P (X0 = 2, X1 = 1, X2 = 1) = P ({2} {1} {1} S N ).
Note que agora faz sentido o valor
P (X2 n = 2, para todo n N),
pois o conjunto
{X0 = 2, X2 = 2, X4 = 2, ..., X2 n = 2, ...} =

n {X0 = 2, X2 = 2, X4 = 2, ..., X2 n = 2},
vai estar na F obtida.

Pode-se mostrar (ver Captulo 5) que, neste caso,
P (X2 n = 2, para todo n N) = lim P (X0 = 2, X2 = 2, X4 = 2, ..., X2 n = 2).

n
Este processo nosso primeiro exemplo de Processo de Markov. Em breve

vamos falar mais detalhadamente sobre tais processos.
Vamos apresentar agora uma ilustrao concreta da maneira implcita de
apresentar um processo estocstico. Para isto ser necessrio descrever, antes
de mais nada, uma propriedade muito importante.
Regra de Bayes: Seja (, A, P ) um espao de probabilidade. Considere
duas variveis aleatrias, uma X tomando valores em S1 e outra Y tomando
valores em S2 .
Ento, para s1 S1 xo

P (X = s1 ) = P (X = s1 |Y = s2 ) P (Y = s2 ).
s2 S2
Esta propriedade segue trivialmente de

P (X = s1 ) = P (X = s1 e Y = s2 ) =
s2 S2
i i
i i
i i

i i
31

P (X = s1 |Y = s2 ) P (Y = s2 ),
s2 S2
que por sua vez segue da propriedade b) da denio 1.2.

Uma verso um pouco mais geral desta propriedade arma:
Regra de Bayes: Seja (, A, P ) um espao de probabilidade. Considere
uma varivel aleatria X tomando valores em S e um conjunto A A.
Ento,

P (w A) = P (w A|X = s) P (X = s).
sS
A demonstrao deste fato a mesma do caso anterior.

De maneira heurstica podemos dizer que a regra de Bayes desempenha em
probabilidade um papel semelhante ao do teorema fundamental no Clculo.
Mais exatamente, uma informao global (uma integral no Clculo) P (w A)
obtida atravs de uma totalizao de informaes localizadas (a derivada no

Clculo) sS P (w A|X = s) P (X = s).
A anlise das diversas propriedades de um processo estocstico ser to
mais complexa quanto mais intensa forem as relaes de dependncia entre as
variveis. Nesta hierarquia de diculdade, os mais simples so os processos
independentes, depois seguem os Processos de Markov que sero analisados
em breve.
Denio 1.15. Dizemos que o processo Xt tomando valores em S (enu-

mervel) com parmetro t T = N estacionrio se para cada n e cada
sequncia t1 < t2 < ... < tn , onde ti T , t > 0 e para cada sequncia de
conjuntos A1 , A2 , ..., An , onde Ai S vale que
P (Xt1 A1 , Xt2 A2 , ..., Xtn An ) =
P (Xt1 +t A1 , Xt2 +t A2 , ..., Xtn +t An ).
i i
i i
i i

i i
32 Introduo Cap. 1
Os processos estacionrios so aqueles em que um deslocamento uniforme

de um valor t, em todos os tempos envolvidos na distribuio conjunta, no
altera esta.
Neste caso, por exemplo, para s xo qualquer em S
P (X1 = s) = P (X1+1 = s) = P (X2 = s).
Consideramos acima t = 1, n = 1, a1 = s e t1 = 1.
Ainda,
P (X3 = s) = P (X2+1 = s) = P (X2 = s) = P (X1 = s),
e assim por diante...

Estas propriedades podem no ser verdadeiras se o processo Xt no esta-
cionrio. Por exemplo, no caso do jogo da moeda descrito anteriormente em
que o capital inicial era c, temos que P (X0 = c) = 1, mas P (X1 = c) = 0.
Logo, neste caso, o processo no estacionrio.
Antes de nalizarmos esta introduo vamos falar brevemente sobre alguns
exemplos aplicados da Teoria dos Processos Estocsticos.
Um conjunto nito de observaes organizadas cronologicamente no tempo
denominada de uma Srie Temporal.
Suponhamos que estes dados foram obtidos da observao ao longo do
tempo de algum fenmeno do mundo real. Nosso objetivo inicial seria tentar
identicar, se possvel, de qual processo estocstico foi originado tal srie de
dados, e com isto poder fazer previses do que se pode esperar no futuro.
Distintos Processos Estocsticos poderiam modelar um dado problema, al-
guns com maior ou menor sucesso.
Nem toda a srie de dados tem origem aleatria. Ela poderia ser deter-
minada por um fenmeno determinstico. Existem testes estatsticos que per-
mitem determinar se tal acontece ou no.
i i
i i
i i

i i
33
Num problema do mundo natural em que existe aleatoriedade, dada uma

amostra nita w1 , w2 , ..., wn , natural perguntar: qual Processo Estocstico
(Xt )tT poderia melhor modelar tal fenmeno?
Estas questes so muitas vezes bastante delicadas e requerem o uso da Es-
tatstica Matemtica para que se possa determinar qual o melhor modelo. Por
exemplo, dado uma srie de dados, ser que o modelo de Processo Estocstico
que o descreve estacionrio? Ser que pode ser descrito por uma Cadeia de
Markov? Caso armativo, qual seriam as probabilidades de transio?
Em geral necessrio utilizar testes estatsticos para aceitar ou rejeitar
alguma hiptese sobre o modelo. Por exemplo, podemos nos perguntar, num
certo exemplo especco, vlida a hiptese de que o Processo Estocstico em
anlise uma Cadeia de Markov?
Antes de entrarmos no estudo das Cadeias de Markov e na anlise de pro-
cessos mais gerais vamos descrever algumas reas de aplicabilidade da Teoria
dos Processos Estocsticos em diversos campos da Cincia tais como: Mecnica
Estatstica, Economia, Engenharia, Biocincias, etc.
1. Mecnica Estatstica
Alguns dos mais importantes exemplos dos Processos Estocsticos foram

desenvolvidos em conexo com os estudo de utuaes e rudos nos sistemas
fsicos. Esta teoria pode ser considerada como fundamentao matemtica
para a Fsica Estatstica.
Estados de Gibbs em Mecnica Estatstica : Considere agora um reticulado
(lattice em ingls) uni-dimensional (um o) descrito por posies espaciais
discretas, ou seja por Z. Em cada stio (um elemento em Z) consideramos
um spin que pode ser + ou .Existem interaes entre os sitios, ou seja se na
posio 3 existe um + ento isto interfere na probabilidade de se ter um
na posio 4 e talvez at de um + na posio 5. Esta interao est determi-
nada por certas Leis Fsicas. Podemos associar o nmero 1 a + e o nmero
i i
i i
i i

i i
34 Introduo Cap. 1
2 a , deste modo podemos considerar de certa forma S = {1, 2}. Um certo

arranjo de spins (em todos os possveis sites) seria um elemento no espao
de Bernoulli {+, }Z , ou em {1, 2}Z = S Z , se considerarmos a identicao
acima. Se zermos vrias observaes em distintos momentos obteremos dis-
tintos elementos {+, }Z . Sendo assim o problema no determinstico.
O que faz sentido perguntar: qual a probabilidade de encontrarmos um ar-
ranjo com um spin + na posio 2 e um spin na posio 7? Ou seja, o
que faz sentido do ponto de vista fsico determinar uma probabilidade P no
espao = {+, }Z que descreva o sistema acima (no qual, de algum modo
que no vamos descrever aqui, esto xadas as interaes). Esta probabilidade
P denominada de estado de Gibbs.
No presente caso a idia de t como (assim chamado) o parmetro temporal
do Processo Estocstico deve ser substitudo pelo conceito de t Z como o
ponto do reticulado Z.
Uma informao importante seria, por exemplo, a probabilddade de
P (X0 = +, X1 = +, X2 = ).
Ou seja, a probabilidade do cilindro + + . Ou, de outra forma, a proba-

bilidade de ocorrer spin para cima na posio 1 e 2 do reticulado e para baixo
na posio 3.
O problema mais real seria, na verdade, considerar o lattice tridimensional
Z , e supor que poderamos ter em cada stio (um elemento em Z3 ) um spin +
3
ou . Neste caso, estaramos interessados em probabilidades P sobre {+, }Z .

3
A descrio acima um pouco simplista e esquemtica, mas d uma idia geral

da relevncia da Teoria dos Processos Estocsticos em Mecnica Estatstica.
2. Modelos Estocsticos em Medicina e Biocincias
O tamanho e a composio de uma populao esto constantemente sofrendo

utuaes aleatrias. a Teoria de Processos Estocsticos que permite descr-
i i
i i
i i

i i
35
ever e maneira precisa os mecanismos destas utuaes. Alguns exemplos de

fenmenos biolgicos nos quais os Processos Estocsticos so adequados:
a) extino de geraes de famlias
b) as mutaes de genes e recombinaes de genes na teoria da evoluo
c) a distribuio espacial de comunidades de plantas e animais
d) a luta pela sobrevivncia entre duas populaes que interagem
e) a propagao de epidemias
f) funcionamento de redes de neurnios
3. Engenharia, Computao, Comunicao e Controle
Alguns exemplos de problemas envolvendo comunicao e/ou controle em

engenharia e onde aparecem Processos Estocsticos:
a) recepo de sinais de rdio na presena de distrbios naturais e articiais
b) reproduo de imagens e sons
c) delineamento de sistemas de controle para processos industriais
d) modelos de funcionamento de mquinas ou de recebimento de mensagens
telefnicas numa central.
e) transmisso de informao atravs de canais.
4. Economia e Cincia da Administrao
Processos Estocsticos fornecem um preciso mtodo para estudar utu-

aes dos valores dos bens econmicos e administrar operaes de negcios.
Portanto, desempenham um papel importante em Economia, Cincia da Ad-
ministrao e Pesquisa Operacional. reas de grande aplicao da teoria dos
processos estocsticos so:
a) controle de inventrios
b) anlise de las de espera
c) carteiras de investimento e aplicao em bolsa de valores Dado um pro-
cesso estocstico Xt , como P uma probabilidade, as informaes contidas
i i
i i
i i

i i
36 Introduo Cap. 1
nas distribuies nito dimensionais satisfazem certas propriedades a serem

descritas a seguir.
i i
i i
i i

i i
2
Cadeias de Markov com Tempo
Discreto
2.1 Processos e Cadeias de Markov com Tempo

Discreto
Trataremos nesta seo de processos estocsticos onde T = N e S R nito
ou enumervel.
Se S tem d elementos, denotamos
S = {s1 , s2 , . . . , sd }.
Para simplicar a notao, denotaremos SEMPRE os elementos de S

por inteiros, assim, por exemplo, S = {1, 2, 3, . . . , d}, se S tem d elementos.
Algumas vezes, considera-se tambm S = {a, a + 1, . . . , b}, onde a < b so dois
nmeros inteiros em Z.
Se S tem innitos (enumerveis) elementos, ento denotaremos S por S =
{1, 2, 3, . . . , n, . . . } = N, ou por
S = {. . . , n, . . . , 3, 2, 1, 0, 1, 2, 3, . . . , n, . . . } = Z,
ou ento por S = {s1 , s2 , s3 , ..., sn , . . . }, e assim por diante...
37
i i
i i
i i

i i
38 Cadeias de Markov com Tempo Discreto Cap. 2
Vamos relembrar algumas denies antes de comear a apresentar os con-

ceitos fundamentais que sero analisados aqui.
Denio 2.1. Uma matriz S por S
P = (Pi,j ),
i S, j S dita estocstica (ou linha estocstica) se para cada i xo vale

que jS Pi,j = 1, e ainda Pi,j 0.
Esta matriz quadrada pode ter innitas colunas (e linhas) se S for innito.
Algumas vezes usaremos a notao P (i, j), ou mesmo, Pi,j , em vez de Pi,j .
Exemplo 2.1. Quando S = {1, 2, 3}, podemos considerar por exemplo

1/3 1/3 1/3

P = 2/5 2/5 1/5
0 1 0
que linha estocstica.

Note que por esta razo

1 1/3 1/3 1/3 1 1

P 1 = 2/5 2/5 1/5 1 = 1 .
1 0 1 0 1 1
Observe que no entanto

( ) 1/3 1/3 1/3

1 1 1 2/5 2/5 1/5 =
0 1 0
( ) ( )
1/3 + 2/5 1/3 + 2/5 1/3 + 1/5 = 1 1 1 .
i i
i i
i i

i i
2.1 Processos e Cadeias de Markov com Tempo Discreto 39
A expresso acima tem o sentido de produto de matrizes (no caso uma

matriz um por trs multiplicada por uma matriz trs por trs, gerando assim,
uma matriz um por trs).
Seja u a matriz do tipo #S por 1 (ou, seja um vetor coluna) tal que tem
todas as coordenadas iguais a 1.
Armamos que se P matriz estocstica ento
P u = u.
Note que, reciprocamente, se a matriz P tem entradas no negativas, ento
Pu = u
implica que ela estocstica.

O exemplo acima ilustra isto.
Este fato simples de demostrar no caso geral de matrizes dois por dois.
Por exemplo, no caso S = {1, 2} temos que
( )( ) ( ) ( )
P11 P12 1 P11 + P12 1
= = .
P21 P22 1 P11 + P22 1
Deixamos o caso geral a cargo do leitor.
Denio 2.2. Um vetor = (s )sS , s S , com entradas s S , dito um

vetor de probabilidade sobre S se s 0 e sS s = 1.
Exemplo 2.2. Quando S = {1, 2, 3}, podemos ter por exemplo
= (1/7, 4/7, 2/7).
i i
i i
i i

i i
Podemos tambm expressar tal na forma de matriz 1 por 3
= (1/7 4/7 2/7).
Dada uma matriz estocstica P trs por trs
P = (1/7 4/7 2/7) P,
tem o sentido de produto de matrizes (no caso uma matriz um por tres mul-
tiplicada por uma matriz trs por trs).
Utilizaremos estas duas formas
= (1 , 2 , ..., s ),
ou,
= (1 2 ... s ),
indistintamente sem meno a cada expresso especca.

Como dissemos antes, os processos estocsticos de natureza mais simples
so os independentes e identicamente distribudos. A seguir, em ordem de
complexidade, vem os markovianos que descreveremos a seguir.
Primeiro destacamos o fato que um Processo Estocstico uma probabili-
dade P sobre (o espao dos caminhos amostrais) S N .
Relembre que x0 , x1 , ..., xn = {w S N tal que w tem suas primeiras n +
1 coordenadas exatamente iguais a x0 , x1 , ..., xn }. A informao bsica do
Processo Estocstico so as medidas destes cilindros x0 , x1 , ..., xn .
usual a notao
P ({w x0 , x1 , ..., xn }) = P (X0 = x0 , X1 = x1 , ..., Xn = xn ).
i i
i i
i i

i i
Ainda, para x1 , x2 , ..., xn xos em S denotamos

P (X1 = x1 , ..., Xn = xn ) = P (X0 = y0 , X1 = x1 , ..., Xn = xn ),
y0 S
e assim por diante.

Assim, por exemplo, para x0 , x1 , x2 xos
P (X0 = x0 , X1 = x1 , X2 = x2 )
P (X2 = x2 |X0 = x0 , X1 = x1 ) = .
P (X0 = x0 , X1 = x1 )
Denio 2.3 (Processo de Markov). Seja (Xn ; n 0) um processo es-

tocstico com espao de estados S R nito ou enumervel. Dizemos que Xn
um processo estocstico de Markov com tempo discreto se vale a condio
P (Xn+1 = xn+1 |X0 = x0 , X1 = x1 , . . . , Xn = xn ) =
P (Xn+1 = xn+1 |Xn = xn ), ()

n 0, x0 , x1 , . . . , xn+1 S,
toda vez que P (X0 = x0 , X1 = x1 , . . . , Xn = xn ) > 0.
Da mesma forma, se (Xn ; n Z) um processo estocstico com espao de
estados S R nito ou enumervel. Dizemos que Xn um processo estocstico
de Markov com tempo discreto se vale para qualquer n Z:
P (Xn+1 = xn+1 |X0 = x0 , X1 = x1 , . . . , Xn = xn ) =
P (Xn+1 = xn+1 |Xn = xn ), ()

x0 , x1 , . . . , xn+1 S.
A grosso modo, processos deste tipo so tais que a probabilidade do valor

Xn+1 = s S (na etapa n + 1), vai depender apenas do valor s S na etapa
n, e no dos valores em S atingidos nos tempos anteriores, ou seja os valores
X1 , X2 , .., Xn1 .
i i
i i
i i

i i
Denio 2.4 (Probabilidade de Transio). P n,n+1 (i, j) = P (Xn+1 =

j|Xn = i) a probabilidade do processo estar no estado j no tempo (ou etapa)
n + 1 dado que o processo est no estado i no tempo n.
Denio 2.5 (Processo de Markov com Transies Estacionrias).

Seja (Xn ; n 0) um Processo de Markov, dizemos que ele tem probabilidades
de transio estacionrias, se e somente se, existe uma matriz P = (P (i, j))

de tipo #S por #S (ou seja i S, j S ), tal que
P (Xn+1 = j|Xn = i) = P (X1 = j | X0 = i) = P (i, j), n 0, i, j S
Em outras palavras, P (Xn+1 = j|Xn = i) = P (i, j) no depende de n.

A terminologia "Processo de Markov com transio Homognea" tambm
utilizada na literatura.
Note que o Processo Estocstico acima denido (com probabilidades de

transio estacionrias) no precisa ser, necessariamente, estacionrio.
Consideraremos no texto apenas a classe dos processos de Markov com
transies estacionrias. Sendo assim, no poder ocorrer, por exemplo, P (X4 =
2 | X3 = 3) = P (X2 = 2 | X1 = 3).
Por exemplo, se #S = 3 ento a matriz P acima denida ser uma matriz
trs por trs, neste caso i, j {1, 2, 3}. Note que se #S for innito ento
estaremos considerando uma matriz innito por innito.
Algumas vezes as entradas da matriz P sero denotadas tambm por Pi,j
ou Pi,j .
Denio 2.6 (Matriz de Transio). Dado um Processo de Markov com

probabilidades de transio estacionria (Xn ; n 0), a matriz P = (P (i, j))i,jS
tal que
P (X1 = j | X0 = i) = P (i, j)
chamada de matriz de transio sobre S associada ao processo e desempen-
har um papel fundamental na teoria.
i i
i i
i i

i i
P descreve o mecanismo aleatrio das transies em uma etapa, ou seja, a

entrada Pxi ,xj de P descreve a probabilidade de se obter um xj S , dado que
no tempo imediatamente anterior tnhamos um xi S .

Note que para cada i S xo, vale que jS P (i, j) = 1. Ou seja, a soma
dos elementos de cada linha de P igual a um.
Isto segue de
P (X1 = j , X0 = i)
P (i, j) = P (X1 = j | X0 = i) = =
jS jS jS
P (X 0 = i)

jS P (X1 = j , X0 = i) P ( jS {X1 = j , X0 = i})
= =
P (X0 = i) P (X0 = i)
P (X0 = i)
= 1
P (X0 = i)
Note que para i xo a unio jS {X1 = j , X0 = i} considerada acima
disjunta.
Sendo assim, conclumos que uma matriz de transio P com entradas
(P (i, j))i,jS tal que satisfaz
P (X1 = j | X0 = i) = P (i, j)
estocstica.
Por exemplo, o caso geral quando S = {1, 2, 3} seria:

P (1, 1) P (1, 2) P (1, 3)

P = P (2, 1) P (2, 2) P (2, 3) =
P (3, 1) P (3, 2) P (3, 3)

P (X1 = 1 | X0 = 1) P (X1 = 2 | X0 = 1) P (X1 = 3 | X0 = 1)

P (X1 = 1 | X0 = 2) P (X1 = 2 | X0 = 2) P (X1 = 3 | X0 = 2)
P (X1 = 1 | X0 = 3) P (X1 = 2 | X0 = 3) P (X1 = 3 | X0 = 3)
i i
i i
i i

i i
Exemplo 2.3 (A Cadeia de Ehrenfest). O seguinte problema aparece em

modelos simples de Mecnica Estatstica. Considere um modelo em que temos
5 bolas e duas urnas, a da esquerda e a da direita. O nmero total de bolas nas
duas urnas cinco. A da esquerda pode ter de 0 a cinco bolas. Suponhamos
que num dado momento tenhamos r 0 bolas na urna da esquerda e 5 r
na da direita. Por um mecanismo que no vem ao caso, sorteamos uma das
cinco bolas e a passamos para a outra urna. No h preferncia na escolha
da urna, o procedimento escolhe apenas uma bola ao acaso, sem se deter na
questo em qual urna a bola est. Vamos denotar por Xn o nmero de bolas
na urna da esquerda. Sendo assim, se Xn = r, teremos probabilidade r/5 de
escolher uma bola na urna da esquerda. Isto far com que Xn+1 = r 1. Se
a bola escolhida estiver na urna da direita (fato que ter probabilidade 5r5
)
ento Xn+1 = r + 1.
Fica assim denida uma matriz de transio de Markov tipo 6 por 6 em
que S = {0, 1, 2, 3, 4, 5} e que tem a forma
0 1 2 3 4 5

0 0 5/5 0 0 0 0

1 1/5 0 4/5 0 0 0

2 0 2/5 0 3/5 0 0
P=
0 0
3 0 3/5 0 2/5

4 0 0 0 4/5 0 1/5
5 0 0 0 0 5/5 0
Fica denida assim uma cadeia de Markov natural a partir do modelo em

considerao. Podemos considerar tambm o caso mais geral com duas urnas
em que temos N bolas em vez de 5 bolas. Obteramos neste caso uma matriz
de transio P do tipo N + 1 por N + 1.
i i
i i
i i

i i
Fixado um processo estocstico (Xn )nN tomando valores em S , ento
= (P (X0 = s))sS = (P (X0 = 1), P (X0 = 2), ..., P (X0 = #S)) = (s )sS ,

um exemplo de vetor de probabilidade. Isto porque sS P (X0 = s) =
P (sS {X0 = s}) = P () = 1.
Este ser algumas vezes denotado por 0 = (s0 )sS . O ndice superior
zero vai indicar que estamos em t = 0.
Por exemplo, se S = {1, 2, 3}, ento
0 = (10 , 20 , 30 ) = (P (X0 = 1), P (X0 = 2), P (X0 = 3)).

O elemento
0 = (P (X0 = s))sS
denominado de vetor de probabilidade inicial.
Para um processo estocstico de Markov Xn , n Z, o sentido da proba-
bilidade inicial no exatamente da mesma natureza. Podemos assumir que
0 = (P (X0 = s))sS est xado, e assim
P (X0 = a0 , X1 = a1 , ..., Xn = an ) = a00 Pa0 ,a1 Pa1 ,a2 ... Pan1 ,an
de forma anloga.
Mas, observe que preciso saber quem 1 = (P (X1 = s))sS para
calcular
P (X1 = a1 , X0 = a0 , ..., Xn = an ) = a1
1
Pa1 ,a0 Pa0 ,a1 ... Pan1 ,an
Fixado um processo estocstico de Markov Xn , n N, (ou seja uma famlia

de variveis aleatrias sobre um espao , etc.) com probabilidades de tran-
sio estacionrias, ento as distribuies conjuntas
P (X0 = x0 , X1 = x1 , . . . , Xn = xn )
cam determinadas a partir de P = (P (i, j))i,jS e 0 = (s0 )sS como acima.
O prximo teorema quantica tal armao.
i i
i i
i i

i i
Teorema 2.1.
P (X0 = x0 , X1 = x1 , . . . , Xn = xn ) =
0 (x0 ) P (x0 , x1 ) P (x1 , x2 ) . . . P (xn1 , xn )
Demonstrao: Ora,
P (X0 = x0 , X1 = x1 , . . . , Xn = xn ) =
P (X1 = x1 , X0 = x0 ) P (X2 = x2 , X1 = x1 , X0 = x0 )
P (X0 = x0 ) ...
P (X0 = x0 ) P (X1 = x1 , X0 = x0 )
P (X0 = x0 , . . . , Xn1 = xn1 , Xn = xn )
... =
P (X0 = x0 , . . . , Xn1 = xn1 )
P (X0 = x0 ) P (X1 = x1 |X0 = x0 ) P (X2 = x2 |X0 = x0 , X1 = x1 ) . . .
. . . P (Xn = xn |X0 = x0 , ...., Xn1 = xn1 ) =
P (X0 = x0 ) P (X1 = x1 |X0 = x0 ) P (X2 = x2 |X1 = x1 )...
...P (Xn = xn |Xn1 = xn1 ) =
0 (x0 ) P (x0 , x1 ) P (x1 , x2 )...P (xn1 , xn )
Exemplo 2.4. Considere S = {1, 2} e

( ) ( )
P (1, 1) P (1, 2) 1/3 2/3
P= =
P (2, 1) P (2, 2) 4/7 3/7
Considere tambm 0 = (10 , 20 ) = (1/3, 2/3). Neste caso,

8
P (X0 = 2, X1 = 1, X2 = 1) = 20 P21 P11 = 2/3 4/7 1/3 = .
63
Da mesma forma,
24
P (X0 = 2, X1 = 2, X2 = 1) = 20 P22 P21 = 2/3 3/7 4/7 = .
147
i i
i i
i i

i i
Note que
P (X0 = 2, X1 = 2, X2 = 1)
P (X2 = 1 | X0 = 2, X1 = 2) = =
P (X0 = 2, X1 = 2)
20 P22 P21
= P21 = P (X2 = 1 | X1 = 2)
20 P22
que a propriedade de Markov.
Ainda,
P (X0 = 2, X2 = 1) =
P (X0 = 2, X1 = 1, X2 = 1) + P (X0 = 2, X1 = 2, X2 = 1) =
8 24
20 P21 P11 + 20 P22 P21 = + .
63 147
Se i {1, 2},
i = {w : w = (i, w2 , w3 , ...), wj S, j 2}.
Se i {1, 2}, j {1, 2},
i, j = {w : w = (i, j, w3 , w4 , ...), wk S, k 3}.
Desta forma P dene uma probabilidade sobre {1, 2}N . Por exemplo,
8 24
P (X0 = 2, X2 = 1) = P (21) = + .
63 147

Em resumo, sabendo que um processo Xn de Markov, a partir da sua

matriz de transio P e da distribuio inicial 0 , no tempo 0, ca determinado
o valor
P (X0 = x0 , X1 = x1 , ..., Xn = xn ) = 0 (x0 )P (x0 , x1 ).P (x1 , x2 )...P (xn1 , xn ).
i i
i i
i i

i i
Ficar assim determinada uma probabilidade P sobre = S N . Vamos

elaborar sobre isto.
Se S = {1, 2, ..., d}, ento = {1, 2, ..., d}N , mas podemos tratar do caso
de um S geral enumervel da mesma forma.
Dados a1 , a2 , ..., an S , n N xos, considere um cilindro
a1 , a2 , .., an = {w | w = (a1 , a2 , ..., an , wn+1 , wn+2 , ...), wj S, j n + 1},
ento
P (a1 , a2 , .., an ) = 0 (x0 )P (x0 , x1 ).P (x1 , x2 ).....P (xn1 , xn ).
Fica assim determinada P sobre cilindros. Podemos, a partir disto, denir

uma probabilidade estendida P sobre a sigma-algebra gerada pelos cilindros
no conjunto = S N (ver captulo 4).
Lembre que IA a funo tal que d valor I(x) = 1 se x A, e I(x) = 0
se x no est em A.
Seja agora uma funo : S N R. Dizemos que depende da primeira
coordenada se

= i Ii ,
iS
onde i R so constantes xadas.

Dizemos que depende das duas primeiras coordenada se

= (i,j) Ii,j ,
i,jS
onde (i,j) R so constantes xadas.

Dizemos que depende das n primeiras coordenada se

= (1,2,..,n) I(a1 ,a2 ,...,an ) ,
a1 ,a2 ,..,an S
i i
i i
i i

i i
onde (1,2,...,n) R so constantes xadas. Em termos genricos dizemos que

uma de tal tipo depende de nitas coordenadas.
A funo acima mensurvel pois cada cilindro um elemento da sigma-
algebra..
Para uma funo da forma acima, como veremos na seo 4, a integral

dP , ser

E() = dP = (1,2,...,n) P (a1 , a2 , .., an ).
a1 ,a2 ,...,an S
No contexto do exemplo acima, seja : {1, 2}N R tal que
= 3 I211 + 7 I221 .

Assim, (w) dP (w) = 3 P (211) + 7 P (221) = 3 63
8 24
+ 7 147 .
Desta forma, E() = 3 63
8 24
+ 7 147 .
Ainda,

E(X1 ) = X1 dP = (1 I1 + 2 I2 ) = 1 1/3 + 2 2/3 = 5/3.

Para uma funo de uma forma mais geral a integral dP ser denida
no captulo 4.
Destacamos uma questo puramente de notao. Muitos textos de Pro-
cessos Estocsticos se baseiam no seguinte ponto de vista. Inicialmente nos
dada a informao de uma probabilidade P sobre um espao "no especi-
cado", digamos , e uma sigma-algebra que no dita qual .
Denotemos por w os elementos de . O Processo Estocstico denido
como uma sequncia de variveis aleatrias (mensurveis) Xn : S (que
nunca se sabe quem so), indexados por n.
A informao bsica (naquele contexto) ento, dados x0 , x1 , ..., xn S ,
sabemos o valor
P (X0 (w) = x0 , X1 (w) = x1 , ..., Xn (w) = xn ).
i i
i i
i i

i i
Vamos considerar uma situao mais geral. Sejam (Y1 , A1 , P1 ) e (Y2 , A2 ),

onde Y1 , Y2 so conjuntos, A1 , A2 respectivamente suas sigma-algebras, e P1
probabilidade sobre A1 . Dada H : Y1 Y2 mensurvel denamos a probabil-
idade P2 sobre (Y2 , A2 ) da seguinte forma: para A2 A2 ,
P2 (A2 ) = P1 (H 1 (A2 )) = P1 ({y1 Y1 | H(y1 ) A2 }).
Algumas vezes se chama P2 a probabilidade "push forward"de P1

via H.
Se considerarmos a funo H : S N , tal que
H(w) = (X0 (w), X1 (w), ..., Xn (w), ...) = w,
as duas informaes acima so as mesmas, mais exatamente
P (X0 = x0 , X1 = x1 , ...., Xn = xn ) =
P ({w x0 , x1 , ..., xn }) =
P {w | H(w) x0 , x1 , ..., xn }} =
P (X0 (w) = x0 , X1 (w) = x1 , ..., Xn (w) = xn ).
Ou seja, P o push forward da probabilidade P via H .

Conforme foi dito anteriormente na introduo, se usa indistintamente a
letra P para denotar tanto a probabilidade P (P1 na notao acima) sobre
(onde esto denidas as Xn ) como a probabilidade associada sobre S N (P2 na
notao acima).
Denio 2.7. Uma cadeia de Markov (com estados em S enumervel) as-
sociada matriz estocstica P xada, tipo #S por #S , a classe de todos
os processos estocsticos de Markov que podemos obter a partir de todos os
possveis vetores de probabilidade 0 = (s0 )sS .
i i
i i
i i

i i
A denio acima no usual mas queremos destacar aqui a di-

ferena entre a informao dada por uma matriz estocstica e os
Processos Estocsticos que dela podem ser originados ao se xar
distintas condies iniciais. O Processo assim obtido seria denomi-
nado de Processo Estocstico Markoviano ou Processo de Markov.
Como a cadeia de Markov ca caracterizada apenas pela matriz P , muitas

vezes vamos nos referir cadeia como simplesmente a matriz estocstica P
associada.
Fixado i S usual denotar por ei = (ps )sS o vetor de probabilidade
sobre S tal que pi = 1 e ps = 0 para todo s = i.
Por exemplo, no caso S = {1, 2, 3, 4}, temos que e3 = (0, 0, 1, 0).
Seja uma cadeia de Markov xada (ou seja, uma matriz P xada) e i
S tambm xado. Quando considerarmos a probabilidade inicial = ei , o
Processo de Markov (Xn )nN denido como acima (a partir da informao
P e de tal = ei ) ser denominado de Processo de Markov condicionado a
comear em i. Neste caso, P (X0 = i) = 1. Vamos usar a notao Pi para a
tal probabilidade sobre (ou sobre S N ).
Uma sutileza: quando nos referimos expresso P (X1 = j | X0 = i), ao
mencionar a probabilidade P (sobre ) devemos considerar sempre uma prob-
abilidade inicial , mas como aparece a expresso X0 = i, porque estamos
assumindo que = ei . ou seja, Pi (X1 = j) = P (X1 = j | X0 = i). Lembre que
ei o vetor tem tem todas as coordenadas nulas, menos a i-sima que igual
a 1.
Denio 2.8. Para nN xo, denotamos por
n = ( n (s))sS = (P (Xn = s))sS ,
o vetor sobre S que dene a probabilidade de Xn = s, para todo s S.
i i
i i
i i

i i
O vetor
n = (P (Xn = 1), P (Xn = 2), ..., P (Xn = #S)) = (sn )sS ,
um vetor de probabilidade e descreve a probabilidade do processo atingir o

valor s S no tempo n.
Se S = {1, 2, 3}, no tempo t = 5, teramos
5 = (15 , 25 , 35 ) = ( P (X5 = 1), P (X5 = 2), P (X5 = 3) ).
O ndice 5 denota tempo t = 5, e no pode ser confundido, de forma

alguma, com elevar a potncia 5.
Note que em geral, 0 = n . A anlise das propriedades de n ser objeto
dos primeiros resultados que seguem. Se o Processo de Markov for tambm
estacionrio (conforme a denio apresentada na seo anterior), ento para
todo n N, vale 0 = n , conforme foi mostrado na ltima seo. Lembre
que, neste caso, para todo n e s vale que P (X0 = s) = P (Xn = s).
Passeio Aleatrio: Seja S = {s1 , s2 , s3 , s4 , ..., sd } = {a, a + 1, ..., b 1, b}
um subconjunto de naturais ordenados com a < b. Dizemos que a e b so
os extremos de S . Considere uma partcula que se move numa linha reta em
passos de uma unidade para a direita ou para a esquerda. Cada passo dado
para a direita com probabilidade p e para esquerda com probabilidade q , de
tal forma que p + q = 1. Ela se move em passos sucessivos (eventualmente
alternando para a esquerda e direita) at atingir um dos dois extremos. As
possibilidades para o seu comportamento nestes pontos determinam vrias
diferentes espcies de Cadeias de Markov. Os estados so as possveis posies.
Vrios tipos de exemplos so descritos a seguir.
Exemplo 2.5. Suponha o caso com 5 estados, ou seja S = {s1 , s2 , s3 , s4 , s5 }

com s1 e s5 os estados extremos. Assuma que se a partcula atinge o estado s1
ou s5 ela ca l para sempre (chamaremos tal estado de estado absorvente).
i i
i i
i i

i i
Neste caso, a matriz de transio

1 0 0 0 0

q 0 p 0 0

P= 0 q 0 p 0

0 0 q 0 p
0 0 0 0 1
Exemplo 2.6. O estado reetido quando atinge um estado limite e retorna

ao ponto do qual ela partiu. Neste caso, a matriz

1 0 0 0 0

0 q p 0 0

P= 0 q 0 p 0

0 0 q p 0
0 0 0 0 1
Exemplo 2.7. Sempre que a partcula atinge um dos pontos limites ela vai
diretamente para o centro s3 .

0 0 1 0 0

0 0 1 0 0

P= 0 q 0 p 0

0 0 1 0 0
0 0 1 0 0
Exemplo 2.8. Passeio aleatrio sobre um conjunto S de 5 elementos:
i i
i i
i i

i i
Se o processo est em um dos trs estados interiores, ele tem igual proba-
bilidade de se mover para a esquerda, para a direita ou permanecer no mesmo
estado. Considere barreiras absorventes em s1 e s5 .

1 0 0 0 0

1/3 1/3 1/3 0 0

P=
0 1/3 1/3 1/3 0

0 0 1/3 1/3 1/3
0 0 0 0 1

Neste caso, a matriz descreve o fato que, neste processo, uma vez atingido o
estado s1 camos parado nele". Mesma coisa se atingimos s5 . Estas armaes
mais ou menos informais sero tornadas rigorosas ao longo do texto.
Exemplo 2.9. Pode-se tambm considerar passeios aleatrios sobre S = Z.

O passeio aleatrio mais comum aquele em que estando no estado s Z
ento P (s, s + 1) = 1/2, P (s, s 1) = 1/2, e P (s, j) = 0 para j = s
1, s + 1. Fica assim denida uma cadeia de Markov. usual considerar o
processo estocstico (associado) condicionado a comear em 0, ou seja, tomar
a distribuio inicial 0 tal que 0 (0) = 1 e 0 (i) = 0 para i Z {0}.
Dito de uma maneira compacta, 0 = e0 = (...., 0, 0, 1, 0, 0, ...). Este pro-
cesso ser denominado de passeio aleatrio (1/2, 1/2). Sua matriz de transio

. . . . . . .

. 0 21 0 0 0 .

. 1 0 1 0 0 .
2 2

P = . 0 12 0 12 0 . .

. 0 0 1 0 1 .
2 2
. 0 0 0 1 0 .
2
. . . . . . .
i i
i i
i i

i i
Exemplo 2.10. Considere o seguinte passeio aleatrio sobre S = Z. Seja

p, q 1 tal que p+q = 1. Ento, estando no estado s Z ento P (s, s1) = q ,
P (s, s+1) = p e P (s, j) = 0 para j = s1, s+1. Fica assim denida uma cadeia
de Markov. usual considerar o processo estocstico (associado) condicionado
a comear em 0, ou seja, tomar a distribuio inicial 0 = e0 .
Este processo ser denominado de passeio aleatrio (q, p).
Sua matriz de trasio ser

. . . . . . .

. 0 p 0 0 0 .

. q 0 p 0 0 .

P = . 0 q 0 p 0 . .

. 0 0 q 0 p .

. 0 0 0 q 0 .

. . . . . . .
Aps a apresentao dos exemplos acima vamos voltar aos resultados teri-
cos.
Denio 2.9. Dadas duas matrizes P = (Pi,j ), i, j S , e Q = (Qi,j ),

i, j S , o produto V =PQ uma nova matriz V = (Vi,j ), i, j S , tal que o
elemento Vi,j dado por

Vi,j = Pi,s Qs,j ,
s
quando o somatrio convergir (S pode ser innito).
Este produto no necessariamente comutativo, ou seja, nem sempre vale

que
P Q = QP.
i i
i i
i i

i i
Denotaremos P 2 = PP e P n o produto de P por si mesmo n vezes. A

matriz P 0 representa a matriz identidade I , ou seja, I = ((i, j)), onde (i, j) =
1 se i = j e (i, j) = 0 se i = j .
Note que P n+m = P n P m = P m P n .
Denotamos por P n (i, j) a entrada ij da matriz P n , com i, j S e n 0.
Seja P uma matriz S por S , fcil ver por induo que

P (n+m) (i, k) = P n (i, r) P m (r, k).
rS
Por exemplo, se n = 1 e m = 1 obtemos (ver ltima denio) a expresso

para a entrada i, k da matriz P 1+1 = P 2 atravs de

P 2 (i, j) = P (i, r) P (r, j).
rS
Observamos que P 2 (i, j) denota a entrada i, j da matriz P 2 , e no o

nmero que resulta de tomar o quadrado da entrada P (i, j) da matriz
P.
Ainda, para n xo e i, j S xos, vale

P n (i, j) = ... P (i, s1 ) P (s1 , s2 ) P (s2 , s3 )....P (sn1 , j)
s1 S s2 S sn1 S
De maneira mais geral, uma matriz A da forma m1 por m2 pode ser mul-
tiplicada por uma matriz B da forma m2 por m3 , obtendo assim uma matriz
C da forma m1 por m3 , denotada por C = A B , atravs de

Ci,j = Ai,s Bs,j ,
s {1,2,3,...,m2 }
para cada i {1, 2, 3, ..., m1 } e j {1, 2, 3, ..., m3 }.

Por exemplo, se m1 = 1, m2 = 2, m3 = 2 e
A = (x1 x2 )
i i
i i
i i

i i
e ( )
a11 a12
B=
a21 a22
ento ( )
a11 a12
A B = (x1 x2 ) =
a21 a22
(x1 a11 + x2 a21 x1 a12 + x2 a22 ) = C.
O vetor 0 anteriormente denido uma matriz do tipo 1 por #S . Da

mesma forma o vetor ec uma matriz do tipo 1 por #S . Algumas vezes no
texto o vetor ec (ou outro qualquer) que uma matriz do tipo 1 por #S ,
dependendo da situao, poder ser considerado como uma matriz do tipo #S
por 1.
Iremos considerar no texto a seguir o produto P e ainda P 2 = P P,
etc...
Note que se a matriz da transformao P estocstica, ento todas as sua

entradas so no negativas e desta forma a matriz P n tambm tem todas as
entradas no negativas. Assim, se pode mostar que P n tambm estocstica.
Vamos demostrar este fato no caso trs por trs.
Ora, para P vlido

1 1

P 1 = 1 .
1 1
Assim,

1 1 1 1
2
P 1 = P P 1 = P 1 = 1 .
1 1 1 1
Assim, P 2 estocstica. A demonstrao para P n segue por induo.
i i
i i
i i

i i
Aps estas questes e denies preliminares podemos voltar ao clculo de

algumas da informaes fundamentais sobre Processos de Markov.
Como obter a distribuio da varivel aleatria X1 , a de X2 , e ainda, a de
uma genrica Xn ?
Ora,
P (X1 = x0 ) = P (X1 = x0 , X0 = s0 ) + P (X1 = x0 , X0 = s1 ) + . . . =

P (X1 = x0 , X0 = sj ) =
sj S

P (X0 = sj ) P (X1 = x0 |X0 = sj ) = x0j P (sj , x0 )
sj S sj S
No caso S = {1, 2} temos assim para cada i {1, 2} xo, que vale a
expresso
P (X1 = i) = 10 P (1, i) + 20 P (2, i).

Neste caso, em forma matricial, a expresso acima signica
( )
( ) P P ( )
0 0 11 12
(1) (2) = P (X1 = 1) P (X1 = 2) .
P21 P22
Lembre que 1 = (s1 )sS a matriz do tipo 1 por #S (vetor linha) tal que
sua ordenada s igual a P (X1 = s).
Sendo assim, de forma compacta, a expresso acima signica
0 P = 1.
Generalizando o que foi mostrado acima no caso S = {1, 2}, segue facil-
mente para um S qualquer (enumervel) que vale a expresso em forma com-
pacta
0 P = 1.
i i
i i
i i

i i
O seguinte exemplo de grande importncia para o que segue: seja i S

xado

P (X2 = i) = P (X2 = i, X1 = k, X0 = j) =
j k

P (X0 = j)P (X2 = i, X1 = k|X0 = j) =
j k
P (X2 = i, X1 = k, X0 = j)
P (X0 = j) =
j k
P (X0 = j)
P (X1 = k, X0 = j) P (X2 = i, X1 = k, X0 = j)
P (X0 = j) =
j k
P (X0 = j) P (X1 = k, X0 = j)

= P (X0 = j)P (X1 = k|X0 = j)P (X2 = i|X1 = k) =
j k

j0 P (j, k)P (k, i).
j k
Lembre que 2 o vetor tal que sua ordenada i igual a P (X2 = i).
Utilizando a expresso da entrada P 2 (j, i) de P 2 atravs de

P 2 (j, i) = P (j, k)P (k, i),
kS
da maneira similar a que procedemos antes, obtemos a expresso acima na

forma compacta
2 = 0 P 2.
Ou seja, para passar em duas etapas de j a i, comeando em j , passamos

em uma etapa por todos os possveis s S , e a seguir, passamos em uma etapa
para i.
Mais geralmente, segue da mesma forma como anteriormente, por induo
i i
i i
i i

i i

P (Xn = i) = ... 0 (i0 )P (i0 , i1 )P (i1 , i2 ) . . . P (in 1, i).
i0 i1 in1
Lembre que n o vetor tal que sua ordenada i igual a P (Xn = i).
Segue da expresso acima a forma compacta:
Proposio 2.1.
n = 0 P n.
Desta forma, podemos calcular de maneira simples, a partir da matriz P n

e de 0 , a distribuio de Xn . Basta multiplicar por si mesma n vezes a matriz
P e aplicar esquerda o vetor 0 .
O seguinte exemplo tambm de grande importncia.
Vamos calcular

P (X2 = i, X0 = j) = P (X2 = i, X0 = j, X1 = k) =
k

P (X0 = j)P (X2 = i, X1 = k|X0 = j) =
k
P (X2 = i, X1 = k, X0 = j)
P (X0 = j) =
k
P (X0 = j)
P (X1 = k, X0 = j) P (X2 = i, X1 = k, X0 = j)
P (X0 = j) =
k
P (X0 = j) P (X1 = k, X0 = j)

= P (X0 = j) P (X1 = k|X0 = j) . P (X2 = i|X1 = k) =
k

j0 P (j, k) P (k, i).
k
Em geral, segue da mesma forma como acima, por induo, que vale

P (Xn = i, X0 = j) = ... j0 P (j, i1 ) P (i1 , i2 ) . . . P (in 1, i).
i1 in1
i i
i i
i i

i i
Esta expresso ser utilizada vrias vezes no texto. Note que acima i e
j esto xos e exaurimos no somatrio todas as outras possibilidades inter-
medirias.
Por exemplo,

P (X3 = i, X0 = j) = j P (j, i1 ) P (i1 , i2 ) P (i2 , i).
i1 S i2 S
Proposio 2.2.

P (Xn = i|X0 = j) = ... P (j, i1 ) P (i1 , i2 ) . . . P (in1 , i) = (P n )j,i .
i1 S in1 S
Demonstrao: Isto segue do fato que
P (Xn = i, X0 = j)
P (Xn = i|X0 = j) = .
P (X0 = j)
Por exemplo,

P (X3 = i|X0 = j) = P (j, i1 ) P (i1 , i2 ) P (i2 , i) = (P 3 )j,i .
i1 S i2 S
Uma generalizao fcil do que armamos acima :
Proposio 2.3.
P (Xn = i|Xk = j) = P (Xnk = i|X0 = j).
Exemplo 2.11. Note que, a partir do que vimos acima
P (X5 = i|X0 = j) =

P (j, i1 ) P (i1 , i2 ) P (i2 , i3 ) P (i3 , i4 ) P (i4 , i) =
i1 S i2 S i3 S i4 S
i i
i i
i i

i i

P (j, i1 ) P (i1 , i2 ) P (i2 , i4 )2 P (i4 , i) =
i1 S i2 S i4 S

P (j, i1 ) P (i1 , i2 ) P (i2 , i)3 =
i1 S i2 S

P 2 (j, i2 ) P 3 (i2 , i) = P 5 (j, i)
i2 S
Note tambm que
P (X4 = i, X2 = k, X0 = j) =

P (X4 = i, X3 = i3 , X2 = k, X1 = i1 , X0 = j)
i1 S i3 S

j0 P 2 (j, k) P (k, i3 ) P (i3 , i) =
i3 S
j0 P 2 (j, k) P 2 (k, j) .
A partir de uma argumento como descrito no exemplo acima fcil ver que
vale mais geralmente:
Teorema 2.2.
P ( {w | X0 = a0 , Xt1 = a1 , Xt2 = a2 , Xt3 = a3 , ..., Xtn = an } ) =
a0 (P t1 )a0 a1 (P t2 t1 )a1 a2 (P t3 t2 )a2 a3 ... (P tn tn1 )an1 an ,
onde n N, ai {1, 2} e 0 = t0 < t1 < t2 < ... < tn .
Exemplo 2.12. Considere a seguinte matriz de transio P sobre o conjunto

de estados S = {s1 , s2 , s3 , s4 , s5 }:
i i
i i
i i

i i
s s2 s3 s4 s5
1
s1 1 0 0 0 0

s2 q 0 p 0 0

P = s3 0 q 0 p 0

s4 0 0 q 0 p
s5 0 0 0 0 1
Para xar um exemplo mais especco suponha que p = q = 1/2.
Suponhamos que o processo inicie no estado s3 , ou seja tome a probabili-
dade inicial igual a 0 = e3 .
Na Figura 2.1 mostramos um grco tipo rvore em que mostramos na
etapa 1, as probabilidades de transio que so no negativas. Assim, s3 pode
passar a s4 e s2 . Na etapa seguinte, s2 pode passar a s3 e s1 , e por sua vez,
s4 pode passar a s5 e s3 . Nos ramos das arvores aparecem as respectivas
probabilidades de transio. Assim, se pode ver que, comeando em s3 , em
trs etapas existe probabilidade positiva de se atingir s1 , s2 , s4 , s5 , mas no s3 .
A probabilidade de passar em trs etapas de s3 a s1 1/2 1/2 1 = 1/4.
Isto pode ser obtido multiplicando as probabilidades nos ramos utilizados para
passar de s3 a s1 em trs etapas.
Vamos acompanhar neste caso os vetores j obtidos a partir de 0 = e3 :
fcil ver que
0 = (0, 0, 1, 0, 0)
1 = (0, 12 , 0, 12 , 0)
2 = ( 14 , 0, 12 , 0, 41 )
3 = ( 14 , 14 , 0, 14 , 14 )
Vamos agora acompanhar o que acontece no caso geral p, q : fcil ver que
0 = (0, 0, 1, 0, 0)
1 = (0, q, 1, p, 0)
2 = (q 2 , 0, 2q p, 0, p2 )
3 = (q 2 , 2q 2 p, 0, 2qp2 , p2 )
i i
i i
i i

i i
Figura 2.1:

Observe tambm que em qualquer caso ji = 1, i = 0, 1, 2, 3.
jS
Aps o exemplo acima vamos voltar a considerar resultados tericos.
Proposio 2.4. Seja A0 S , ento
P (Xn = j|Xn1 = in1 , Xn2 = in2 , . . . , X0 A0 ) = P (Xn = j|Xn1 = in1 )
Demonstrao: Para simplicar a notao vamos mostrar o resultado acima

no caso particular (o leitor pode generalizar facilmente tal prova) descrito a
seguir: seja S = {1, 2, 3} e A0 = {1, 3}:
Neste caso, vamos mostrar que
P (X2 = 1|X1 = 3, X0 A0 ) = P (X2 = 1|X1 = 3, X0 = 2) = P (X2 = 1|X1 = 3).
De fato,
P (X2 = 1|X1 = 3, X0 = 2) =
P (X2 = 1, X1 = 3, X0 = 2)
=
P (X1 = 3, X0 = 2)
i i
i i
i i

i i
P (X2 = 1, X1 = 3, X0 = j)P (X1 = 3, X0 = j)

=
j=1,3
P (X1 = 3, X0 = 2)P (X1 = 3, X0 = j)
P (X1 = 3, X0 = j)
P (X2 = 1|X1 = 3, X0 = j) =
j=1,3
P (X1 = 3, X0 = 2)
P (X1 = 3, X0 = j)
P (X2 = 1|X1 = 3) =
j=1,3
P (X1 = 3, X0 = 2)
P (X2 = 1|X1 = 3).
O seguinte resultado mais geral segue facilmente do procedimento descrito

acima.
Proposio 2.5. Para j, s S e n>r
P (Xn = j|Xr = s, Xr1 Ar1 , . . . , X1 A1 , X0 A0 ) = P (Xn = j|Xr = s),
onde Al , l {1, 2, ..., r 1} so subconjuntos de S.
Proposio 2.6. Para i, j, k S e m, n 0
P (Xm+n = j | Xm = k, X0 = i) = P (Xm+n = j | Xm = k).
Demonstrao: Segue direto da proposio anterior considerando A0 = {i} e

os Ai = S , ou seja usando a expresso
P (Xm+n = j | Xm = k, X0 = i) =
P (Xm+n = j|Xm = k, Xm1 S, . . . , X1 S, X0 A0 ) =
P (Xm+n = j|Xm = k).
i i
i i
i i

i i
Note que,
P (Xm+n = j|Xm = k) = P (Xn = j|X0 = k).
Finalmente, podemos enunciar o resultado mais geral e que sintetiza todos

os anteriores:
Proposio 2.7. Sejam os conjuntos A0 , A1 , A2 , ..., An1 , An , ..., Am S ,

onde n < m. Ento vale que
P (Xm Am , Xm1 Am1 , . . . , Xn An | Xn1 An1 , Xn2 An2 ,
. . . , X1 A1 , X0 A0 ) =
P (Xm Am , Xm1 Am1 , . . . , Xn An | Xn1 An1 ) =
P (Xmn+1 Am , Xmn Am1 , . . . , X1 An | X0 An1 ).
Este resultado segue de maneira rotineira da extenso dos resultados ante-

riores.
Proposio 2.8. Considere um processo de Markov (Xn )nN e seja P sua

matriz de transio associada. Ou seja, a entrada ij da matriz P satisfaz
P (i, j) = P (X1 = j | X0 = i). Ento para m, n 0 e i, j S xos

Pijn+m = Pikn Pkj
m
,
kS
Onde P r (i, j) = P (Xr = j|X0 = i). De maneira matricial a expresso acima
signica
P n+m = P n P m .
esta equao conhecida como a equao de Chapman-Kolmogorov.
i i
i i
i i

i i
Demonstrao: Sejam i, j S e m, n N xos. Condicionando obtemos
P (Xm+n = j, X0 = i)
P (Xm+n = j|X0 = i) = =
P (X0 = i)
P (Xm+n = j, Xm = k, X0 = i)
=
kS
P (X 0 = i)
P (Xm+n = j, Xm = k, X0 = i) P (Xm = k, X0 = i)
=
kS
P (Xm = k, X0 = i) P (X0 = i)

P (Xm+n = j | Xm = k, X0 = i) P m (i, k) =
kS

P (Xm+n = j | Xm = k) P m (i, k) =
kS

P (Xn = j | X0 = k) P m (i, k) = P m (i, k) P n (k, j) = P m+n (i, j).
kS kS
Acima usamos a ltima proposio.

Finalmente, o resultado para matrizes segue de considerar i, j qualquer e a
expresso de produto de matrizes.
A proposio acima diz, de maneira literal, que para se calcular a proba-

bilidade de ir de i a j no tempo r, podemos escolher um tempo intermedirio
m < r, condicionar no valor k do processo no tempo m e a seguir utilizar a
probabilidade de se ir em tempo n de k ao valor nal j , onde r = m + n.
Observao: Segue do ltimo resultado que dado o vetor de probabilidade
= (1 , 2 , ...d ), ento para j xo
1

d
i P m+n (i, j) = i P m (i, k) P n (k, j) = qj ,
i=1 iS kS
a entrada j do vetor (q1 , q2 , ..., qd ) = q = P m+n .
i i
i i
i i

i i
2.2 Vetor de Probabilidade Estacionrio e Pro-

cessos Estacionrios
Denio 2.10 (Vetor de Probabilidade Estacionrio). Um vetor de
probabilidade sobre o conjunto de estados S dito xo (ou estacionrio)
para a matriz estocstica P se P = . Neste caso se costuma dizer que
um vetor estacionrio para a cadeia de Markov denida por P .
Por exemplo, considere S = {1, 2} e a seguir vamos xar

( )
1/4 3/4
P= .
1/3 2/3
Desejamos encontrar os vetores = (1 2 ), com 1 + 2 = 1, 1 , 2 0,
tais que a seguinte equao matricial seja verdadeira
( )
1/3 2/3
(1 2 ) = (1 2 ) .
4/7 3/7
Para isto devemos resolver as equaes:
1 1/4 + 2 1/3 = 1
1 + 2 = 1.
Substituindo 2 = 1 1 na primeira equao obtemos
1 1/4 + (1 1 ) 1/3 = 1 .
Isolando 1 nesta equao obtemos que 1 = 4/13. Logo 2 = 9/13. Desta
forma o vetor = (4/13 9/13) satisfaz P = , e assim (4/13 9/13) um
vetor de probabilidade estacionrio para a cadeia de Markov denida pela
matriz de transio ( )
1/4 3/4
.
1/3 2/3
i i
i i
i i

i i
2.2 Vetor de Probabilidade Estacionrio e Processos Estacionrios 69
Note que no presente exemplo (nem sempre ocorre isto em outros casos) o
vetor nico.
Observe que se S = {1, 2} e
( )
1 0
P=
0 1
ento qualquer vetor de probabilidade = (1 2 ) estacionrio.
Note ainda que se = P, ento
P 2 = P P = ( P ) P = P = .
Da mesma forma, neste caso, para qualquer n > 0 vale que P n = .
Lembre que um Processo Estocstico estacionrio se para cada n > 0 e

cada sequncia t1 < t2 < ... < tn , onde ti T , e t > 0, e para cada sequencia
de conjuntos A1 , A2 , ..., An , onde Ai S vale que
P (Xt1 A1 , Xt2 A2 , ..., Xtn An ) =
Proposio 2.9. Um condio necessria e suciente para que o processo

estocstico Xn (obtido atravs de uma matriz de transio P e um vetor de
probabilidade inicial ) seja estacionrio, que seja um vetor de probabili-
dade estacionrio para P.
Demonstrao: Se Xn for estacionrio ento para cada i S vale que P (X0 =

i) = P (X1 = i).

Como vimos acima P (X1 = i) = jS j P (j, i). Logo, se
i = P (X0 = i) = P (X1 = i),
i i
i i
i i

i i
para todo i, conclumos assim que P = .

Vamos primeiro mostrar a recproca no caso particular de {X0 = a2 , X1 =
a3 , X2 = a4 , X3 = a5 } e {X2 = a2 , X3 = a3 , X4 = a4 , X5 = a5 }, ou seja, n = 4,
ti = i, i = 0, 1, 2, 3, e t = 2. Estamos com isto evitando uma notao mais
pesada. Se o leitor comprender o caso particular entende o caso geral. Este
ser tratado mais tarde.
Vamos mostrar que
P (X0 = a2 , X1 = a3 , X2 = a4 , X3 = a5 ) =
P (X2 = a2 , X3 = a3 , X4 = a4 , X5 = a5 ).
Ora, se P = , ento, como vimos acima P 2 = . Assim considerando
xos a2 , a3 , a4 , a5 obtemos
P (X2 = a2 , X3 = a3 , X4 = a4 , X5 = a5 ) =

i00 P (i0 , i1 )P (i1 , a2 )P (a2 , a3 )P (a3 , a4 )P (a4 , a5 )
i0 S i1 S

( i00 P (i0 , i1 )P (i1 , a2 ) ) P (a2 , a3 )P (a3 , a4 )P (a4 , a5 ).
i0 S i1 S
Ora como P 2 = , ento conforme observao aps a Proposio 2.8

(tomando m = 1 = n) temos que

i00 P (i0 , i1 )P (i1 , a2 ) = a02 .
i0 S i1 S
Logo,
P (X2 = a2 , X3 = a3 , X4 = a4 , X5 = a5 ) =
a02 P (a2 , a3 )P (a3 , a4 ) P (a4 , a5 ) = P (X0 = a2 , X1 = a3 , X2 = a4 , X3 = a5 ).
Demonstramos assim, para t = 0 e n = 4 que vale a propriedade
P (X0+2 = a2 , X1+2 = a3 , X2+2 = a4 , X2+3 = a5 ) =
i i
i i
i i

i i
P (X0 = a2 , X1 = a3 , X2 = a4 , X3 = a5 ).
para a2 , a3 , a4 , a5 S quaisquer.
A mesma demonstrao pode ser feita para o caso de r > 0 qualquer
P (X0+r = a2 , X1+r = a3 , X2+r = a4 , X2+r = a5 ) =
P (X0 = a2 , X1 = a3 , X2 = a4 , X3 = a5 ).
Para isto basta usar o fato que se P = , ento P r = , e a Proposio 2.8.
A demonstrao para o caso geral, z > 0, u > 0 e r > 0, au , au+1 , ..., au+z
S, onde
P (Xu+r = au , Xu+1+r = au+1 , Xu+2+r = au+2 , ..., Xu+z+r = au+z ) =
P (Xu = au , Xu+1 = au+1 , Xu+2 = au+2 , ..., Xu+z = au+z ).

semelhante ao caso descrito acima.
Segue do teorema acima que xada uma matriz de transio P (de uma
cadeia de Markov) um certo que dene um processo estocstico de Markov
estacionrio, se e s se, vetor de probabilidade invariante para P .
Por exemplo, considere S = {1, 2} e o processo Markoviano obtido a partir

da matriz
( )
1/4 3/4
P=
1/3 2/3
e do vetor de probabilidade inicial (4/13, 9/13). A partir do que calculamos
no exemplo do comeo desta seo obtemos que este Processo Estocstico
Markoviano estacionrio.
Retornando ao caso geral descrito pelo teorema acima observamos que uma
pergunta natural : xado um P sempre existe ao menos um invariante?
i i
i i
i i

i i
Vamos mostrar que a resposta a esta questo depende de S ser nito ou no.
No caso em que S nito sempre vai existir ao menos um . No caso de S com
cardinalidade innita nem sempre isto ocorre. Como veremos mais adiante o
passeio aleatrio (1/2, 1/2) vai ser um um caso onde no existe vetor de
probabilidade estacionrio. Note que neste caso S = Z.
Denio 2.11. Fixado S denotamos = S = {(p1 , p2 , ..., ps , ...) : s S

tal que pi 0, p1 + p2 + ... + ps + ... = 1}.
Proposio 2.10. A funo T : , tal que
T ((p1 , p2 , ..., pd , ...)) = p P,
onde p = (p1 , p2 , ..., pd , ...) est bem denida.
Demonstrao: Para ver que T est bem denida analisemos primeiro que o
caso em que p = es (o vetor que nulo a menos da posio s S ) para um
s xo. Denote ento v s = es P = T (es ). As coordenadas de v s so dadas por
(vjs )jS = v s = es P = (P (s, j))jS .

Note que js vjs = js P (s, j) = 1.
Logo v s .
Vamos agora ao caso geral: ora, um p qualquer dado por p =

sS ps es , onde sS ps = 1; o resultado ento segue por linearidade: seja
(uj )jS = u = p P = T (p). Ento

T( p s es ) = ps T (es ) = ps v s = u = (uj )jS .
sS sS sS
Agora

uj = ps vjs = ps vjs = ps vjs = ps 1 = 1.
jS jS sS sS jS sS jS sS
i i
i i
i i

i i
Note que como todos os fatores da soma dupla acima so positivos no

importa a ordem de soma.
Logo, u .
Na Figura 5.5 mostramos, no caso em que S = {1, 2, 3}, o espao e sua

imagem T () sob a ao de T (que est contida em ).
Vamos agora apresentar um resultado extremamente importante:
Teorema 2.3. Se S nito, ento para toda a matriz estocstica P existe ao
menos um vetor tal que invariante para P.
Demonstrao: Quando S nito com cardinalidade d, o conjunto =

{(p1 , p2 , ..., pd ) | tal que pi 0, p1 + p2 + ... + pd = 1} um conjunto con-
vexo fechado limitado dentro do espao am {x : x1 + x2 + ... + xd = 1} (que
tem dimenso d 1). Armao: a funo T : , tal que
T ((p1 , p2 , ..., pd )) = p P
est bem denida e continua.

Ora, pela proposio anterior sabemos que T est bem denida. o fato que
T continua segue de que T (p) denida a partir de produtos e somas nitas.
Logo, pelo Teorema do Ponto Fixo de Brouwer (ver [GP], ou [DL] Exerccio
35 seo 6.5) temos que existe um ponto xo para T , ou seja, existe tal
que T () = . Logo invariante para P .
Sendo assim, quando S nito sempre se pode obter a partir de P um certo

processo estocstico Markoviano estacionrio. Basta escolher 0 = (s0 )sS =
P (X0 = s)sS tal que 0 P = 0 . Tal 0 autovetor (vetor de probabilidade)
de P ( esquerda) associado ao autovalor 1.
O xo para P nem sempre nico. Quando S no nito, dado P ,
nem sempre existe que invariante para P . Por exemplo, o passeio aleatrio
i i
i i
i i

i i
tipo (1/2, 1/2) sobre S = Z denido anteriormente no possui invariante a

esquerda associado ao autovalor 1 como veremos em breve.
Exemplo 2.13. Considere a matriz estocstica

p1 p2 p3 ... pd
p p p ... p
1 2 3 d
P= ,
. . . ... .
p1 p2 p3 ... pd
onde p1 + p2 + ... + pd = 1.
Seja um vetor de probabilidade = (1 , 2 , ..., d ) qualquer.
A equao P = , nos determina d igualdades, mais exatamente, para
cada i xo temos
1 pi + 2 pi + ... + d pi = i ,
mas como 1 pi + 2 pi + ... + d pi = pi , obtemos que o nico estacionrio
= (p1 , p2 , ..., pd ).
Assumindo desta forma, temos que
P (X0 = a0 , X1 = a1 , ..., Xn = an ) = pa0 Pa0 a1 Pa1 a2 ...Pan1 an =
pa0 pa1 pa2 ...pan .

Note que esta probabilidade P coincide em cada cilindro
{X0 = a0 , X1 = a1 , ..., Xn = an }
com aquela do processo independente e identicamente distribudo, em que cada

cada elemento i {1, 2, 3, ..., d} = S , tem, respectivamente, probabilidade pi .
Logo, pelo teorema de Caratheodori-Kolmogorov os dois processos determinam
as mesmas probabilidades na sigma-algebra determinada por estes cilindros(ver
captulo 4 em caso de necessidade de uma armao mais precisa).
Logo, os processos i. i. d. com a condio inicial = (p1 , p2 , ..., pd ) podem
ser encarados como Processos Markovianos estacionrios.
i i
i i
i i

i i
Exerccio: : Uma urna contm duas bolas sem cor. Numa seqncia de in-
stantes uma bola escolhida ao acaso de dentro da urna e pintada de vermelho
ou preto e colocada novamente na urna. Se a bola no est pintada, a escolha
da cor feita aleatoriamente de forma igualmente distribuda (vermelho ou
preto). Se ela est pintada, a sua cor trocada. Este procedimento feito
em sequncia vrias vezes. A cada momento temos na urna duas bolas com as
possibilidades individuais de vermelho, preta ou sem cor.
Qual a matriz de transio da cadeia de Markov Xn , n N, com estados
(x, y, z) onde x o nmero de bolas sem cor, y o nmero de bolas vermelhas,
e, z o nmero de bolas pretas?
Denio 2.12. Uma matriz estocstica P dita regular se existe k>0 tal
que todas as entradas da matriz P k

so positivas.
( ) ( )
0 1 1/2 1/2
Exemplo 2.14. 1) A = regular. De fato: A2 =
1/2 1/2 1/4 3/4
( )
1 0
2) I = no regular. De fato: I m = I para qualquer m.
0 1
( ) ( )
3/4 1/4 13/16 3/16
3) B = regular. De fato: B 2 =
1 0 3/4 1/4
Teorema 2.4. Suponha que a matriz de transio P seja nita e regular,

ento s existe um tal que P = . O vetor tem todas as entradas
positivas.
i i
i i
i i

i i
Demonstrao: Vamos supor primeiro que P tem todas as entradas estrita-

mente positivas.
Vamos provar que s existe um tal que P = .
Note que isto a mesma coisa que provar que s existe um x Rd com
todas as coordenadas positivas, tal que x P = x. De fato, dado x podemos
obter a partir de x, o vetor = x xj , e vice-versa.
jS
Seja, x = (x1 , x2 , ..., xd ) e y = (y1 , y2 , ..., yd ) e suponha, por
absurdo, que x = x P e y = y P .
Note que as entradas de y so todas positivas, seno existiria i tal que

0 = yi = Pji yj ,
e isto implica que todos os yj so nulos.

Logo, todas as entradas de um ponto xo so positivas.
Considere
x1 x 2 xd
t = inf{ , , ..., }.
y1 y2 yd
x
Denote yii0 o valor mnimo.
0
Sendo assim, o vetor xty , tem todas as coordenadas xi tyi no negativas.
Ainda xi0 tyi0 = 0.
Deste modo,
(xt y) P = (xt y) = (x1 t y1 , ..., xi0 1 t yi0 1 , 0, xi0 +1 t yi0 +1 , ..., xd t yd ).
Logo,
P1,i0 (x1 t y1 ) + ...+
Pi0 1,i0 (xi0 1 t yi0 1 ) + 0 + Pi0 +1,i0 (xi0 +1 t yi0 +1 ) + ... + Pd,i0 (xd t yd ) = 0.
Logo, como todos os Pi,j > 0, e todos xi tyi 0, temos que todos os
xj t yj = 0. Ainda, como

d
0= xi t yi = 1 t.
i=1
i i
i i
i i

i i
Temos que t = 1. Sendo assim x = y .

No caso geral, quando existe k > 0 tal que todas as entradas da matriz P k
so positivas, o raciocnio anlogo. Basta considerar no argumento acima
(x t y) P k = (x t y) e proceder da mesma forma.
Desta forma obtemos para tal matriz P k que existe apenas um vetor em
tal que P k = .
Ressaltamos aqui o fato que desejamos fazer armaes sobre a unicidade
do vetor invariante para P , e no para P k .
J se sabe que P tem um vetor invariante. Se existissem dois distintos a
e b , tais que a P = a e b P = b , ento, tambem verdade que a P k = a
e b P k = b . Mas isto contraria a uniciade do vetor estacionrio para P k .
Assim, conclumos, tambem neste caso, que o vetor estacionrio em para
P nico.

0 1 0

Exemplo 2.15. Dada a matriz estocstica P = 0 0 1
1/2 1/2 0
a) Veriquemos que a matriz P regular, i., m 1 tal que as entradas
de P m so positivas.
b) A seguir vamos determinar o seu nico vetor xo de probabilidade.
Para dar apoio a armao a) observe que

0 0 1 1/2 1/2 0

P 2 = 1/2 1/2 0 ; P 3 = 0 1/2 1/2 ;
0 1/2 1/2 1/4 1/4 1/2

0 1/2 1/2 1/4 1/4 1/2

P 4 = 1/4 1/4 1/2; P 5 = 1/4 2/4 1/4.
1/4 2/4 1/4 1/8 3/8 4/8
i i
i i
i i

i i
Logo, P regular.
Para resolver b) desejamos encontrar tal que satisfaa a equao P = ,
ou seja,
(x, y, 1 x y) P = (x, y, 1 x y)
onde 0 x 1 e 0 y 1.
Vamos resolver o sistema

(1 x y) 12 = x
x + 12 (1 x y) = y ,

y =1xy
ou seja,

1 y = 3x
1 + x = 3y ,

x + 2y = 1
ou seja, {
1 y = 3(1 2y)
,
x + 2y = 1
e nalmente {
2
y= 5
1
.
x= 5
Portanto, = ( 15 , 25 , 25 ) o nico vetor xo de probabilidade de P .

Se denirmos um processo estocstico Xn a partir da P e de tal =
( 51 , 25 , 25 ), obteremos uma probabilidade P que torna o processo estacionrio.
Observamos que existe um mtodo bastante direto para se obter o vetor de

probabilidade estacionrio (em um grande nmero de casos).
i i
i i
i i

i i
Teorema 2.5. Seja P matriz estocstica k por k, denote por I a matriz k

por k , que tem todas as entradas igual a 1, e I a matriz identidade, ento se
I P + I for inversvel, temos que
= (1 1 ...1 1)(I P + I)1
satisfaz
P = .
Demonstrao: Sabemos que existe, assim, note que
(I P + I) = + (1 1 ...1 1) = (1 1 ...1 1).
Aplicando em ambos os lados da igualdade acima (do lado esquerdo) a

matriz I P + I obtemos o resultado desejado.
Existem variados pacotes de software que invertem matrizes de maneira

bastante rpida, sendo assim, o mtodo acima fornece uma maneira direta e
eciente de calcular (em muitos casos) o vetor estacionrio.
Sejam r N e s N xos. Para cada n N considere matrizes An da
forma r por s. Dizemos que a seqncia de matrizes An converge para a matriz
A, se cada entrada de An converge respectiva entrada de A.
Por exemplo,

3 + n1 5 sen (1/n)

An = cos(1/n) 1 + n12 1/n
n 1
( + n12 )2 7 i=0 2n
tal que
3 5 0

lim An = 1 1 0 .
n
2 7 1
i i
i i
i i

i i
O conceito anlogo quando as matrizes An e A so da forma r por innito

(onde r N) ou mesmo da forma innito por innito pode ser igualmente
considerado.
O teorema abaixo de grande importncia na teoria. A demonstrao
utiliza algumas propriedades um pouco mais sosticadas de lgebra Linear.
Numa primeira leitura, o leitor que o desejar pode pular a demonstrao,
contanto que que bem claro o que armado no enunciado.
Teorema 2.6. Seja P uma matriz estocstica regular em que S tem cardinal-
idade nita. Suponha que S seja da forma S = {1, 2, 3, .., d}.

Ento:
a) P tem um nico vetor de probabilidade xo

e os componentes de
so todos positivos, ou seja nico o vetor de probabilidade tal que P =

e sS s = 1 e s > 0,s S . Os autovalores tem todos norma menor que 1
b) Se p qualquer vetor de probabilidade, ento a seqncia de vetores pP ,

2 3
pP , pP , ... converge para o ponto xo , isto ,
lim p P n = .
n
Deste fato segue:

c) As entradas das matrizes P , P 2 , P 3 ,...,P n obtidas a partir de P con-
vergem para as entradas correspondentes da matriz Q cujas linhas so todas
iguais ao vetor xo . De outra forma

1 2 3 ... d
...
1 2 3 d
lim P = Q =
n

n . . . ... .
1 2 3 ... d
Demonstrao: Considere como no ltimo teorema = {(p1 , p2 , ..., pd ), tal

que pi 0, p1 + p2 + ... + pd = 1} e a funo T : , tal que T (p) = p P ,
i i
i i
i i

i i
onde p = (p1 , p2 , ..., pd ). Sabemos, pelo teorema anterior que existe ao menos
um ponto tal que P = .
Se P tivesse autovalor real maior que 1 associado a v ento, para qualquer
k , temos que P k tambm, pois P k (v) = k v. Da mesma forma, P r k (v) = kr v .
Note que todas as entradas de v so positivas (mesmo argumento do teorema
k
2.4: seno existiria i tal que 0 = vi = Pji vj , e isto implica que todos
os vj so nulos.). Isto signica que, tomando r grande, todas as entradas de
P r k (v) so arbitrariamente grandes. Mas, o vetor P r k (v) tem sempre todas as
coordenadas menores que d. Assim, no existe autovalor real de norma maior
que 1.
Como P aperidica pelo Teorema 2.19 (a ser enunciado no futuro) no
existem autovalores complexos de norma 1. Apenas o valor 1 autovalor com
norma 1.
Ainda, como P k tem todas as entradas positivas, pelo Teorema 2.4 o es-
pao dos autovetores de P k associados ao autovalor 1 tem dimenso 1. Como
P k (v) = v , caso v seja autovetor de P associado a 1, conclumos que o espao
dos autovetores de P associados ao autovalor 1 tem dimenso 1.
Assim, o xo para P o nico autovetor associado ao autovalor 1.
Desta forma, todo autovetor v de P tem autovalor com norma menor que
1.
Vamos mostrar que para qualquer p vale
lim p P n = .
n
Vamos denotar por P a matriz transposta de P .

Isto ,

P11 P21 . . Pd1
P . Pd2
12 P22 .
P = .
. . . . .
P1d P2d . . Pdd
i i
i i
i i

i i
fcil ver que vlida a relao
< uP, v >=< u, v P >,
para todo u, v Rd .
Considere o espao
V = {v Rd | 0 = < v, (1, 1, 1, ..., 1) > = v1 + v2 + ... + vd }.
O espao V tem dimenso d 1. O espao gerado pelo vetor (1, 1, ..., 1) e

o espao vetorial V geram o Rd .
Vamos mostrar agora que dado v V , temos que v P V .
Como a matriz P estocstica temos que vale

1 1

1 1

P
. = . .

. .
1 1
Logo,
(1 1 1 ... 1) P = (1 1 1 ... 1).
Ento,
< v P , (1, 1, ..., 1) > = < v , (1, 1, ..., 1) P > = < v , (1, 1, ..., 1) >= 0.
Assim v P V .
Considere a transformao linear K : V V agindo no espao vetorial V ,
induzida por P, isto , K(v) = v P . Os autovalores reais de K so todos com
norma menor do que 1 (pois autovalores de K so autovalores de P ).
Armamos que no existem autovalores complexos de norma maior que 1.
A demonstrao deste fato est na observao que faremos ao m da prova
deste Teorema.
i i
i i
i i

i i
Seja c < 1 a norma do maior destes autovalores (reais ou complexos). Desta

forma, pelo Lemma 9.10 [CD] (talvez com outra norma) |K(v)| c |v|, para
todo v = 0 em V .
Note que no est em V pois < , (1, 1, .., 1) >= 1. Seja agora, x, y ,
e escreva x = v1 + c1 , e y = v2 + c2 , onde c1 , c2 R, v1 , v2 V .
Ora,
1 = < x, (1, 1, ..., 1) > = < (x1 , x2 , ..., xd ), (1, 1, ..., 1) > =
< v1 , (1, 1, ..., 1) > + c1 < , (1, 1, ..., 1) > = 0 + c1 .

Logo c1 = 1, e assim pela mesma razo c2 = 1.
Temos ento que
x P y P = (v1 + ) P (v2 + ) P =
(K(v1 ) + ) (K(v2 ) + ) = K(v1 ) K(v2 ).

Logo,
| x P y P | < c | v1 v2 | =
c|(v1 + ) (v2 + ) | = c | x y |.
Por induo,
|x P n y P n | < cn |x y|
para x, y e onde 0 c < 1.
Considere agora x xo e y = . Temos ento, que
|x P n | = |x P n P n | < cn |x |.
Logo, para qualquer p , vale que
lim p P n = ,
n
e a velocidade de convergncia exponencialmente rpida.
i i
i i
i i

i i
Observao: Se existisse autovalor complexo para K com norma maior

que 1, ento pela forma de Jordan [DL] existiria x Rd tal que para todo r
vale |K r (x)| ||r |x| (ver comeo da demonstrao do Lema 9.10 em [DL]).
Ora, a matriz da transformao K r estocstica, e, assim todas as sua
entradas so positivas e menores ou iguais a 1.
Assim, impossvel que |K r (x)| , quando r , porque para qual-
quer x e r N temos que a norma de cada componente do vetor K r (x) menor

ou igual a |x1 | + |x2 | + ... + |xd |. Assim, |K r (x)| d (|x1 | + |x2 | + ... + |xd |).
Na Figura 2.3 mostramos uma ilustrao do resultado acima para matrizes

regulares: a posio inicial p0 e exibimos a sua imagem atravs de sucessivas
aplicaes da transformao T . O exemplo para o caso em que S = {1, 2, 3}.
Observe que T n (p0 ) se aproxima (quando n vai a innito) de p que o nico
vetor estacionrio de probabilidade para P .
Este ltimo resultado muito mais forte que o anterior. A partir dele
obtemos o seguinte:
Teorema 2.7. Seja S = {1, 2, ..., d}. Considere uma matriz estocstica P e
um vetor p qualquer. Dena o processo estocstico markoviano Xn a partir
p = (ps )sS = (P (X0 = s))sS e a matriz de

do vetor de probabilidade inicial
transio P . Suponha que P seja regular. Seja o nico vetor de tal que
P = . O vetor n = (P (Xn = s))sS tal que
lim p P n =
n
lim (P (Xn = 1), P (Xn = 2), ..., P (Xn = d)) = = (s )s{1,2,...,d} .

n
Logo, para s {1, 2, ..., d} xo,
lim P (Xn = s) = s .
n
Note que a armao independe do p escolhido.
i i
i i
i i

i i
Demonstrao: Segue direto do fato que P (Xn = s) a ordenada ssima do

vetor p P e que
n
lim p P n = lim T n (p) =

n n
Figura 2.2: A ao de T em
Quando S innito, dada uma matriz estocstica regular P da forma S

por S , nem sempre existe tal que P = .
( )
0 1
Exemplo 2.16. Considere a matriz estocstica P = .
1/2 1/2
( )
0, 50 0, 50
Note que P 2 = .
0, 25 0, 75
Logo a matriz P regular.
Desejamos calcular = (x, 1 x) tal que P = e 0 x 1.
Sendo assim,
{ {
(1 x) 2 = x
1
1 x = 2x
V V 1 = 3x
x + (1 x) 2 = 1 x
1 1
2
+ 12 x = 1 x
Portanto, = ( 13 , 32 ) o nico vetor xo de probabilidade para a matriz P .
i i
i i
i i

i i
Figura 2.3: Os pontos p0 , T (p0 ), T 2 (p0 ), T 3 (p0 ),... que se aproximam de p.
Pelo teorema anterior, a seqncia P , P 2 , P 3 ,...,P n converge para a matriz
( ) ( )
1/3 2/3 0, 33 0, 67
Q= = .
1/3 2/3 0, 33 0, 67
Observe que
( ) ( ) ( )
0, 50 0, 50 0, 25 0, 75 0, 37 0, 63
P2 = ; P3 = ; P4 = ;
0, 25 0, 75 0, 37 0, 63 0, 31 0, 69
( )
0, 31 0, 69
P5 = .
0, 34 0, 66
A seqncia de matrizes acima nos conrma o que o ltimo teorema arma.
Observe que os elementos da matriz P n esto convergindo com n , a certos
valores e que so na verdade as entradas da matriz Q acima.
Note que a convergncia razoavelmente rpida (exponencial).
i i
i i
i i

i i
Figura 2.4:
Exemplo 2.17. Considere S = {0, 1, 2, 3, 4} e a C.M. (Xn )n0 cuja matriz de

transio dada por

0 0 12 1
0
2

0 0 1 0 0

P= 1 0 0 0 0 .

1/9 0 3/9 0 5/9
1/9 0 0 5/9 3/9
Note, a partir da matriz acima, que de qualquer ponto de S no se tem

acesso a 1 em um passo (e assim tambm em n passos). Na Figura 2.4
mostramos um grafo (associado a P ) que conecta com uma seta dirigida de um
estado a aqueles que se pode passar a partir dele (com probabilidade positiva).
Em cada seta esta colocada a probabilidade de transio correspondente. Note
que o estado 1 passa a 2 com probabilidade 1 e que nenhum estado em S pode
passar ao estado 1. A partir do estado 4, em uma etapa, podemos atingir 0, 3 e
continuar em 4. Olhando este grafo se pode ver que seguindo sucessivas etapas
(basta percorrer as setas), em tempo nito, se pode passar de qualquer estado
em {0, 2, 3, 4} a qualquer estado em {0, 2, 3, 4} com probabilidade positiva.
Vamos calcular a distribuio estacionria desta cadeia.
Devemos encontrar tal que satisfaz = P .
i i
i i
i i

i i
Sendo assim, 2 +3 19 +4 91 = 0 , 53 +34 = 94 53 = 64 4 = 56 3

Ainda, 0 21 1 + 3 39 = 2 , 90 + 104 = 183 90 + 104 = 18 65 4
90 = (18 56 10)4 , 0 12 + 4 95 = 3 0 = 58 .
45 4
Procedendo de forma semelhante se obtm facilmente que 2 = 45 47
4 e
1 = 0.

Como 4i=0 i = 1, ento
58 47 6
4 + 0 + 4 + 4 + 4 = 1.
45 45 5
Sendo assim, segue que 4 = 45
204
.
Portanto,
( )
58 47 54 45
(0 , 1 , 2 , 3 , 4 ) = = , 0, , , ,
204 204 204 204
o vetor de probabilidade estacionrio.
A partir do que se viu no grafo, no de surpreender que a probabilidade
1 , correspondente ao estado 1, em invariante nula.
Exerccio: Encontre o nico vetor xo de probabilidade da matriz estocstica

regular
1 1 1 3 3 2 12 11 9
2
4 4
8 8 8
32 32 32

1 2 7
P=
2 0 1
2
P2 =
8
5
8
1
8
; P3 =
16
3
16
6
16
.

1 1 2 5 1
0 1 0 2
0 2 8 8 8
Exerccio: Por que uma matriz estocstica com um nmero 1 na diagonal

principal no regular?
Exemplo 2.18 (Passeio Aleatrio). Considere a cadeia P sobre S = Z tal

que para todo i Z xo, temos para P (i, i) = 0, P (i, i+1) = 1/2, P (i, i1) =
1/2 e P (i, j) = 0 para j = i 1, i + 1. Neste caso no existe tal que P = .
i i
i i
i i

i i
2.3 Classicao de Estados de Cadeias de Markov 89
De fato, denote = (i )iZ , ento se tal que P = temos que

0 = 1/2 (1 + 1 ).
Note que, por sua vez, 1 = 1/2 (0 + 2 ) e 1 = 1/2 (2 + 0 ).
Logo,
0 = 1/2 (1 + 1 ) = 1/2 ( 1/2 (2 + 0 ) + 1/2 (0 + 2 ) ).
Disto resulta que 0 = 1/2 (2 + 2 ).

Por induo fcil ver que tambm vale para todo n N, que 0 =

1/2 (n + n ). Se iZ 1 = 1, ento
lim i = 0 = lim i .
i i
Logo, 0 = 0.
O mesmo raciocnio pode ser feito para qualquer j .
Assim, se P = teramos que j = 0 para todo j Z. Logo, no existe
tal que P = .
2.3 Classicao de Estados de Cadeias de Mar-

kov
Desejamos agora classicar os estados i S de uma C.M. denida por P =
P (i, j)i,jS , matriz de transio, de acordo com a possibilidade de ir de um
dado estado para outro. Esta anlise ser necessria para analisar cadeias
de Markov mais gerais do que as obtidas a partir de matrizes estocsticas
regulares.
Sabemos que se uma matriz estocstica tem todas as entradas estritamente
positivas, ento ela possui um nico vetor estacionrio. Muitas vezes somos
i i
i i
i i

i i
levados a analisar cadeias que no possuem todas entradas estritamente posi-

tivas (exemplos deste tipo surgem naturalmente quando consideramos cadeias
de Markov de ordem superior, conforme seo 2.11).
Uma classe grande das cadeias de Markov em que algumas entradas so
nulas tem tambm apenas um vetor estacionrio. Um dos objetivos das prx-
imas sees e obter resultados que nos assegurem esta unicidade em certos
casos gerais.
Note que inicialmente no estamos analisando Processos de Markov, mas
sim questes que envolvem apenas a matriz de transio P , ou seja, a cadeia
de Markov associada probabilidade P do processo estocstico markoviano
(Xn )nN . No seu devido momento voltaremos a considerar novamente os pro-
cessos estocsticos associados a tal P e certos vetores de probabilidades iniciais
.
Denio 2.13. Sejam i, j S

a) SeP (i, j) > 0 para algum n 0 dizemos que i conduz a j ", e deno-
n
tamos tal fato por i j .
b) Se i j e j i, dizemos que i e j se comunicam"e denotamos tal
fato por i j .
(i j n1 , n2 0 tal que P 1 (i, j).P 2 (j, i) > 0)

n n
Note que da expresso

Pijn = P (Xn = j|X0 = i) = ... P (i, i1 )P (i1 , i2 ) . . . P (in1 , j),
i1 in1
segue que i j , se e s se, existe i1 , i2 , ..., in1 S tal que
Pii1 > 0, Pi1 i2 > 0, Pi2 i3 > 0, ..., Pin2 in1 > 0, Pin1 j > 0.
Proposio 2.11. A relao " uma relao de equivalncia, i., (1) ii

; (2) ijji ; (3) ij e j k i k.
i i
i i
i i

i i
Demonstrao:
(1) P 0 (i, i) = 1 > 0;

(2) i j n1 , n2 0 tal que P n1 (i, j) P n2 (j, i) > 0 n1 , n2 0 tal
que P n2 (j, i) P n1 (i, j) > 0 j i;
(3) i j e j k n, m 0 tais que P n (i, j) > 0 e P m (j, k) > 0

P (n+m) (i, k) = r P n (i, r)P m (r, k) > P n (i, j).P m (j, k) > 0 i k .
Segue deste ltimo resultado que "divide S em classes de equivalncia.

Uma classe de equivalncia U S um conjunto tal que
a) para todo x, y U vale que x y
e
b) para todo z / U e todo x U , no vale que z x.
Exemplo 2.19. Seja S = {0, 1, 2, 3, 4, . . . , n, . . . } = N e

1 1 1
0 2 22 23 . 21n .

1 0 0 0 . 0 .

0 1 0 0 . 0 .
P= . . . . . . . .

0 0 . 1 . 0 .
. . . . . . .
Como dissemos antes, as setas representam comunicaes em uma etapa

entre dois estados. Quando no existe probabilidade positiva de ir em um
estado de sa a um estado sb no haver seta dirigida apontando de sa a sb . O
diagrama nos auxilia a enxergar se dois estados se comunicam.
Na Figura 2.5, por exemplo, mostramos o diagrama de setas correspondente
a P acima. Desta forma seguindo as setas podemos saber se um certo estado
estado pode ser atingido ou no a partir de outro. Por exemplo, saindo de
0 podemos retornar a 0. De fato, seguimos de 0 para 2, depois de 2 a 1, e
i i
i i
i i

i i
Figura 2.5:
nalmente de 1 para 0. No podemos, por exemplo, ir de 2 a 3 em uma etapa.

Mas podemos, no entanto, ir de 2 a 3 em trs etapas. No presente exemplo s
existe uma classe, ou seja, todos os estados se comunicam.
Exemplo 2.20. Considere S = {1, 2, 3, 4} e uma C.M. com a seguinte matriz

de transio.
1 1

0 2 2
0

0 3
0
1
4 4
P= .
1 7
8 0 0
8

1
2
0 0 12
Neste caso, 1 2 e 1 3.
Ainda,
22e23
e
31e32
e
i i
i i
i i

i i
4 1 e 4 4.
No presente exemplo, as classes de equivalncia determinadas por "so
C1 = {1, 2, 3} e C2 = {4}.
Denio 2.14. Se existe somente uma classe de equivalncia para a relao

de comunicao ", a cadeia dita irredutvel. Diremos tambm que P
irredutvel.
Quando a matriz P for regular, ento s existe uma classe de equivalncia.

De fato, se r for tal que P r tem todas entradas positivas, ento para qualquer
i, j S vale que P r (i, j) > 0.
Exemplo 2.21. Considere a matriz P

1 1

2 2
0 0

1 3
4 4 0 0

P= .
0 0 1 7
8
8

8 3
0 0 11 11
Denote por P1 e P2 as matrizes dois por dois

1 1
2 2
P1 = ,
1 3
4 4
e ainda,

1 7
8 8
P2 = .
8 3
11 11
Cada uma das matrizes P1 e P2 regular.
i i
i i
i i

i i
Note que a evoluo das probabilidades de transio em n etapas P n

determinada pelas probabilidades de transio em n etapas P1n e P2n . De fato,
de maneira compacta a matriz 4 por 4 denida por P n satisfaz

P1n 0
Pn = .
n
0 P2
Usamos a seguinte notao acima: o 0 na matriz P n representa a matriz 2
por 2

0 0
.
0 0
Neste sentido, podemos armar (de maneira mais ou menos informal) que
o mundo {1, 2}"evolui de maneira independente do mundo {3, 4}".
Sendo assim, tal P no irredutvel. Existem neste caso duas classes, {1, 2}
e {3, 4}. mais natural analisar em separado primeiro a matriz P1 e depois a
matriz P2 . As duas matrizes so regulares (e assim irredutveis). Seja p1 R2
(nico) tal que p1 P1 = p1 e p2 R2 (nico) tal que p2 P1 = p2 .
Dizemos que P1 a restrio de P ao conjunto {1, 2} e P2 a restrio de
P ao conjunto {3, 4}.
Esta idia ser explorada no futuro em nosso texto, ou seja, dada uma
matriz P sobre S vamos mostrar que (em muitos casos) S pode ser decomposta
em classes de equivalncia Cr S tais que a matriz induzida pela restrio de
P a cada subconjunto Cr seja irredutvel.
Note no exemplo acima que dado tal que 0 1, ento se p =
(p11 , p21 , 0, 0) + (1 ) (0, 0, p12 , p22 ), onde p1 = (p11 , p21 ) e p2 = (p12 , p22 ), ento p
invariante para P . Note que isto vale para qualquer xo como acima. Logo,
para tal P o p invariante no nico.
i i
i i
i i

i i
Denio 2.15. Se P (i, i) = 1, i dito ser um estado absorvente.
Nota: se i estado absorvente, ento {i} a sua classe de equivalncia.
Exemplo 2.22. Considere S = {0, 1, 2, 3, 4} e uma C.M. (Xn )n0 com matriz
de transio dada por

1 1 1
0 0
3

3 3
1 1
0 0 0
2 2

P = 0 0 1 0 0 .

0 0 0 1 2
3 3

1 1
0 0 0 2 2
Classes de equivalncia: C1 = {0}; C2 = {1}; C3 = {2}; C4 = {3, 4}.
Note que o estado 2 absorvente.
Seja (Xn )n0 uma C.M. com S = {0, 1, 2, 3, 4}, e matriz de

Exerccio:
transio dada por

1 1 1
0 0
3 3 3

0 0 0 1 1
2 2

P = 0 0 1 0 0 .

2 1
3 3 0 0 0

1 1
2 2
0 0 0
i i
i i
i i

i i
Figura 2.6:
As classes de equivalncia so: C1 = {0, 1, 3, 4}; C2 = {2}.

Complete as probabilidades correspondentes nas setas do grafo da Figura
2.6 associado a tal P .
Exemplo 2.23. Passeio Aleatrio em Z ou Random walk.

Vamos elaborar com mais detalhes o que descrevemos anteriormente sobre
passeio aleatrio. Vamos considerar aqui um caso mais geral em que as prob-
abilidades de saltar uma unidade para cima ou para baixo depende agora do
estado s Z.
Sejam Y1 , Y2 , . . . , Yt , . . . independentes e identicamente distribudas, ou
seja, i.i.d., em notao condensada, onde t T = N, assumindo valores em Z.
Vamos construir um novo processo estocstico Xt , t T = N.
Vamos assumir que Y0 = 0,
Xn = Y1 + Y2 + ... + Yn , n 1
Xn+1 = Xn + Yn+1
(Xn )n0 satisfaz a propriedade de Markov pois:
Yn+1 independente de Y1 , ..., Yn , ento Xn+1 depende apenas de Xn (ver

(*) aps 1.9).
Mais precisamente, como Yn+1 independente de Xs = Y0 + Y1 + ... + Ys
para s < n (ver (**) apos denio 1.9), ento
P (Xn+1 = s|Xn = xn , Xn1 = xn1 , ..., X0 = 0) =
i i
i i
i i

i i
P (Xn+1 = Yn+1 + Xn = s|Xn = xn , Xn1 = xn1 , ..., X0 = 0) =

P (Yn+1 + Xn = s, Xn = xn , Xn1 = xn1 , ..., X0 = 0)
=
P (Xn = xn , Xn1 = xn1 , ..., X0 = 0)
P (Yn+1 = s xn |Xn = xn , Xn1 = xn1 , ..., X0 = 0) =
P (Yn+1 = s xn ) =
P (Yn+1 = s xn | Xn = xn ) =
P (Xn+1 = Yn+1 + Xn = s|Xn = xn ).
Vamos denir agora as probabilidades de transio. Considere P (Y1 =

k) = ak , onde ak 0 e kZ ak = 1.
A partir desta informao desejamos calcular as probabilidades de tran-
sio:
P (Xn+1 = j, Xn = i)
P (i, j) = P (Xn+1 = j|Xn = i) =
P (Xn = i)
P (Xn + Yn+1 = j, Xn = i)
=
P (Xn = i)
P (Yn+1 = j i, Xn = i) P (Yn+1 = j i).P (Xn = i)
= =
P (Xn = i) P (Xn = i)
P (Yn+1 = (j i)) = aji .
Portanto, (Xn )n0 uma C.M. com probabilidade de transio estacionrias

e dadas por P (i, j) = aji . Observamos que estas probabilidade s dependem
do incremento j i; isto , P (i, j) homognea no espao
P (i, j) = P (0, j i).
Se todos os ai , i Z so no nulos ento a matriz P irredutvel.
i i
i i
i i

i i
Exemplo 2.24. Passeio Simples em Z (ou Passeio de Bernoulli).

Sejam P (Y1 = 1) = p e P (Y1 = 1) = 1 p = q . As variveis aleatrias Yi
so i.i.d, em notao abreviada.
O passeio aleatrio sobre Z, denotado por Xn , denido da seguinte forma:
X0 = 0, X1 = Y1 ,..,Xn = Y1 + Y2 + ... + Yn , Xn+1 = Xn + Yn+1 ,...
Neste caso P (i, i + 1) = p e P (i, i 1) = q , p + q = 1
A matriz de transio dada por

... . . . . . ...

... 0 p 0 0 0 ...

... q 0 p 0 0 ...
P=

... 0 q 0 p 0 ...

... 0 0 q 0 p ...
... . . . . . ....
Note que, dado que estamos em i, sempre podemos, com probabilidade
positiva P (i, i + 1) > 0 ir para a direita e com probabilidade P (i, i 1) > 0
ir para a esquerda. Assim pela caracterizao descrita aps a denio de i
conduz a j ", podemos ir de i para qualquer outro estado em um nmero nito
de passos.
Conclumos que esta uma cadeia irredutvel pois s existe uma classe de
equivalncia.
Note que se p = q = 1/2, fcil ver que a equao de
= (..., n , ..., 1 , 0 , 1 , ..., n , ...),
tal que P = , nos indica por induo, que n constante.

Isto porque n = 12 (n1 + n+1 ), para todo n. Assim 12 (2 + 2 ) = 0 , e
por induo, 12 (n + n ) = 0 , para todo n N.

Isto no pode ocorrer se nZ n = 1 (pois n e n 0 as n ).
Logo, para tal P no possvel encontrar uma probabilidade inicial tal que
determine um Processo Estacionrio.
i i
i i
i i

i i
2.4 Tempo de Primeira chegada 99
Exemplo 2.25. Passeio casual (sobe 1 com probabilidade p e desce 1 com

probabilidade q = 1 p, onde p + q = 1 e p, q 0) em {0, 1, ..., d} com
barreiras absorventes em 0 e d, com S = {0, 1, 2, ..., d}, d N, d > 0.
Neste caso a matriz de transio da cadeia de Markov

1 0 0 0 ... 0

q 0 p 0 . . . 0

0 q 0 p . . . 0

P= .
0 0 q 0 . . . 0
. . . .
.. .. .. ..

0 0 0 0 ... 1
Observamos que C1 = {0} , C2 = {1, 2, 3, . . . , d 1} e C3 = {d}.
2.4 Tempo de Primeira chegada

Vamos agora introduzir alguns conceitos que so de fundamental importncia
para analisar cadeias de Markov mais gerais do que aquelas do tipo regular.
Denio 2.16. Seja AS e (Xn )n0 uma C.M. com matriz de transio P.
O tempo de primeira chegada (ou, de passagem por A) TA () (para o conjunto
comeando em denido por

A) {
min{n 1 : Xn () A}, no caso em que {n 1 : Xn (w) A} =
+ , caso contrrio
Em outras palavras TA () o primeiro j tal que wj A, onde
= (w0 , w1 , w2 , w3 , . . . , wn , . . . ).
i i
i i
i i

i i
i) TA uma varivel aleatria estendida (isto , pode assumir valor + )

tomando valores em N {+}, onde N = N {0}.

Ou seja, TA : N {+} uma funo mensurvel. Pode, ou no,
ser integrvel em relao probabilidade P sobre
= { = (w0 , w1 , w2 , w3 , . . . , wn , . . . ) : wn S}.
Note que ZA = { | TA (w) = } um conjunto mensurvel. Se A no

vazio, ento ZA no vazio. Em certos casos pode ter probabilidade positiva
e em outros nula.
ii) Se A = {i} denotamos TA = Ti . Neste caso, Ti (w) = min{n
1 , tal que, Xn (w) = i}. Note que no se pode dizer que Ti , i S xo, depende
de nitas coordenadas.
O tempo de primeira chegada um caso particular do que vai se chamar

posteriormente de tempo de parada (ou tempo de Markov).

Exemplo 2.26. Seja S = {1, 2, 3} e T2 : N {+} denido como em
ii) acima.
Sendo assim, se
= (2, 3, 1, 3, 3, 2, 3, 3, 3, 1, 2, ...),
temos que T2 () = 5. Se = (w0 , w1 , w2 , w3 , ..., wt , . . . ) for o caminho amostral

que comea em 2 e depois alterna 3 e 1 para sempre, ou seja,
= (2, 3, 1, 3, 1, 3, 1, 3, 1, 3, 1, ...),
e ento T2 () = .
i i
i i
i i

i i
Denio 2.17. fijn = P (Tj = n|X0 = i) = Pi (Tj = n) a probabilidade da
cadeia comeando em i atingir o estado j pela primeira vez no tempo n, ou,
mais precisamente,
fijn = P (Xr = j, r = 1, 2, . . . , n 1, Xn = j|X0 = i).

Ainda,

(1) Para i S xo, fii = n1 fiin

(2) Para i e j xos em S , fij = n1 fijn .
Por denio fii0 = 0 e tambm fij0 = 0.

Por exemplo, se S = {1, 2, 3}, ento se w 2, 3, 3, 3, 1, temos que seu
tempo de atingir 1 pela primeira vez comeando em 2 4. Se w 2, 3, 2, 3, 1,
temos que seu tempo de atingir 1 pela primeira vez comeando em 2 5.
Por exemplo, se S = {1, 2, 3}, ento se w 2, 1, 3, 2, temos que seu tempo
de atingir 2 pela primeira vez comeando em 2 3.
n
Proposio 2.12. P n (i, j) = k nk
k=1 fij P (j, j)
Demonstrao: Note que Ak = {|Tj () = k, X0 = i, Xn = j} onde

k {1, 2, . . . , n} uma partio de {X0 = i, Xn = j} .
Ainda,
P (X0 = i, Xn = j)
P n (i, j) = P (Xn = j|X0 = i) = =
P (X0 = i)
n
P (Xn = j, k=1 [Tj
= k], X0 = i)
=
P (X0 = i)
n
P (Xn = j, Tj = k, X0 = i)
=
k=1
P (X0 = i)
n
P (Xn = j, Xk = j, Xk1 = j, Xk2 = j, ..., X1 = j, X0 = i)

P (Xk = j, Xk1 = j, Xk2 = j, ..., X1 = j, X0 = i)
k=1
P (Xk = j, Xk1 = j, Xk2 = j, ..., X1 = j, X0 = i)

=
P (X0 = i)
i i
i i
i i

i i

n
P (Xn = j | Xk = j, Xk1 = j, Xk2 = j, ..., X1 = j, X0 = i)
k=1
P (Xk = j, Xk1 = j, Xk2 = j, ..., X1 = j | X0 = i) =

n
P (Xn = j | Xk = j) P (Xk = j, Xk1 = j, Xk2 = j, ..., X1 = j | X0 = i) =
k=1

n
fijk P nk (j, j)
k=1
Observao: Note que por denio

(1) Para i S xo, fii = n1 fiin

(2) Para i e j xos em S , fij = n1 fijn .
Sendo assim,

fii = fiin = P (Ti = n|X0 = i) =
n1 n1
P (Ti = 1|X0 = i) + P (Ti = 2|X0 = i) + P (Ti = 3|X0 = i) + . . .
= P (Ti < |X0 = i).
Este valor, ou seja, fii , indica assim a probabilidade de um caminho amostral

voltar ao estado i num tempo nito, dado que iniciou no estado i.
Do mesmo modo, para i e j xos
fij = P (Tj < |X0 = i),
j que Tj < min{n 1 : Xn = j} < +

Portanto, fij pode ser interpretada como a probabilidade condicional de
que o processo visite o estado j pela primeira vez em algum tempo positivo
nito n ,dado que ele comeou no estado i.
Note que para i = j , e n xo, ento { | Ti () = n} { | Tj () = n} =
i i
i i
i i

i i
Seja i xo. Se fii < 1 ento a famlia de conjuntos An = { |X0 (w) =

i , Ti = n} indexado por n 1 so disjuntos, mas no formam uma partio
n
do espao (em termos de probabilidade), ou seja P ( n=1 ) = n=1 fii <
1. Portanto, neste caso existe uma probabilidade positiva de que saindo de
X0 = i, o processo no volte nunca mais ao estado i. Isto , Pi ( { : =
(w0 , w1 , w2 , w3 , ..., wn , ...), wn = i, n > 1} ) > 0.
Isto signica que i transitrio conforme denio abaixo.
Denio 2.18. Se fii < 1 ento i dito estado transitrio ou transiente. Se
fii =1 ento i dito estado recorrente.
Logo, se i recorrente, uma C.M. comeando em i retorna a i com proba-

bilidade 1.
Se i transitrio, uma C.M. comeando em i tem probabilidade 1 fii de
nunca retornar a i.
Observao : Se i um estado absorvente, ento Pi (Ti = 1) = P (Ti = 1|X0 =
i) = P (i, i) = 1.
Portanto, fii = 1 o que mostra que todo estado absorvente recorrente.
Note que nem todo estado recorrente absorvente.
Exemplo 2.27. Considere S = {1, 2, 3, } e uma C.M. (Xn )n0 com matriz de
transio dada por

0 1 0

1 1
P=
0 2 2 .

1 2
0 3 3
Classes de equivalncia: C1 = {1}; C2 = {2, 3}
Note que o estado 1 transiente.
i i
i i
i i

i i
Para analisar tal cadeia devemos eliminar 1 de nossas consideraes e con-

siderar a matriz ( )
1 1
P = 2
1
2
2
.
3 3
Por exemplo, se (1 , 2 ) vetor estacionrio para P , ento, (0, 1 , 2 )

vetor estacionrio para P .
O processo estocstico descrito por P , de fato, "no enxerga "o estado 1.

( )
0, 2 0, 8
P= .
0, 3 0, 7
Observe que P (i, i) = 1 para todo i S . Logo, nenhum estado ab-
sorvente. Vamos mostrar que todos os estados so recorrentes.
Primeiro note que a cadeia irredutvel pois trivialmente s tem uma classe
de equivalncia (a matriz regular). Alm disso, note que como s temos
dois estados, se comeamos em 1, ento para n > 2 xo temos que f11 n
=
P (T1 = n|X0 = 1) = (0.3) (0.7) n2
0.8. Isto porque os caminhos = (wt )
possveis em {T1 = n e X0 = 1} so sempre da forma: comea em w0 = 1 salta
em seguida para w1 = 2 e ca l n 1 vezes e, depois, volta pela primeira vez
a 1 = wn exatamente no tempo n. No existem restries sobre wt para t > n.
Isto , neste caso estamos calculando
P ({X0 = 1, X1 = 2, X3 = 2, ..., Xn1 = 2, Xn = 1})
que tem o valor acima.

Logo,

n
f11 = f11 =
n1
i i
i i
i i

i i
2.5 Critrios de Recorrncia e Transincia 105
P (T1 = 1|X0 = 1) + P (T1 = 2|X0 = 1) + P (T1 = 3|X0 = 1)+
P (T1 = 4|X0 = 1) + . . . =
0, 2 + (0, 3)(0.8) + (0, 7)(0, 3)(0.8) + (0, 7)2 (0, 3)(0, 8) + . . . =

0, 2 + 0, 8 [ (0, 7)k ] 0, 3 =
k0
1
0, 2 + 0, 8 0, 3 = 0, 2 + 0, 8 = 1.
1 0, 7

Logo, f11 = 1.
Da mesma forma,

n
f22 = f22 = P (T2 = 1|X0 = 2) + P (T2 = 2|X0 = 2) + P (T2 = 3|X0 = 2)+
n1
P (T2 = 4|X0 = 2) + . . . =
0, 7 + (0, 8)(0, 3) + (0, 8)(0, 2)(0, 3) + (0, 8)(0, 2)2 (0, 3) + (0, 8)(0, 2)3 (0, 3) + . . . =
1
0, 7 + 0, 3 [ (0, 2)k ] 0.8 = 0, 7 + 0, 3 0, 8 = 1.
k0
1 0, 2

Assim, f22 = 1.
Logo, todos estados so recorrentes.
2.5 Critrios de Recorrncia e Transincia

Vamos apresentar agora um critrio de recorrncia muito til. Para isto
preciso denir para cada i S , a varivel aleatria N (i) = nmero total de

visitas ao estado i, onde N (i) : N {+}.
I{i} denota o indicador do conjunto {i} S .
i i
i i
i i

i i
Assim,
{
1, se Xn = i (i.e, a cadeia est no estado i no tempo n)
I{i} (Xn ) =
0, se Xn = i (i.e, a cadeia no est em i no tempo n)

Denimos N (i) = n1 I{i} (Xn ) o nmero total de visitas ao estado i em
qualquer tempo n N.
N (i) uma varivel aleatria estendida, ou seja, uma funo mensurvel

N (i) : N {+}.
Lembre que P (|X0 = i) dene uma probabilidade em (, A) e denotada
por Pi .
Mais precisamente, para C da forma C = i, c1 , ..., cn , temos que
Pi (C) = Pic1 Pc1 c2 ...Pcn1 cn .
Se C da forma C = j, c1 , ..., cn , com j = i, ento Pi (C) = 0.

Desta forma, Pi (N (j) < ) descreve a probabilidade de que o estado j foi
atingido apenas um nmero nito de vezes, dado que se iniciou o processo com
probabilidade 1 no estado i. Saber se este nmero igual a 1 ou menor que 1
ser um dos nossos principais objetivos na presente seo.
Ei (X) denota a esperana da funo mensurvel X em relao a Pi (ver
Denio 2.16).
Para Xn : R, Pi (Xn A) = P (Xn A|X0 = i).

Ainda, Ei (Xn ) = Xn (w)dPi (w) = jS j Pi {Xn = j}.
Note que Xn tal que para cada i S o conjunto {Xn = i} uma unio de
cilindros. O valor de Ei (Xn ) pode ser obtido portanto a partir do conhecimento
de Pi apenas sobre cilindros C .
A seguir, Ei (N (j)) descreve o nmero esperado de visitas a j para uma
C.M. comeando em i.
Considere a srie de potncias na varivel real s (funes geradoras) dada
i i
i i
i i

i i
por

Fij (s) = fijn sn ,
n=0
e

n n
Pij (s) = (P )ij s = Pijn sn .
n=0 n=0
Como os valores efijn so no negativos e menores ou iguais a 1 ento

Pijn
as duas sries de potncias esto denidas pelo menos no intervalo (1, 1).
Lembre que por hiptese fii0 = 0.

Segue da Proposio 2.12 para o caso i = j que P n (i, i) = nk=1 fiik P nk (i, i),
para todo n 1. Vamos mostrar que desta expresso segue que
Fii (s)Pii (s) = Pii (s) 1.

De fato, como se sabe, se considerarmos duas sries de potncias an sn
n=0
e m=0 bm sm , ento se zermos o produto

an s
n
bm sm ,
n=0 m=0
obteremos uma nova srie de potncias

ck sk ,
k=0
onde o termo geral
ck = ak b0 + ak1 b1 + ak2 b2 + ... + a2 bk1 + a0 bk .
Por exemplo,
c4 = a4 b0 + a3 b1 + a2 b2 + a1 b3 + a0 b4 .
i i
i i
i i

i i
Sendo assim, o termo geral de

ck sk = Fij (s) Pij (s) =
k=0

fijn sn Pijn sn ,
n=0 n=0

ck = fijk Pij0 + fijk1 Pij1 + ... + fij1 Pijk1 + fij0 Pijk =
= fijk Pij0 + fijk1 Pij1 + ... + fij1 Pijk1 .
Lembre que Pij0 = 1 se i = j e Pij0 = 0 se i = j

Consideramos primeiro o caso i = j . Podemos comparar termo a termo as
duas sries de potncias

ck sk = Fii (s) Pii (s)
k=0
e

Piik sk = Pii (s).
k=0
Seja k > 1. Como

k
k
P (i, i) = fiir P kr (i, i) = fiik Pii0 + fiik1 Pii1 + ... + fii1 Piik1 = ck ,
r=1
ento os termos que multiplicam sk , para k 1, so iguais nas duas sries.

O problema o primeiro termo nas duas sries: para Pii (s) este termo
1 = P (i, i) e para Fii (s) Pii (s) este termo c0 = 0.
Para ter igualdade preciso corrigir este termo e assim obtemos que
Fii (s)Pii (s) = Pii (s) 1
i i
i i
i i

i i
ou seja,
1
Pii (s) = .
1 Fii (s)
Ainda, da mesma forma como acima, segue da propriedade P n (i, j) =
n k nk
k=1 fij P (j, j), para n 1, que
Fij (s)Pjj (s) = Pij (s).
Note que Fii (1) = fii e Fij (1) = fij .

( )
0, 2 0, 8
P= .
0, 3 0, 7
Mostramos em um exemplo anterior que para todo n 2 vale f11
n
= P (T1 =
n|X0 = 1) = (0, 3) (0, 7)n2
0, 8.
Logo, neste caso,

Fii (s) = 0, 2 s + 0, 3 (0, 7)k2 0, 8 sk =
k=2

s2
0, 2 s + s 2
0, 3 (0, 7)k2 0, 8 sk2 = 0, 2 s + 0, 3 0, 8 .
k=2
1 s 0, 7
A partir de
1
P11 (s) = ,
1 F11 (s)
podemos obter a expresso analtica de P11 (s), e desenvolvendo em srie de
potncias (tomando derivadas de ordem superior de P11 (s) em s = 0) se pode
conseguir uma expresso para os distintos valores P n (1, 1).
i i
i i
i i

i i

Lema 2.1 (Lema de Abel). (a) Se n=0 an converge, ento

lim an sn = an = .
s1
n=0 n=0

(b) Suponha que an 0 para todo n, e lims1 n=0 an sn = , ento

m
an = lim an = .
m
n=0 n=0
Para uma demonstrao deste resultado veja [KT1].

Proposio 2.13. Ei (N (j)) = n
n1 P (i, j) , sempre que Pi (N (j) = +) =
0.
Demonstrao:

Ei (N (j)) = E(N (j)|X0 = i) = E( I{j} (Xn )|X0 = i).
n1
Usando o Teorema da convergncia montona

E( I{j} (Xn )|X0 = i) = E(I{j} (Xn )|X0 = i) =
n1 n1

1 P (Xn = j|X0 = i) = P n (i, j).
n1 n1
Observao : Se Pi (N (j) = +) > 0 , ento Ei (N (j)) = +.

Teorema 2.8 (Critrio de Recorrncia). i recorrente n
n1 Pii = +
n
Demonstrao: Seja i recorrente. Sendo assim n=1 fii = 1. Logo, pelo lema
de Abel (a) temos

lim Fii (s) = lim fiin n
s = fiin = 1.
s1 s1
n=0 n=1
i i
i i
i i

i i
Logo, da expresso
1
Pii (s) = ,
1 Fii (s)
temos que

lim Pii (s) = lim Piin sn = .
s1 s1
n=0
Agora, usando o item b) do lema de Abel temos

Piin = .
n=0

Isto prova a armao: i recorrente implica que Piin = .
n=0
Suponha agora que i transiente. Vamos mostrar que n=0 Pii < .
n
n
Como i transiente, ento n=0 fii < 1. Usando a parte a) do Lema de
Abel temos que

lim Fii (s) = fiin < 1.
s1
n=0
Logo usando a expresso
1
Pii (s) = ,
1 Fii (s)
obtemos que
lim Pii (s) < .
s1
Sendo assim, usando a parte b) do Lema de Abel conclumos que

Piin < .
n=0
Fica assim demonstrado o que arma o Teorema.
i i
i i
i i

i i
Corolrio 2.1. i recorrente, se e s se, o nmero esperado de retornos a i

comeando em i, ou seja, Ei (N (i)) innito.
Observe que: {N (j) 1} = {Tj < +} pois o nmero de visitas ao estado

j pelo menos 1 se e s se o tempo da primeira visita a j nito.
Ento, Pi (N (j) 1) = Pi (Tj < +) = fij .
Teorema 2.9. Seja i j. Ento
(a) j transiente se e s se, i transiente.

(b) j recorrente se e s se, i recorrente.

(c) No caso b), temos que fij = 1 = fji
Demonstrao: Suponha que i transiente. Seja j tal que i j .

Seja n e m tais que P n (i, j) > 0 e P m (j, i) > 0.
Considere agora um r N xo.
Ora,

P n+r+m (i, i) = P n (i, k) P r (k, s) P m (s, i) P n (i, j) P r (j, j) P m (j, i) > 0.
k,s
Logo, pelo Teorema 2.8, temos que

1
P (j, j) n
r
m (j, i)
P n+r+m (i, i) < .
r=0
P (i, j) P r=0
Sendo assim, pelo mesmo Teorema 2.8 temos que j transiente.
Podemos intercambiar i e j no raciocnio acima.
Isto prova a) e b).
Vamos agora mostrar o item c). Suponha que i j e fji < 1. Vamos
mostrar que ento fii < 1.
Seja m o menor nmero natural tal que Pijm > 0. Logo existe uma sequncia
i1 , i2 , .., im1 tal que
P (i, i1 )P (i1 , i2 )...P (im1 , j) > 0.
i i
i i
i i

i i
Como m mnimo, ento ir = i para todo r {1, 2, ..., m 1}.

Se fji = n1 fjin < 1 ento
Pi (Ti = ) P (i, i1 )P (i1 , i2 )...P (im1 , j) (1 fji ) > 0.
Observe que (1 fji ) a probabilidade de comeando em j no voltar

em tempo nito a i. Note tambem que conjunto dos caminhos w S N da
forma w = (i, i1 , i2 , ..., im1 , j, wm+2 , wm+3 , ...), onde (j, wm+2 , wm+3 , ...) um
caminho que no volta a i em tempo nito, esta contido em {w | Ti (w) = }.
Desta forma, fii < 1.
Portanto, se fii = 1, ento fji = 1.
O resultado para fij segue da mesma maneira.
O que o teorema acima est dizendo que se uma classe contm um estado
recorrente ento todos os estados nesta classe so recorrentes. Sendo assim,
para uma cadeia irredutvel, se um estado recorrente, todos os outros estados
tambm o so.
Exemplo 2.30. Passeio Aleatrio Simples em Z indexado por 0 < p < 1.

P (i, i + 1) = p, P (i, i 1) = 1 p, onde 0 < p < 1. Ainda P (i, j) = 0 para
todo j = i 1 ou j = i + 1.
fcil ver que a cadeia irredutvel. Resta saber se transitria ou
recorrente. Basta analisar o estado i = 0!!
Para isto, note que P ( (0,)0) = 0, se n mpar.
n
2m m
Ainda, P 2m (0, 0) = p (1 p)m .
m
fcil mostrar isto: considere um caminho amostral qualquer w; note que
comeando em 0 (ou seja w0 = 0), para voltar a 0 exatamente em tempo 2m,
temos que, no total, m vezes o caminho vai para cima (sobe 1) e m vezes vai
para baixo (desce 1).
i i
i i
i i

i i
( )
2m
O nmero C2m m
= descreve o nmero de possibilidades de se obter
m
m eventos cara e m eventos coroa quando se lana uma moeda 2m vezes. As
probabilidades pm e (1 p)m surgem dos valores da matriz de transio.

A frmula de Aproximao de Stirling arma que: n! = 2nn+ 2 en .
1
Portanto,
1
2m
(2m)! m 1 (2m)2m+ 2 m e
P 2m
(0, 0) = [p(1 p)] = [p(1 p)] =
m!m! 2 m2m+1 em em
1
1 m2m .m 2 22m 1 1 m
22m+1/2 2m [p(1 p)]m = [p(1 p)]m = 4 [p(1 p)]m .
2 m .m m m

Se p = 1/2 : 2m 1 m 1 1 1
m1 P (0, 0) = m1 m 4 4m = m1 m1/2 =

+ ento, neste caso, 0 recorrente, pois E0 (N (0)) = n
n1 P (0, 0) =

m1 P
2m
(0, 0) = . Sendo assim, f00 = 1, e como todos os estados se
comunicam, pelo ltimo Teorema, temos que fii = 1 e fij = 1, para todo
i, j N.
Se p = 1/2: ento p (1 p) < 1/4. Assim, a soma em m com termos

1
m
4m
[p(1 p)]m
converge (teste da razo). Logo, m1 P
2m
(0, 0) < +, e
ento, neste caso, todos os estados so transitrios.
Proposio 2.14. (i)Pi (N (j) 2) = fij fjj

;
(ii)Pi (N (j) n) = fij [fjj

n1
] ;
n1
(iii)Pi (N (j) = n) = fij [fjj ] (1 fjj ).
Demonstrao:
(i)
[ ]
a 1a visita a j ocorre na etapa m
Pi (N (j) 2) = Pi =
m,n1
e a 2a visita a j ocorre na etapa m + n
i i
i i
i i

i i

= Pi [Xr = j, r {1, 2, ..., m 1}, Xm = j, Xt = j,
m,n1
t {m + 1, ..., m + n 1}, Xm+n = j ] =

= Pi [Xr = j, r {1, 2, . . . , m 1}, Xm = j] Pi [Xt = j,
m,n1
t {m+1, m+2, . . . , m+n1}, Xm+n = j|Xr = j, r {1, 2, ..., m1}, Xm = j ] =

Pi (Tj = m) P (Xt = j,
m,n1
t {m + 1, . . . , m + n 1}, Xm+n = j|X0 = i, Xr = j
e Xm = j, r {1, . . . , m 1}) =

Pi (Tj = m)P (Xt = j, t {m+1, . . . , m+n1}, Xm+n = j|Xm = j) =
m,n1

Pi (Tj = m) P (Xt = j, t {1, . . . , n 1}, Xn = j|X0 = j) =
m,n1

Pi (Tj = m) Pj (Tj = n) = n
fijm fjj
= fij fjj .
m,n1 m,n1
ii) demonstrao anloga ao caso (i);

iii) Pi (N (j) = n) = Pi (N(j) n) Pi (N(j) n + 1).
i i
i i
i i

i i
Observao :
1)[N (j) 1] [Tj < +].

n
2)Pj (N (j) n) = [fjj ] = [Pj (Tj < +)]n .
Proposio 2.15. Seja X : S R. Seja i S, ento Ei (X) =

m1 Pi (X m).
Demonstrao: Ora,

Ei (X) = n Pi (X = n) = Pi (X = n) + Pi (X = n) + ... + Pi (X = n) .
| {z }
n1 n1 n vezes
Como todos os termos envolvidos so positivos podemos alterar a ordem

de soma, e assim se obtm

Ei (X) = ( Pi (X = m) + Pi (X = m + 1) + ... + Pi (X = m + n) + ... ) =
m1

Pi (X = m + n) = Pi (X m).
m1 n0 m1

Teorema 2.10. I) Se j um estado transitrio, ou seja fjj < 1, ento
(1i) Pi (N (j) < +) = 1 , i S ;

fij
(1ii) Ei (N (j)) = 1f , i S (neste caso P (i, j) 0 pela Prop 2.13).
n
jj
II) Se j um estado recorrente ento
(2i) Pj (N (j) = +) = 1;

(2ii) Pi (N (j) = +) = fij , i S ;
{
+, se fij > 0, i S
(2iii) Ei (N (j)) =
0, se fij = 0.
i i
i i
i i

i i
Demonstrao:
(1i) Pi (N (j) = +) = limn Pi (N (j) n) = limn fij [fjj

n1
] = 0

pois fjj < 1.
Logo, Pi (N (j) < +) = 1.
(1ii) Utilizando a ltima proposio temos

Pi (N (j) = +) = 0 Ei (N (j)) = Pi (N (j) n) =
n1
1 fij
n1
fij [fjj ] = fij n1
[fjj ] = fij
=
.
n1 n1
1 fjj 1 fjj
n1
(2i)Pj (N (j) = +) = limn+ Pj (N (j) n) = limn fjj [fjj ] =
n
limn [fjj ] = limn 1 = 1, pois fjj = 1. Logo, Pj (N (j) = +) = 1.
(2ii)Pi (N (j) = +) = limn+ Pi (N (j) n) = limn fij [fjj n1
] =

limn fij 1 = fij , i S .
{
+, se P (N (j) = +) > 0
(2iii)Ei (N (j)) = n1 P n (i, j) =
0, se P (N (j) = +) = 0.
Algumas consideraes sobre o ltimo Teorema:

a) se j um estado transitrio e i S , ento existe um conjunto K S N
tal que Pi (K) = 1 e para todo = (wt )tN K , o nmero de ocorrncias wt = j
nito. O nmero mdio de visitas a j tambm nito.
b) se j um estado recorrente ento existe um conjunto K S N tal que
Pj (K) = 1 e para todo = (wt )tN K , o nmero de ocorrncias wt = j
innito.
Dado S e P , denotamos por SR o conjunto dos elementos recorrentes e por

ST o conjunto dos elementos transientes.
Teorema 2.11. Se uma cadeia de Markov irredutvel possui um vetor invari-

ante , ento a cadeia recorrente.
i i
i i
i i

i i
Demonstrao: Suponha que a cadeia no recorrente (ou seja, possua ele-

mentos no recorrentes). Ento, n Pijn < para todo i, j em S .
Em particular, para cada i, j S temos que
lim Pijn = 0.
n
Como invariante, temos que

j = i Pijn ,
iS
para qualquer n > 0.

Segue da prxima proposio que para cada j

j = lim i Pijn = lim i lim Pijn = i 0 = 0.
n n n
i=1 i=1 i=1
Ora,

j = 1.
j
Quando S = {1, 2, ..., d} nito, temos

1= j = lim i Pijn = i lim Pijn = 0,
n n
jS jS iS jS iS
contradio. Quando S innito preciso ter cuidado pois estamos lidando

com um limite duplo em i e em n. Precisamos lanar mo do seguinte resultado:
Proposio 2.16. Seja uma coleo de nmeros reais {xn,i } com n, i N.

Suponha que
lim xn,i = ai ,
n
para cada i xo, onde ai R. Suponha ainda que

sup |xn,i | < .
n
i=1
i i
i i
i i

i i
Ento,

lim xn,i = ai .
n
i=1 i=1
No apresentaremos a prova de tal proposio (uma prova elemementar

aparece no apndice A4 de [Ro]). Este resultado tambm pode ser obtido a
partir do Teorema da convergncia dominada da Teoria da Medida [Fe].
Seja agora j xo ai = 0 e xni = i Pijn i 1 = i , assim

j = lim i Pijn = 0 = 0.
n
i=1 i=1

Logo, todo j = 0, o que contraria j=1 j = 1.
No passeio aleatrio com p = 1/2 todos os estados so transientes. Por-

tanto, o resultado acima nem sempre se aplica ao caso S innito.
Exemplo 2.31. Considere S = {0, 1, 2, 3, 4, 5} e a C.M. com matrizes de

transio dada por

1 0 0 0 0 0

1/4 1/2 1/4 0 0 0

0 1/5 2/5 1/5 0 1/5
P=
0
.

0 0 1/6 1/3 1/2

0 0 0 1/2 0 1/2
0 0 0 1/4 0 3/4
Olhando o grafo associado a P , que exibido na Figura 2.7, pode-se facil-

mente descobrir as classes: basta seguir sucessivamente as setas em que existe
passagem.
C0 = {0} recorrente pois 0 absorvente,
C1 = {1, 2} pois 1 2,
i i
i i
i i

i i
Figura 2.7:
C2 = {3, 4, 5} pois 3 4 e 3 5.

Desejamos calcular f11 . Observe que para um dado = (wt ), se wt0
{3, 4, 5} para algum t0 ento wt {3, 4, 5} para t > t0 e o caminho no

retorna mais a 1 (com P -probabilidade 1). Logo no clculo de f11 no entram
os caminhos que passam por {3, 4, 5}.

2
f11 = n1 f11 n
= 0, 5 + 41 15 + 41 25 15 + 14 25 15 + . . . = 0, 5 + 20 1 2 n
n0 ( 5 ) =
1 1 1 5 1 7
0, 5 + 20 1 25
= 0, 5 + 20 3
= 0, 5 + 12 = 12 <1
Isto porque os a serem considerados, comeam em 1, saltam para 2 e
cam l at retornar pela primeira vez a 1.
f
Logo, C1 = {1, 2} transitrio. E1 (N (1)) = 1f11 = 5/12 7/12
= 57 ;P1 (N (2) <
11
+) = 1.
Observe que

2
f33 = n1 f33 n
= 16 + ( 13 12 + 12 41 ) + ( 13 12 14 + 12 34 14 ) + ( 13 12 34 14 + 12 34 14 ) + . . . =
1

6
+ 16 + 241 3 n
n0 ( 4 ) + 8
1 3 n 1 1 1
n0 ( 4 ) = 3 + 24 4 + 8 4 = 3 + 6 + 2 = 1
1 1 1

Logo, C2 = {3, 4, 5} recorrente. E(N (3)) = + j que f33 = 1 > 0;

P3 (N (3) = +) = 1 e P2 (N (3) = +) = f23 .
Temos ento: estados Recorrentes ={0} {3, 4, 5} = SR e estados Tran-

sientes = {1, 2} = ST . Sendo assim, S = SR ST .
i i
i i
i i

i i

Denio 2.19. Uma classe C dita fechada se jC P (i, j) = 1 , i C .

Observe no Exemplo 2.31 que jC1 ={1,2} P (1, j) = P (1, 1) + P (1, 2) =
1
2
+ 4 = 1. Logo, C1 no fechada. Isto mostra que uma classe irredutvel,
1
pode no ser fechada.

Ainda, jC2 P (3, j) = P (3, 3) + P (3, 4) + P (3, 5) = 6 + 3 + 2 = 1 ;
1 1 1

jC2 P (4, j) = P (4, 3) + P (4, 4) + P (4, 5) = 2 + 0 + 2 = 1 e
1 1
jC2 P (5, j) =
P (5, 3) + P (5, 4) + P (5, 5) = 14 + 0 + 43 = 1.
Portanto, C2 fechada.
Mostraremos, no Teorema 2.15, que toda classe irredutvel recorrente
fechada.
Ainda C0 fechada pois 0 absorvente.
Exerccio: Seja (Xn )n0 uma C.M. com S = {0, 1, 2, 3, 4}, e matriz de tran-
sio dada por

1 1 1
0 0
3 3 3

0 0 0 1 1
2 2

P = 0 0 1 0 0 .

2 1 0 0 0
3 3

1 1
2 2
0 0 0
Mostre que a classe de equivalncia C1 = {0, 1, 3, 4} no fechada.
Observao : Seja S N conjunto e P matriz estocstica. Suponha que C S

classe fechada. Neste caso ca bem denida uma nova matriz estocstica P1
do tipo #C por #C que obtida a partir de P restringindo as entradas ij tais
que i, j S .
i i
i i
i i

i i
No exemplo anterior, podemos restringir a matriz P sobre {0, 1, 2, 3, 4, 5}

classe fechada C2 = {3, 4, 5}. Obtemos assim a matriz

1/6 1/3 1/2

P1 = 1/2 0 1/2 .
1/4 0 3/4
Uma classe fechada existe como se fosse independente do sistema maior,

no presente caso sobre S = {0, 1, 2, 3, 4, 5}.
Muitas vezes estaremos interessados em saber o comportamento de camin-
hos tpicos w a longo prazo, ou seja, o que acontece com wn quando n ?
O conjunto dos caminhos w que em algum tempo entram em C2 , dali no
saem (para tempo futuro) e seu comportamento a longo prazo, como ser
discutido na seo 1.8, ser descrito pela matriz P1 .
Por outro lado, os caminhos w que eventualmente atingem em algum tempo
o estado 0 (que absorvente), cam, a partir deste tempo, para sempre em 0.
O comportamento a longo prazo, neste caso, trivial.
Finalmente, os estados 1, 2, por serem transientes no sero observados a
longo prazo. Isto ser formalmente descrito em um teorema que vamos abordar
em breve que arma que, neste presente exemplo, vale para todo i S xado,
Pi ( = (wt )tN | existe t0 N tal que t > t0 temos wt = 1 e wt = 2) = 1.
Se xarmos uma probabilidade inicial e considerarmos a correspondente

probabilidade P , tambm vale que
P ( = (wt )tN | existe t0 N tal que t > t0 temos wt = 1 e wt = 2) = 1.
Exemplo 2.32. Considere (Xn )n 0 a C.M. com S = N e a matriz de

transio P dada por
i i
i i
i i

i i

1/2 1/2 0 0 0 ...

1/2 0 1/2 0 0 . . .
P=
1/2 0
.
0 1/2 0 . . .

.. .. .. .. ..
. . . . .

a) Vamos calcular f00
n
e f00 .
b) A seguir vamos determinar fii para i = 0.
Vamos comear o procedimento de clculo.

a) Desejamos primeiro calcular f00 n
= n0 f00 = n1 P (T0 = n|X0 = 0).
Observe que
1
f00 = P (T0 = 1|X0 = 0) = 1/2 = (0, 5)
f00 = P (T0 = 2|X0 = 0) = 1/2 1/2 = (0, 5)2
2
3
f00 = P (T0 = 3|X0 = 0) = (0, 5)3 .

Logo, f00 = n1 f00n 0,5
= n1 (0, 5)n = 10,5 = 1.
Desta forma, o estado 0 recorrente.
b) Vimos em prova que, quando 0 < p < 1, C0 = S irredutvel. Assim,
todos os estados em S so recorrentes.
Observe que aqui p = 0, 5 e assim
1
f11 = P (T1 = 1|X0 = 1) = 0,
2
f11 = P (T1 = 2|X0 = 1) = (0, 5)(0, 5),
3
f11 = P (T1 = 3|X0 = 1) = (0, 5)(0, 5)(0, 5) + (0, 5)(0, 5)(0, 5) = 2(0, 5)3 ,
4
f11 = P (T1 = 4|X0 = 1) = 3(0, 5)4 .
Logo, f11
n
= (n 1)(0, 5)n , n 2.
Portanto,

f11 = (n 1)(0, 5)n = n(0, 5)n (0, 5)n =
n2 n2 n2
i i
i i
i i

i i

= (0, 5) n(0, 5)n1 (0, 5)n = (0, 5)( (0, 5)n ) ( (0, 5)n 10, 5) =
n2 n2 n2 n0
1 1 1
0, 5( 1)( 1, 5) = 0, 5( 1)(21, 5) = 1, 50, 5 = 1
(1 0, 5)2 1 1/2 0, 25
Concluso: fii = 1, i = 0.
Teorema 2.12. Toda cadeia de Markov em que S nito, possui ao menos
um estado estado recorrente.
Demonstrao: Toda cadeia de Markov P com S nito possui uma autovetor p

(associado ao autovalor 1) conforme Teorema 2.3, logo, se for irredutvel, neste
caso, cada estado recorrente. Toda cadeia de Markov P com S nito vai
possuir um subconjunto fechado e irredutveis Cl (conforme futuro Teorema
2.17). Logo restringindo a cadeia P a tal subconjunto Cl obteremos tambm
pelo mesmo Teorema 2.3, neste caso, a existncia de estados recorrentes. Con-
clumos que se P nita ento sempre existem estados recorrentes.
Note que no passeio aleatrio com p = 1/2 (Exemplo 2.13) todos os estados
so transientes.
Exemplo 2.33. Considere a C.M. (Xn ), n 0, sobre S = {0, 1, 2, 3, 4}, cuja

matriz de transio dada por

0 0 12 1
0
2

0 0 1 0 0

P=
1 0 0 0 0
.

1/9 0 3/9 0 5/9
1/9 0 0 5/9 3/9
Este caso j foi considerado antes no Exemplo 2.17. Note que 1 passa para
2 e depois no volta mais a 1.
i i
i i
i i

i i
fcil ver que existem apenas duas classes: C0 = {0, 2, 3, 4} e C1 = {1},

que C0 classe recorrente e C1 classe transiente.
Vamos analisar se os estados na classe C0 so recorrentes.
Podemos considerar a matriz acima restrita ao conjunto C0 . Obtemos assim
a matriz estocstica
1 1

0 2 2
0
1 0
0 0
P = .
1/9 3/9 0 5/9
1/9 0 5/9 3/9
J sabemos do Exemplo 2.17 que esta matriz tem o vetor

58 47 54 45
=( , , , )
204 204 204 204
como vetor estacionrio para P .
Sendo assim, pelo Teorema 2.11 temos que todo estado em {0, 2, 3, 4}
recorrente.
Proposio 2.17. Se j um estado transiente, ento limn P n (i, j) = 0,

i S xo.

Demonstrao: Ei (N (j)) = n1 P n (i, j) < , ou seja, a srie absoluta-
mente convergente Ento, o termo geral da srie converge a zero, i., i S.
lim P n (i, j) = 0.
n
Logo, se j transiente, ento a probabilidade Pi (Xn = j) de que o pro-

cesso esteja no estado j converge a zero, qualquer que tenha sido o estado
inicial i xado.
i i
i i
i i

i i
O prximo resultado j foi obtido em um teorema anterior, mas vamos

apresentar a seguir uma outra prova.
Teorema 2.13. Se j transiente ento para iS qualquer vale que
Pi ( = (wt )tN : existe t0 N tal que para t > t0 temos wt = j ) = 1.
Demonstrao: Ora,

m=1 n=m {wn = j} =
{ = (wt )tN : existe t0 N tal que para t > t0 temos wt = j}.

Ainda, para m xo

Pi (
n=m {wn = j}) Pi (Xn = j).
n=m
Como,

Pi (Xn = j) < ,
n=1
ento, para cada m a sequncia

am = Pi (Xn = j),
n=m
converge a zero.
Logo,
Pi (
m=1 n=m {wn = j}) = lim Pi (n=m {wn = j})
m

lim Pi (Xn = j) = 0,
m
n=m
pois a seqncia de conjuntos decrescente.
i i
i i
i i

i i
Note que no caso em que S innito, dado um vetor de probabilidade e

uma matriz P no necessariamente verdade que a probabilidade P associada
satisfaa
P ( = (wt )tN , , tal que existe t0 N tal que para t > t0 temos wt = j ) = 1.
Teorema 2.14. Seja S nito, dado um vetor de probabilidade e a matriz de
transio P. Ento
P ( = (wt )tN , , tal que existe t0 N tal que para t > t0 temos wt
/ ST ) = 1.

Demonstrao: Como para cada i S e j ST vale que n=1 Pi (Xn =
j|X0 = i) < , ento

i Pi (Xn = j|X0 = i) < .
jST iS n=1
Logo,

P (Xn ST ) = i Pi (Xn ST |X0 = i) <
n=1 iS n=1
Para cada m considere

am = P (Xn ST ),
n=m
ento am converge a zero.

O resto da prova idntico ao teorema anterior.
Teorema 2.15 (Teorema da Decomposio em Peas Irredutveis).

Toda classe irredutvel e recorrente fechada. Ainda, considere a relao de
i i
i i
i i

i i
equivalncia i j, e denote por ST o conjunto dos elementos transientes.
Ento S pode ser decomposto em
S = ST C1 C2 ... Cn ...
onde cada classe Cr fechada, irredutvel e recorrente.
Demonstrao: Sejam as classes de equivalncia obtidas pela relao de equiv-

alncia i j e denote aquelas com elementos recorrentes por Cr . Os elementos
transientes cam todos colocados no conjunto ST .
Cada classe Cr irredutvel, logo basta mostrar que toda classe irredutvel
e recorrente fechada.
Suponha que i Cr e j / Cr . Se por absurdo P (i, j) > 0, ento como no
existe n tal que P n (j, i) > 0, temos que
P (Xn = i para todo n N | X0 = i) =
P (Xn = i para todo n > 1 , X0 = i)

=
P (X0 = i)
P (Xn = i para todo n > 1 , X1 = j X0 = i)
+
P (X0 = i)
P (Xn = i para todo n > 1 , X1 = j , X0 = i)

P (X0 = i)
=
P (X0 = i)
+
P (X0 = i)
P (Xn = i para algum n > 1 , X1 = j , X0 = i)
=
P (X0 = i)
P (X1 = j , X0 = i)
=
P (X0 = i)
i i
i i
i i

i i
= P (X1 = j | X0 = i) = Pij > 0.

Chegamos assim a uma contradio com o fato que i recorrente.
Acima usamos o fato que
P (Xn = i para algum n > 1 , X1 = j , X0 = i)

P (X0 = i)

n>1 P (Xn = i , X1 = j , X0 = i)
= 0,
P (X0 = i)
que segue da hiptese de que no existe m tal que P m (j, i) > 0.
Teorema 2.16. Com probabilidade 1 os caminhos amostrais so tais que se
wt0 Cr para algum t0 e r ento wt Cr para todo t t0 .
Este resultado ser demonstrado mais tarde.
Proposio 2.18. O conjunto ST de estados transientes em uma C.M. nita
P no fechado.
Demonstrao: Dada a matriz P e o conjunto fechado ST podemos considerar

uma nova matriz P1 que a restrio de P a ST . Como vimos antes toda
cadeia de Markov nita possui um estado recorrente, e isto uma contradio
pois P1 nita.
Observaes :
I) Toda C.M. com espaos de estados nito possui pelo menos um estado
recorrente.
II) Seja C um conjunto de estados nito, fechado e irredutvel. Ento, todo
estado em C recorrente.
III) Se uma C.M. tal que um = (wt ) comea no conjunto de estados
transientes T (isto , w0 ST ), ento ou ela permanece em ST para sempre ou
i i
i i
i i

i i
em algum momento ela entra em um dos conjuntos Cr S ST irredutveis

(isto , existe t0 tal que wt Cr para t t0 ) e permanece, a partir deste
momento, visitando todos os estados em Cr innitas vezes. Se S nito em
algum tempo t0 nito o valor wt0 vai atingir algum elemento em S ST . Se S
innito isto pode no ocorrer.
Segue dos dois ltimos resultado acima que quando S nito, dada uma
matriz P podemos restring-la a cada Cr irredutvel e analisar individualmente
a matriz estocstica sobre o conjunto Cr . Deste modo a hiptese que faremos
em vrios resultados que seguem matrizes irredutveis no nenhuma grande
restrio. Isto porque para uma probabilidade qualquer P xada, com prob-
abilidade 1 os caminhos so tais que para t0 grande wt0 / ST e assim wt0
entra em um certo conjunto irredutvel Cr e portanto para t > t0 temos que
wt Cr . Logo, se estamos interessados no comportamento de = (wt )tN
quando t grande o que importa o comportamento em cada Cr . Referimos
a prova do prximo resultado a [I].
Teorema 2.17. Seja S nito e considere g() = (I P) o polinmio

det
caracterstico da matriz P . Sabemos que 1 raiz de g pois = 1 autovalor
de P (quando S nito sempre existe p tal que p P = p). A multiplicidade de
1 como raiz de g o nmero de classes irredutveis fechadas de P .
Corolrio 2.2. Se 1 tem multiplicidade 1 para g() = det (I P) ento P

irredutvel.
Exemplo 2.34. A matriz

1 0 0

P = 0 1/2 1/2
0 1/3 2/3
tem polinmio caracterstico g() = ( 1) ( 2 7/6 1/6 ) = (
1)2 ( (1/6) ). Note que 1 tem multiplicidade 2 como raz do polinmio g .
i i
i i
i i

i i
2.6 Periodicidade e Aperiodicidade 131
Logo, existem duas classes irredutveis.

Este resultado muito til pois permite detectar se P irredutvel apenas
analisando as razes de um polinmio de grau d = #S , ou seja, analisando as
razes de g() = 0.
2.6 Periodicidade e Aperiodicidade

No que segue, mdc. signica mximo divisor comum. Por exemplo, o m.d.c
de 6, 8, 10, 12 2.
Denio 2.20. Seja (Xn ), n 0 uma C.M. com espaos de estados S. Seja
i S.
(a) O perodo de i denido como
{
mdc{n 1|P n (i, i) > 0}, se {n 1|P n (i, i) > 0} =

d(i) =
0, se n 1, P (i, i) = 0
n
(b) Se d(i) > 1, dizemos que i peridico com perodo d(i).
(c) Se d(i) = 1, dizemos que i aperidico.
Assim, P d(i) (i, i) > 0.

Se d(i) o perodo de i ento Piin > 0 apenas para n da forma n = k d(i)
onde k N.
Por exemplo, se d(i) = 6, ento Pii6 > 0 e ainda Pii12 > 0. De fato, Pii12 =

jS Pij Pji Pii Pii > 0. Da mesma forma Pii > 0. No entanto, Pii = 0,
6 6 6 6 18 7
etc. Ainda, Pii2 = 0, Pii3 = 0.

Note que se i S tal que Pii = Pii1 > 0 ento i tem perodo 1. Anal,
d(i) tem que dividir 1.
i i
i i
i i

i i
Se P (i, i) = 0 mas P 3 (i, i) > 0 e P 5 (i, i) > 0, ento necessariamente

d(i) = 1.

0 1 0

P = 0 0 1
1 0 0

irredutvel e para cada i {1, 2, 3} temos que d(i) = 3. Note que fi,i 3
= fi,i =
1, para qualquer i. O vetor (1/3, 1/3, 1/3) o nico invariante para P.
Se considerarmos a probabilidade inicial (1, 0, 0) a probabilidade induzida
pelo Processo Markoviano em {1, 2, 3}N
1 1 1
z1 + z2 + z3 ,
3 3 3
onde
z1 = (1, 2, 3, 1, 2, 3, 1, 2, 3, ..),
z2 = (2, 3, 1, 2, 3, 1, 2, 3, 1, ..)
e
z3 = (3, 1, 2, 3, 1, 2, 3, 1, 2, ..).
Exemplo 2.36. Passeio Simples em Z indexado por 0 < p < 1.

P (i, i + 1) = p, P (i, i 1) = 1 p, i, onde 0 < p < 1. Ainda, P (i, j) = 0
se i = i 1 ou i = i + 1.
Neste caso, P n (i, i) = 0, n mpar e P n (i, i) > 0 n par, {n 1|P n (i, i) >
0} = {2, 4, 6, 8, 0, ...}, conforme vimos anteriormente.
O mximo divisor comum do conjunto acima 2. Logo, 2 o perodo da
C.M.
i i
i i
i i

i i
Exemplo 2.37 (A Cadeia de Ehrenfest). Neste caso, S = N e cada valor

n descreve a populao de um certo pas ou cidade. Vamos supor que dado
que a populao de i habitantes, ento em uma unidade de tempo, existe a
probabilidade qi uma pessoa morrer, ri da populao permanecer a mesma e
pi de nascer uma pessoa. Naturalmente, qi + ri + pi = 1, e se i = 0, ento q0
no faz sentido e portanto r0 + p0 = 1.
Deste modo a cadeia de Markov, da forma N por N, dada por

r0 p0 0 0 0 ...
q r p 0 . . .
1 1 1 0
P=
0 q2 r2 p2 0 . . .
. . . . . ...
Onde, r0 + p0 = 1, p0 > 0, r0 0, qi + ri + pi = 1, i 1, ri 0, pi > 0,

qi > 0, P (i, i + 1) = pi , P (i, i 1) = qi , P (i, i) = ri , i 0 e ainda P (i, j) = 0
nos outros casos.
Se algum ri > 0 ento i tem perodo 1 ( aperidico)
fcil ver que se ri = 0 para todo i, a cadeia tem todos os estados peridicos
( tambm irredutvel) e d(i) = 2. Se ri > 0 para algum i, ento todos os
estados so aperidicos.
Observao : A classe das Cadeias de Nascimento e Morte contm:

(a) Os passeios de Bernoulli ri = 0 , para todo i S = N.
Exemplo 2.38. A cadeia de Ehrenfest semelhante ao caso anterior, mas

agora S = 0, 1, 2, ..., d. Neste caso a matriz P do tipo d + 1 por d + 1 dada
por
i i
i i
i i

i i

r0 p0 0 0 0 ... 0 0 0

q1 r 1 p 1 0 0 ... 0 0 0

P=
0 q2 r 2 p 2 0 ... 0 0 0

. . . . . ... . . .
0 0 0 0 0 ... 0 qd rd
onde, p0 = 1, r0 = 0, pi = 1 di , qi = di , ri = 0, P (0, 1) = 1, P (d, d + 1) = 1
e P (i, j) = 0 nos outros casos.
Neste exemplo, d(i) = 2 para todo i S .
Note que se P for irredutvel peridica ento P (i, i) = 0 para todo i S .

Vamos agora analisar algumas das principais propriedades de d(i), i S .
Proposio 2.19. Se ij ento d(i) = d(j).
Demonstrao: Sejam Ai = {n 1 : P n (i, i) > 0} e Aj = {n 1 : P n (j, j) >

0}.
Precisaremos de duas propriedades.
Armao 1:
Seja m Ai . Ento, d(j) divide m.
Observe que da armao "d(j) divide todo m " segue que, como, d(i) o
mximo com tal propriedade, ento vale d(j) d(i).
Armao 2:
Seja m Aj . Ento, d(i) divide m .
Observe que da armao segue que, como, d(j) o mximo com tal pro-
priedade, ento vale d(i) d(j).
d(i) divide m d(i) divide d(j) d(i) d(j) (2.1)
Das duas armaes, segue que que d(i) = d(j).
i i
i i
i i

i i
Vamos agora provar as armaes acima.

Prova da Armao 1: seja m Ai . Ento P m (i, i) > 0.
Como i j ento a > 0, b > 0 tal que P a (i, j) > 0 e P b (j, i) > 0. Da,

P b+m+a (j, j) = P b (j, k)P m (k, l)P a (l, j)
k l
P (j, i)P (i, i)P a (i, j) > 0

b m
Ento, b + m + a Aj e assim d(j) divide b + m + a.

Mas P m (i, i) > 0 P 2m (i, i) > 0. Logo pelo mesmo argumento acima,
d(j) divide b + 2m + a. Portanto, d(j) divide (b + 2m + a) (b + m + a) = m.
Isto , d(j) divide m.
A prova de (2.1) semelhante.
Desta forma podemos falar no perodo de um conjunto irredutvel C S .

o perodo de algum de seus elementos. Note que se um elemento numa classe
aperidico ento todos nesta classe tambm o so.
Diremos que uma cadeia (uma matriz estocstica) irredutvel aper-
idica se algum estado aperidico
A demonstrao do prximo teorema razoavelemente complexa e o leitor
pode salt-la numa primeira leitura.
Teorema 2.18. Seja S nito e P irredutvel. Considere iS e d(i) o seu
perodo (que no depende de i). Ento existe ni > 0 (dependendo apenas de

i tal que n ni , P n d(i)
(i, i) > 0. Isto , n d(i) um tempo de retorno a i
md
(no aleatrio). Ainda, existe N > 0 tal que P (i, i) > 0, para todo m > N ,
independente de i.
Demonstrao:
Seja A = Ai = {n {1, 2, 3, ..}; P n (i, i) > 0}.

Se A = , ento d(i) = 0 e P n d(i) (i, i) = 1 > 0.
i i
i i
i i

i i
Se A = , ento existe n0 A, e assim, P k n0 (i, i) P n0 (i, i) ...P n0 (i, i) > 0,

k N, e assim A contm ao menos os multiplos de tal n0 .
Seja B = {b1 n1 + b2 n2 + ... + bk nk ; b1 , b2 , ..., bk Z; n1 , n2 , ..., nk A,
k N}.
Como todo os d(i) so iguais , ento vamos denot-lo por d.
Armao: d Z = B.
De fato, primeiro note que B Z. Considere B + = {m B; m > 0}.
Ento, pelo princpio da boa ordenao existe m0 B + tal que m B + ,
temos que m0 m.
Provaremos primeiro que m0 Z = B .
1) Seja z Z. Como m0 B , ento existem b1 , b2 , ..., bk Z; n1 , n2 , ..., nk
A, tais que m0 = b1 n1 + b2 n2 + ... + bk nk . Logo m0 z = (b1 z) n1 + (b2 z) n2 +
... + (bk z) nk B . Assim, m0 Z B .
2) Seja m B , ento existem b1 , b2 , ..., bk Z; n1 , n2 , ..., nk A, tais que
m = b1 n1 + b2 n2 + ... + bk nk . Logo, m = (b1 ) n1 + (b2 ) n2 + ... + (bk ) nk .
Desta forma, |m| B + .
Assim, podemos assumir que m positivo.
Pelo algoritmo da diviso, existem q, r N tais que m = q m0 + r, 0 r
m0 . Desta forma, 0 r = m q m0 < m0 .
Observe que r B , porque m, m0 B . Ora, como 0 r < m0 , temos que
r = 0. Assim, m = q m0 . Logo B m0 Z. Conclumos assim que B = m0 Z.
Agora vamos provar que m0 = d (o que vai implicar que B = d Z).
Suponha que m0 = b1 n1 +b2 n2 +...+bk nk , onde b1 , b2 , ..., bk Z; n1 , n2 , ..., nk
A.
a) Como d = mdc (A), temos que existem r1 , r2 , ..., rk N, tais que nj =
rj d. Ento,
m0 = b1 n1 + b2 n2 + ... + bk nk = b1 (r1 d) + b2 (r2 d) + ... + bk (rk d) =
d(b1 r1 + b2 r2 + ... + bk rk ).
i i
i i
i i

i i
Como m0 , d > 0, ento, o nmero inteiro (b1 r1 + b2 r2 + ... + bk rk ) > 0.

Assim, ele maior ou igual a 1. Desta forma, m0 d.
b) Lembre que A B = m0 Z. Assim, dado n A, existe z Z, tal que
n = z m0 . Desta forma, como d = mdc (A) e m0 um divisor de todos os
elementos de A, temos que d m0 .
Conclumos assim, que d = m0 , e nalmente que B = d Z.
Vamos mostrar agora que existe ni , tal que para todo m > ni , temos que
m d(i)
P (i, i) > 0.
Segue do acima que d = b1 n1 + b2 n2 + ... + bk nk , onde b1 , b2 , ..., bk
Z; n1 , n2 , ..., nk A.
Podemos renomear os coecientes bj , j = 1, 2..., k , obtendo outra expresso
para d, via bj , j = 1, 2..., k , de tal forma bj = bj , se bj > 0 e bj = bj , caso
contrrio. Assim,
d = (b1 n1 + b2 n2 + ... + bj nj ) (bj+1 nj+1 + bj+2 nj+2 + ... + bk nk ) = N1 N2 .
Onde, vale que N1 , N2 B + d Z.

Segue que N2 = d z , para algum z Z.
2
Considere ni = (Nd2 ) = zdd = d z 2 N
Seja m > ni . Ento existe k N tal que m = ni + k. Agora, pelo algoritmo
da diviso existem p, s N, tais que k = p Nd2 + s, onde 0 s Nd2 .
2
Portanto, m = ni + k = (Nd2 ) + p Nd2 + s = d1 [N2 (N2 + p) + s d].
Segue ento que m d = N2 (N2 + p s) + s (N2 + d) = N2 l + s N1 , onde
l = (N2 + p s).
Como s < Nd2 N2 , ento, s N2 , e, assim N2 s 0. Note que
l = N2 + p s p 0.
Logo,
m d = l N2 + sN1 = (l b1 n1 + ... + l bj nj ) + (s bj+1 nj+1 + ... + s bk nk ) =
(c1 n1 + ... + cj nj ) + (cj+1 nj+1 + ... + ck nk ),
i i
i i
i i

i i
onde c1 , c2 , ..., cj so inteiros positivos.

Finalmente obtemos que para m > ni , vale
P m d (i, i) = P c1 n1 +...+cj nj +cj+1 nj+1 +...+ck nk (i, i)

n1 + ... + n1 n + ... + nk
| {z } | k {z }
P c1
(i, i)...P ck
(i, i)
P ni (i, i)...P ni (i, i) ... P nk (i, i)...P nk (i, i) > 0.
| {z } | {z }
c1 ck
Se N for o valor supremo de todos os possiveis valores ni , i S , temos que

P (i, i) > 0, para todo m > N , independente de i.
md
Corolrio 2.3. Se P m (j, i) > 0 ento (P m + n d(i) )j,i > 0 , n sucientemente
grande.
Demonstrao: Segue de imediato de
P m + n d(i) = P m P n d(i) .
Corolrio 2.4. Seja (Xn )n0 C.M. irredutvel e aperidica com S nito e
matriz de transio P . Ento, n0 1 tal que se n n0 ento todas as
entradas da matriz P n so positivas.
Demonstrao: Os i e j so nitos, assim escolhemos m = m(i, j) como acima

(que so limitados por uma constante). O d(i) = 1 o mesmo para todo i.
Assim, existe um natural n0 tal que vale (P n )i,j > 0 para todo n > n0 .
Corolrio 2.5. Toda matriz P de transio com S nito que irredutvel e
aperidica regular. Ainda, o autovalor 1 tem multiplicidade 1.
i i
i i
i i

i i
Demonstrao: Segue de imediato do teorema acima e do Teorema 2.6.
Proposio 2.20. O espao de estados de uma C.M. irredutvel de perodo

d > 1 pode ser particionada em d D0 , D1 , . . . , Dd1 tal que
classes disjuntas
algum elemento de Dj vai, no prximo passo, para Dj+1 , j = 0, 1, . . . , d 2.
Finalmente, algum elemento de Dd1 vai no passo seguinte, para D0 .
Ainda, P |Dj , irredutvel e aperidico, para todo j xo.

d
Demonstrao: Seja i S . Dena

Dm = {j | P nd+m
(i, j) > 0, para algum n}. Ento, como a cadeia irre-
d1
dutvel, temos que m=0 Dm = S

Armamos que: Dm1 Dm2 = , 0 m1 < d e 0 m2 < d, m1 = m2 .

De fato, seja j Dm1 Dm2 .
Ento j Dm1 e j Dm2 .
Ora, j Dm1 n1 tal que P n1 d+m1 (i, j) > 0.
Ora, a cadeia irredutvel k > 0 tal que P k (j, i) > 0 P n1 d+m1 +k (i, i)
P n1 d+m1 (i, j) > 0.
Logo, P k (j, i) > 0 d divide n1 d + m1 + k d divide m1 + k m1 + k
mltiplo de d.
Analogamente, j Dm2 n2 tal que P n2 d+m2 (i, j) > 0.
Usando novamente o fato que a cadeia irredutvel k > 0 tal que
P (j, i) > 0.
k
De maneira semelhante ao caso anterior m2 + k mltiplo de d.

Assim, d divide (m1 + k) (m2 + k) = m1 m2 .
Como 0 m1 < d e 0 m2 < d, conclumos que m1 = m2 .
Logo, e j Dm1 Dm2 , ento Dm1 = Dm2 .
Sendo assim, {D0 , D1 , ..., Dd1 } forma uma partio de S .
Por construo, dado um elemento j de Dm , se P (j, k) > 0, ento k no
est em Dm .
i i
i i
i i

i i
Figura 2.8:
De fato, se m < d1, ento k elemento de Dm+1 . Isto porque P nd+m+1 (i, k) =

sS P
nd+m
(i, s)P (s, k) P nd+m (i, j) P (j, k) > 0.
Se j Dd1 e P (j, k) > 0, ento k D0 .
Note que, conforme provamos antes no Teorema 2.18: se N for o valor
supremo de todos os possiveis valores ni , i S , temos que P m d (i, i) > 0, para
todo m > N .
Considere um i {1, 2, ..., d} xo. Assim, a cadeia restrita a Di , tal que
P |Di , irredutvel. A matriz estocstica associada seria P d restrita a aquelas
d
entradas que tem elementos em Di . Esta matriz restrita regular. Sendo assim
podemos aplicar aqui os resultados j conhecidos para tal tipo de matriz.
Fica assim demostrada a ltima armao do Teorema.
Observao : Se P uma cadeia estocstica irredutvel e de perodo d, ento

segue do que vimos acima que a matriz R = P d aplica cada um dos conjuntos
acima Dm em si mesmo. Ainda, P d (i, j) > 0, para qualquer i, j Dm . Mais

que isto, se P d (i, j) > 0, ento d mltiplo de d (e diferente de zero). Estas
armaes no sero demonstradas aqui (ver [I]).
Podemos considerar assim R como uma matriz de transio para cada
i i
i i
i i

i i
Dm xado. Esta nova matriz R ser irredutvel e aperidica. Os resultados

que forem obtidos para matrizes irredutveis e aperidicas podero ento ser
utilizados para R = P d .
Este o procedimento cannico que devemos seguir quando tratamos com
cadeias P que so irredutveis e peridicas de perodo d, mais explicitamente,
devemos tomar as subclasses Dm e a seguir analisar a matriz P d restrita a uma
destas classes.
Exemplo 2.39. Seja a cadeia de Markov com matriz de transio dada por

0 1/8 0 7/8 0 0

0 1/2 0 1/2 0 0

0 1/4 3/4 0 0 0
P=
1/2 0 1/2 0
.
0 0

0 0 0 0 1/2 1/2
0 0 0 0 1/4 3/4
a) Classes de equivalncia.
C0 = {0, 1, 2, 3} e C1 = {4, 5}.
Logo a cadeia no irredutvel e C0 e C1 so fechadas.
b) Classicao dos estados.
Vamos calcular apenas
( )2
1 1 1 1 3 1 1 3 1
f44 = n
f44 = + + + + =
2 2 4 2 4 4 2 4 4
n1
( )n
1 1 3 1 1 1 1 4
= + = + 3 = + = 1.
2 8 n0 4 2 8 1 4 2 8
Logo, C1 classe recorrente.
c) Distribuio estacionria.
Podemos considerar a matriz P restrita aos estados {0, 1, 2, 3}, obtendo
i i
i i
i i

i i
assim, a matriz estocstica

0 1/8 0 7/8
0 1/2 0 1/2

P0 = .
0 1/4 3/4 0
1/2 0 1/2 0
Considere
a equao P = , que equivale a
1

(3) = (0)

2
(3) = 2(0)

1 1 1

1 1 1

8
(0) + (1) + (2) = (1)
2 4
(0) + (2) = (1)
8 4 2
=

3 1
1

(2) + (3) = (2)

4 2

(3) = (2)

2

7

7 1 (0) + (1) = 2(3)
(0) + (1) = (3) 4
8 2
Ora,
(3) = 2(0)
1
(3) = (2)
2
9
(1) = (3)
8
e (0) + (1) + (2) + (3) = 1
( )
1 9
= (3), (3), 2(3), (3) ,
2 8
ento vale
1 9 8
(3) + (3) + 2(3) + (3) = 1 (3) = .
2 8 37
Segue, assim que,
i i
i i
i i

i i
( )
4 9 16 8
= , , , .
37 37 37 37
C0 tem uma nica distribuio estacionria. Mas C0 aperidica. De fato:
d(0) = mdc {2, 3, 5, 6 } = 1,
d(1) = mdc {1, 3, 4, 5 } = 1
Como C0 irredutvel, aperidica e tem uma nica distribuio estacionria,

conclumos que C0 recorrente positiva.
Observamos que
d(4) = mdc {1, 2, 3, 4, } = 1 = d(5)
Ainda, podemos considerar a matriz P restrita ao estados {4, 5}, obtendo

assim, ( )
1/2 1/2
P1 = .
1/4 3/4

1 1

(4) + (5) = (4) {
2 4 (5) = 2 (4)
P1 = = =

(4) + (5) = 1

(4) 1 + (5) 3 = (5)
( ) 2 4
1 2
Logo, = , a nica distribuio estacionria.
3 3
Desta forma, C1 classe recorrente positiva.
i i
i i
i i

i i
Exemplo 2.40. O seguinte exemplo ilustrativo do que acontece com as

iteraes de uma cadeia de Markov peridica.
Na matriz abaixo colocamos o smbolo * para destacar blocos. A matriz

do tipo 7 por 7.
Seja a matriz P sobre S = {1, 2, 3, 4, 5, 6, 7} de perodo 3; ento

0 0 1/2 1/4 1/4 0 0

0 0 1/3 0 2/3 0 0

0 0 0 0 0 1/3 2/3

P=
0 0 0 0 0 1/2 1/2,

0 0 0 0 0 3/4 1/4

1/2 1/2 0
0 0 0 0
1/4 1/4 0 0 0 0 0

0 0 0 0 0 23 25
48 48

0 0 0 0 0 11 7
18 18

1/3 2/3 0 0 0 0 0

P =
2
3/8 5/8 0 0 0 0 0,

7/16 9/16 0 0 0 0 0

0 10 3 11
0
0 24 24 24
0
0 0 6
16
1
16
9
16
0 0
i i
i i
i i

i i

71 121
0 0 0 0 0
192 192

29 43
0 0 0 0 0
72 72

0 0 14 3 19
0 0
36 36 36
P =
3
0 0 38
96
9
96
49
96
0 0 .

0 0 26 7 31
0 0
64 64 64

157 131
0 0 0 0 0 288 288
0 0 0 0 0 111
192
81
192
Note que P 3 tem todos os elementos da diagonal no nulos. Logo, todos

elementos de S para P 3 so aperidicos.
Usando a notao do teorema anterior D1 = {1, 2}, D2 = {3, 4, 5} e D3 =
{6, 7},
Note que
a) 1 D1 vai na primeira etapa a 3 D2 ,
b) 4 D2 vai na primeira etapa a 6 D3 ,
e
c) 6 D3 vai na primeira etapa a 2 D1 .
Podemos considerar P 3 como uma nova cadeia R sobre S e obtemos para
esta cadeia R uma decomposio de S = D1 D2 D3 , em conjuntos (fechados)
irredutveis, recorrentes e aperidicos.
A recorrncia segue do fato que a matriz nita, e assim em cada classe
irredutvel existe um recorrente. Logo, todo elemento de cada classe recor-
rente.
Proposio 2.21. Fixada um cadeia de Markov P aperidica, ento o mdc

n
dos n tais que fii >0 igual a 1.
i i
i i
i i

i i
Demonstrao: Por hiptese o mdc dos n tais que Piin > 0 igual a 1. Seja v
o mdc dos n tais que fiin > 0.
Suponha que v = 1.
Se v divide todo n tal que Piin > 0 ento v = 1.
Seja n o menor inteiro que tal que Piin > 0 e v no divide n.
Seja agora q e r tal que 0 < r < v e n = q v + r. Sabemos que fiij = 0 se j
no da forma j = k v , logo

n
Piin = fiij Piinj =
j=1

q
(q v + r) k v

q
(qk) v + r
fiik v Pii = fiik v Pii .
k=1 k=1
(qk) v + r
Sabemos que Pii = 0, porque (q k) v + r < n e v no divide
(q k) v + r. Sendo assim Piin = 0. Como isto uma contradio, conclumos
que v divide todo n tal que Piin > 0. Logo, v = 1.
Os resultados abaixo so de grande utilidade mas no apresentaremos aqui

as suas demonstraes (ver [I]).
Teorema 2.19. Seja S nito e P irredutvel de perodo d. Ento as d razes da

unidade e 2 (r/d) i
, r {0, 1, 2, ..., d 1} so autovalores de P . A multiplicidade
de cada raiz complexa igual a um.
Teorema 2.20. Seja S nito. Ento as d razes da unidade so autovalores
de P, se e s se, P tem uma classe recorrente de perodo d. A multiplicidade
de cada raiz complexa igual ao nmero de subclasses irredutveis recorrentes
de perodo d.
Corolrio 2.6. Se no existem nmeros complexos (alm de = 1) de
norma 1, tal que, para g() = det (I P) = 0, ento, P aperidica.
i i
i i
i i

i i
2.7 Estados Recorrentes Nulos e Positivos 147
Os resultados acima so muito teis pois permitem detectar se P irredutvel

aperidica apenas analisando as razes de um polinmio de grau d = #S .

0 1 0

P= 0 0 1
1 0 0
irredutvel pois tem polinmio caracterstico g() = 3 1. De fato, as razes

de g so 1, ei 2 1/3 , ei 2 2/3 . Logo, P tem perodo 3.
2.7 Estados Recorrentes Nulos e Positivos

Denio 2.21. O tempo mdio de primeiro retorno (ou, de recorrncia) de
um estado i denido por

i = Ei (Ti ) = n fiin .
n1
Acima Ti o tempo de primeiro retorno ao estado i S do processo comeando
em i S.
O tempo mdio acima denido descreve o nmero mdio de etapas necessrias
para retornar ao estado inicial i dado que a cadeia comeou em i.
SePi (Ti = +) > 0 ento Ei (Ti ) = + .

Note que Ti , i S , uma funo mensurvel mas no se pode dizer que
depende de nitas coordenadas.
Suponha que S = {1, 2}. Note que T2 (w) = 3 ( igual a 3) para os w em
2, 1, 1, 2 2, 2, 1, 1, 2 2, 2, 2, 1, 1, 2 ... 2, 2, ...2, 1, 1, 2 ...

| {z }
n
i i
i i
i i

i i
A denio de E(Ti ), para i xo em S, aquela apresentada na denio
0.16
E(Ti ) = Ti dPi = n Pi ({w tal que Ti (w) = n}),
nN
onde Pi = S N , obtida a partir de uma

a probabilidade markoviana em
matriz xada P , e a probabilidade inicial que igual a 1 na posio i (e

0
zero fora). Portanto este valor depende de P e de i S .
Observaes:
(a) i transitrio Pi (Ti = +) > 0 i = Ei (Ti ) = (Teorema
2.13).

(b) i recorrente Pi (Ti = +) = 0 i = n1 n fiin
Portanto, i pode ser + ou < +
Denio 2.22. Se iS um estado recorrente ento
(a) i recorrente nulo quando i = Ei (Ti ) = +

(b) i recorrente positivo quando i = Ei (Ti ) < +
Proposio 2.22. Ser recorrente nulo ou ser recorrente positivo uma pro-
priedade de classe, ou seja, se i possui tal propriedade e j equivalente a i,
ento j tambm possui.
Este resultado ser demonstrado mais tarde na proposio 2.23.

Observaes :
(1) Se j transiente ento P n (i, j) 0 , i,

n
(2) Se j recorrente nulo ento P n (i, j) 0 , i

n
Teorema 2.21. Seja (Xn )n0 C.M. nita com matriz de transio P com uma
classe C1 de estados recorrentes positivos e aperidica, sendo os outros estados
transitrios. Ento (Xn )n0 tem uma nica distribuio estacionria dada por
i i
i i
i i

i i
(j) = lim P n (i, j) se j C1 , e

n
(j) = 0 se j
/ C1 .
Este resultado ser demonstrado mais tarde no Teorema 2.23.
Exemplo 2.42. Pela frmula de Stirling temos que no caso do passeio aleatrio
em Z com p = 1/2, o valor P00 n
n1/2 , para n par e zero caso n seja mpar.

Logo, 0 recorrente pois nN P00 n
= . O mesmo vale para qualquer i Z
Portanto, neste caso, a cadeia recorrente irredutvel, mas 0 recorrente
nulo. De fato, um estado i recorrente nulo se e s se limn Piin = 0 conforme
Teorema 2.23. Note que P00 n
n1/2 .
Note que quando S nito toda cadeia irredutvel e recorrente recorrente
positivo como veremos em breve.
Exemplo 2.43. Seja S = {0, 1, 2, 3, 4, 5} e considere a matriz

0 0 0 1 0 0

0 0 0 0 1 0

1/4 2/4 0 0 0 1/4
P=
0
.

0 1 0 0 0

0 0 1 0 0 0
0 0 0 1/2 1/2 0
Vamos a seguir obter o seguinte:

(a) determinar as classes de equivalncia;
(b) estudar a periodicidade da cadeia;
(c) classicar os estados;
(d) obter os conjuntos cclicos disjuntos ;
(e) obter as matrizes de transio associadas aos conjuntos crticos;
i i
i i
i i

i i
Figura 2.9:
(f) mostrar que esta C.M. tem uma nica distribuio estacionria.
a) Observe a partir do grafo exibido na Figura 2.9 que
0 3, 1 2, 1 4, 2 5, 1 5, 1 3
Portanto, C0 = {0, 1, 2, 3, 4, 5} classe irredutvel e fechada.
b) Basta determinar o perodo para um estado. Observe que

d(0) = mdc {n 1; P n (0, 0) > 0} = mdc {3, 6, 9, ...} = 3, porque 0 3
2 0.
Logo, a C.M. tem perodo 3.

c) Para classicar os estados, basta calcular f00 .
A cadeia recorrente positiva tendo em vista que a P 3 restrita a cada classe
irredutvel, aperidica e nita.
d) Desejamos obter D0 , D1 , D2 conforme Teorema 1.20. Vamos mostrar

que D0 = {0, 1, 5} D1 = {3, 4} D2 = {2}
e) Para obtermos as matrizes de transio associadas a D0 , D1 , D2 , pre-

cisamos de P 3 .
i i
i i
i i

i i

0 0 1 0 0 0 0 0 0 1 0 0

0 0 1 0 0 0 0 0 0 0 1 0

0 0 0 3/8 5/8 0 1/4 2/4 0 0 0 1/4
P P=
2
1/4 2/4 0 0
=
0 1/4
0 0 0 1 0 0

1/4 2/4 0 0 0 1/4 0 0 0 1 0 0
0 0 1 0 0 0 0 0 0 1/2 1/2 0

1/4 2/4 0 0 0 1/4

1/4 2/4 0 0 0 1/4

0 0 1 0 0 0
.
0
0 0 3/8 5/8 0

0 0 0 3/8 5/8 0
1/4 2/4 0 0 0 1/4
Portanto,
1/4 2/4 1/4

P0 = 1/4 2/4 1/4 ,
1/4 2/4 1/4
( )
3/8 5/8
P1 = ,
3/8 5/8
e
P2 = (1).
Observe que as sub-matrizes de transio associadas aos conjuntos cclicos
so tambm estocsticas.
Desta forma conclumos que D0 = {0, 1, 5} D1 = {3, 4} D2 = {2}.
f) Pela Proposio 2.4 sabemos que esta C.M. restrita a cada Di possui
uma nica distribuio estacionria. Desejamos encontrar ao menos um vetor
= (0 , 1 , 2 , 3 , 4 , 5 ) tal que = P .
i i
i i
i i

i i
Ento, valem as relaes

2 14 = 0 ,
0 + 21 5 = 3 ,
2 24 = 1 ,
1 + 21 5 = 4 ,
3 + 4 = 2
e
2 14 = 5 .
Obtemos assim,
2 = 40 ,
5 = 14 2 = 44 0 = 0 ,
1 = 12 2 = 20 ,
4 = 52 0
e
3 + 4 = 2 = 40 .
Ainda, como vale 3 + 4 = 40 3 = 40 4 = 40 52 0 3 = 32 0 .

Como 5i=0 i = 1 120 = 1.
Portanto, = ( 24 , 24 , 24 , 24 , 24 , 24 ).
2 4 8 3 5 2
Note que (1/4, /2/4, 1/4) invariante para P0 , (3/7, 5/7) invariante para
P1 e (1) invariante para P2 .
Sejam qi , q2 , q3 nmeros no negativos que somam 1.

fcil ver que
= q1 (1/4, 2/4, 0, 0, 0, 1/4) + q2 (0, 0, 0, 3/7, 5/7, 0) + q3 (0, 0, 1, 0, 0, 0)
satisfaz P = . Logo, tal no nico.
i i
i i
i i

i i
Exemplo 2.44. Passeio Aleatrio Simples em Z.
Suponha P (i, i + 1) = p, P (i, i 1) = q , onde p + q = 1, i Z
e ainda que
(Xn )n0 irredutvel e peridica com perodo d = 2.
(a) Desejamos obter os conjuntos cclicos.
(b) Desejamos obter as duas C.M. irredutveis e aperidicas geradas por

D0 e D1 .
... 2 1 0 1 2 ...
i i
i i
i i

i i

... ...
..
. ... ...

2 . . . q 0 p 0 0 0 0 . . .

1 . . . 0 q 0 p 0 0 0 . . .

P= 0 . . . 0 0 q 0 p 0 0 . . .
.

1 . . . 0 0 0 q 0 p 0 . . .

2 . . . 0 0 0 0 q 0 p . . .

.. . . .
. ...
... ...
C0 = Z irredutvel, peridica com perodo d = 2.
a) D0 = {. . . 3, 1, 1, 3, 5, . . .} e D1 = {. . . , 4, 2, 0, 2, 4, . . .}
pois 1 0
2 (0 e -2) devem estar no D1 se 1 D0 2 3
1
2 D1 , (3, 1) D0 , 32
4 3 D0 (2, 4) D1
Os conjuntos cclicos devem ser disjuntos.
b) Queremos a C.M. gerada por D0 . Sua matriz de transio ser denotada

por P0 e uma parte da P 2 :
i i
i i
i i

i i
... .2 .1 0 1 2 ... ... .2 .1 0 1 2 . . .

. .... . . . . . ... . .... . . . . . ...

2 . . . q 0 p 0 0 0 . . . 2 . . . q 0 p 0 0 0 . . .

1
. . . 0 q 0 p 0 0 . . .
1
. . . 0 q 0 p 0 0 . . .

P 2 = 0 . . . 0 0 q 0 p 0 . . . 0 . . . 0 0 q 0 p 0 . . . =

1
. . . 0 0 0 q 0 p . . .
1
. . . 0 0 0 q 0 p . . .

2
. . . 0 0 0 0 q 0 . . .
2
. . . 0 0 0 0 q 0 . . .

. .... . . . . . ... . .... . . . . . ...
... 2 1 0 1 2 ...

. ... . . . . . . . ...

2 . . . 0 2qp 0 p 2
0 0 0 . . .

1
. . . q
2
0 2qp 0 p 2
0 0 . . .

0 . . . 0 q2 0 2qp 0 p2 0 . . .

1
. . . 0 0 q2 0 2qp 0 p2 . . .

2
. . . 0 0 0 q2 0 2qp 0 . . .

. ... . . . . . . . ...
Portanto, P0 (relativa a D0 ) e P1 (relativa a D1 ) so, respectivamente,
... 3 1 1 3 ...
.. .. .. .. .. .. ..
. . . . . . .

3 . . . 2qp p 2
0 0 . . .

1 . . . q 2 2qp p2 0 . . .
P0 =
1 . . . 0 q 2
2qp p 2
. . .

3 . . . 0 0 q 2
2qp . . .

.. .. .. .. .. .. ..
. . . . . . .
i i
i i
i i

i i
... 2 0 2 4 ...
.. .. .. .. .. .. ..
. . . . . . .

2 . . . 2qp p 2
0 0 . . .

0 . . . q 2 2qp p2 0 . . .
P1 =
2 . . . 0 q 2
2qp p 2
. . .

4 . . . 0 0 q 2
2qp . . .

.. .. .. .. .. .. ..
. . . . . . .
A matriz P0 indexada pelos mpares em Z e a P1 pelos pares em Z.

Lembramos ao leitor que, no presente exemplo, se p = 1/2 ento todo
estado recorrente, mas se p = 1/2, ento todo estado transiente.
O prximo exemplo ilustra a maneira como se pode obter resultados ex-

plcitos a partir da teoria descrita acima. Ele bastante elaborado e pode ser
omitido numa primeira leitura.
Esclio: Seja {Sn : n 0} um passeio aleatrio em Z (probabilidade de

transio 1/2 e 1/2) com S0 = 0. Vamos mostrar que Xn = |Sn | dene uma
cadeia de Markov e determinar as probabilidades de transio.
Soluo: Seja B = {Xn1 = in1 , , X1 = i1 , X0 = i0 }, ir N, r

{0, 1, , n 1}.
Note que X0 = |S0 | = 0. Como i0 = 0 B = , consideramos B =
{Xn1 = in1 , , X1 = i1 , S0 = 0}.
Queremos mostrar que, para quaisquer in+1 , in N,
P (Xn+1 = in+1 |Xn = in , B) = P (Xn+1 = in+1 |Xn = in ). (2.2)
Observe que, para todo i 1
i i
i i
i i

i i

Sn = i Sn+1 = i + 1 ou Sn+1 = i 1

Se Xn = i ou

Sn = i Sn+1 = i + 1 ou Sn+1 = i 1
Xn+1 = |Sn+1 | = i + 1 ou Xn+1 = i 1.

Assim,
P (Xn+1 {i + 1, i 1}c |Xn = i, B) = 0 = P (Xn+1 {i + 1, i 1}c |Xn = i)

(2.3)
Logo,
P (Xn = i, B) P (Xn+1 S, Xn = i, B)
1= =
P (Xn = i, B) P (Xn = i, B)
P (Xn+1 {i + 1, i 1}c {i + 1, i 1}, Xn = i, B)
=
P (Xn = i, B)
P (Xn+1 {i + 1, i 1}c , Xn = i, B) P (Xn+1 {i + 1, i 1}, Xn = i, B)

= +
P (Xn = i, B) P (Xn = i, B)
P (Xn+1 = i + 1, Xn = i, B)
= P (Xn+1 {i + 1, i 1}c |Xn = i, B) +
P (Xn = i, B)
P (Xn+1 = i 1, Xn = i, B)
+ = P (Xn+1 = i + 1|Xn = i, B)
P (Xn = i, B)
+ P (Xn+1 = i 1|Xn = i, B),

onde a quinta igualdade acima devido a expresso (2).
Isto implica que
P (Xn+1 = i 1|Xn = i, B) = 1 P (Xn+1 = i + 1|Xn = i, B). (2.4)
i i
i i
i i

i i
Analogamente,
P (Xn+1 = i 1|Xn = i) = 1 P (Xn+1 = i + 1|Xn = i). (2.5)
Desta forma, basta provar que

P (Xn+1 = i + 1|Xn = i, B) = P (Xn+1 = i + 1|Xn = i), para todo i 0.
De fato, se
{ }
Xn = |Sn | = 0 Sn = 0
i=0 .
Xn+1 = |Sn+1 | = 1 Sn+1 = 1 ou Sn+1 = 1
Ento,
P (Xn+1 = 1|Xn = 0, B) = P (Sn+1 = 1 ou Sn+1 = 1|Sn = 0, B)
= P (Sn+1 = 1|Sn = 0, B) + P (Sn+1 = 1|Sn = 0, B)
= P (Sn+1 = 1|Sn = 0) + P (Sn+1 = 1|Sn = 0) = p + q = 1
= P (Sn+1 = 1 ou Sn+1 = 1|Sn = 0) = P (Xn+1 = 1|Xn = 0).
Suponha que i 1. Primeiramente, vamos escrever

P (Xn+1 = i + 1|Xn = i, B) de outra maneira:
P (Xn+1 = i + 1, Xn = i, B)
P (Xn+1 = i + 1|Xn = i, B) =
P (Xn = i, B)
P (Xn+1 = i + 1, Sn = i, B) + P (Xn+1 = i + 1, Sn = i, B)
=
P (Xn = i, B)
P (Xn+1 = i + 1, Sn = i, B) P (Sn = i, B)
=
P (Sn = i, B) P (Xn = i, B)
i i
i i
i i

i i
P (Xn+1 = i + 1, Sn = i, B) P (Sn = i, B)
+
P (Sn = i, B) P (Xn = i, B)
P (Sn = i, B)
= P (Xn+1 = i + 1|Sn = i, B)
P (Sn = i, B) + P (Sn = i, B)
P (Sn = i, B)
+ P (Xn+1 = i + 1|Sn = i, B) .
P (Sn = i, B) + P (Sn = i, B)
Calculemos:
P (Xn+1 = i + 1|Sn = i, B) = P (Sn+1 = i + 1|Sn = i, B)
+ P (Sn+1 = i 1|Sn = i, B) = P (Sn+1 = i + 1|Sn = i)
+ P (Sn+1 = i 1|Sn = i) = p + 0 = p
e
P (Xn+1 = i + 1|Sn = i, B) = P (Sn+1 = i + 1|Sn = i, B)
+ P (Sn+1 = i 1|Sn = i, B) = P (Sn+1 = i + 1|Sn = i)
+ P (Sn+1 = i 1|Sn = i) = 0 + q = q.
Logo,
pP (Sn = i, B) + qP (Sn = i, B)
P (Xn+1 = i + 1|Xn = i, B) = . (2.6)
P (Sn = i, B) + P (Sn = i, B)
Falta encontrar P (Sn = i, B) e P (Sn = i, B), para todo i > 1.
i i
i i
i i

i i
Seja l = max{r : ir = 0}. Ento, Sk > 0, k (l, n] ou Sk < 0, k (l, n]

.
Observe que

n1
P (Sn = i, B) = P (Sn = i, Sn1 > 0, , Sl+1 > 0, Sl = 0, Xl1 = il1 , ,
l=0

n1
X1 = i1 , S0 = 0) = P (Sn = i, Sn1 > 0, , Sl+1 > 0|Sl = 0)
l=0
P (Sl = 0, Xl1 = il1 , , X1 = i1 , S0 = 0)

n1
P (Sl = 0, S0 = 0)
= P (Snl = i, Snl1 > 0, , S1 > 0|S0 = 0)
l=0
P (S0 = 0)

n1
= P (Snl = i, Snl1 > 0, , S1 > 0|S0 = 0) P00
l
.
l=0
Observe que a terceira igualdade acima devido propriedade marko-

viana e a quarta igualdade segue do fato que P(S0 = 0) = 1.
Do Exemplo 2.30, temos que
( )
2k pk q k , se l = 2k
l
P00 = k

0, se l = 2k + 1.
Ento,
P (Snl = i, Snl1 > 0, , S1 > 0|S0 = 0)
i i
i i
i i

i i
= P (Snl = i|S0 = 0)P (Snl = i, Sj 0, para algum j {1, , nl1}|S0 = 0),
onde
( )
n l p nl+i
2
nli
q 2 , se n l i par
nl+i
P (Snl = i|S0 = 0) =
2
0, se n l i mpar,
e
P (Snl = i, Sj 6 0, para algum j {1, , n l 1}|S0 = 0)
= P (Snl = i, S1 = 1|S0 = 0) + P (Snl = i, Sj 6 0,
para algum j {2, , n l 1}, S1 = 1|S0 = 0).

Pelo Princpio da Reexo, existe uma bijeo entre os caminhos que
comeam em 1 em tempo 1 e chegam a i em tempo n l que se anulam ou
so negativos com os caminhos que saem de 1 em tempo 1 e chegam a i em
tempo n l. Ou seja,
P (Snl = i, Sj 6 0, para algum j {2, , n l 1}, S1 = 1|S0 = 0)
= P (Snl = i, S1 = 1|S0 = 0).

Logo,
P (Snl = i, Sj 6 0, para algum j {1, , n l 1}|S0 = 0)
i i
i i
i i

i i
= 2P (Snl = i, S1 = 1|S0 = 0) = 2P (Snl = i|S1 = 1)P (S1 = 1|S0 = 0)
= 2qP (Snl = i|S1 = 1) = 2qP (Snl1 = i + 1|S0 = 0)
( )
nl1 (nl1)+(i+1) (nl1)+(i+1)
= 2q (nl1)+(i+1) p 2 q 2
2
( )
nl1 nl+i nli
=2 nl+i p 2 q 2 ,
2
se n l + i par e P (Snl = i, Sj 6 0, para algum j {1, , n l 1}|S0 =

0) = 0, se n l + i mpar. Observe que a terceira igualdade acima vale pela
mudana de coordenadas no espao dos caminhos.
Desta forma,
P (Snl = i, Snl1 > 0, , S1 > 0|S0 = 0) = 0 ,
se n l i mpar e se n l i par, temos que, para todo i > 1,
P (Snl = i, Snl1 > 0, , S1 > 0|S0 = 0)

( ) ( )
n l nl+i nli n l 1 nl+i nli
= nl+i p 2 q 2 2 nl+i p 2 q 2
2 2
[ ]
(n l)! 2(n l 1)! nl+i nli
= ( nl+i ) ( ) ( ) ( ) p 2 q 2
2
! n l n
2
+ l
2
i
2
! nl+i
2
! n l 1 n
2
+ l
2
i
2
!
[ ]
(n l)! 2(n l 1)! nl+i nli
= ( nl+i ) ( nli ) ( nl+i ) ( nli ) p 2 q 2
2
! 2
! 2
! 2
1 !
i i
i i
i i

i i
[ ( nli ) ]
(n l)! nl+i nli
= ( nl+i ) ( nli ) 1 2 2 p 2 q 2
2
! 2
! nl
( )( )
nl nln+l+i nli nli
= nl+i p 2 q 2
2
nl
( )
nl i nl+i nli
= p 2 q 2 ,
nl+i
2
nl
para todo i > 1, se n l + i par.
Ento,

n1
P (Sn = i, B) = P (Snl = i, Snl1 > 0, , S1 > 0|S0 = 0)P00
l
l=0
n1 (
)
nl i nl+i nli
l
= p 2 q 2 P00
l=0
nl+i
2
nl
m (
) ( )
n 2k i n+i
k ni
k 2k
= p 2 q 2 pk q k
k=0
n2k+i
2
n 2k k
m (
)( )
n+i ni n 2k 2k i
=p 2 q 2 , (2.7)
k=0
n2k+i
2
k n 2k
se n i par. Observe que na terceira igualdade acima temos que l = 2k e
{
n1
2
, se n 1 par
m= n2
2
, se n 1 mpar.
Ainda, P (Sn = i, B) = 0, se n i mpar.

Cada caminho que sai de 0 em tempo 0 e chega a i em tempo n l sem
nunca se anular, pode ser associado a um nico caminho que sai de 0 em
i i
i i
i i

i i
tempo 0 e chega a i em tempo n l sem nunca se anular: basta reetir o

caminho de cima que obteremos o caminho de baixo.
Cabe salientar que, quando o caminho que todo negativo, subir o cam-
inho po-/si-/ti/-vo correspondente a ele ir descer, ento as probabilidades p
e q sero invertidas, ou seja,
P (Snl = i, Snl1 < 0, , S1 < 0|S0 = 0)
( )
nl i
p
nli
2 q
nl+i
2 , se n i par
nl+i nl
=
2
0, se n i mpar.
Desta forma,
P (Sn = i, B) =

n1
P (Sn = i, Sn1 < 0, , Sl+1 < 0, Sl = 0, Xl1 = il1 , , X1 = i1 , S0 = 0) =
l=0

n1
P (Snl = i, Snl1 < 0, , S1 < 0|S0 = 0)
l=0
P (Sl = 0, Xl1 = il1 , , X1 = i1 , S0 = 0)
n1 (
)
nl i nli nl+i
l
= p 2 q 2 P00
l=0
nli
2
n l
m (
) ( )
n 2k i n2ki n2k+i 2k k k
= p 2 q 2 p q
k=0
n2ki
2
n 2k k
m (
)( )
ni n+i n 2k 2k i
=p 2 q 2 , (2.8)
k=0
n2ki
2
k n 2k
se n i par. Observe que na quarta igualdade acima temos que l = 2k
e
i i
i i
i i

i i
{
n1
2
, se n 1 par
m= n2
2
, se n 1 mpar.
Ainda, P (Sn = i, B) = 0 sempre que n i mpar.
Caso I) Suponha que n i 0 e n i par. Das igualdades (2.6), (2.7) e

(2.10) temos que
n+i ni ni n+i
pp 2 q 2 + qp 2 q 2
P (Xn+1 = i + 1|Xn = i, B) = n+i ni ni n+i
p 2 q 2 +p 2 q 2
ppi + qq i pi+1 + q i+1

= = ,
pi + q i pi + q i
para todo i 1.
Como B qualquer, considere
e = {Xn1 S, , X1 S, X0 S}.
B
Ento,
e
P (Xn+1 = i + 1|Xn = i) = P (Xn+1 = i + 1|Xn = i, B)
pi+1 + q i+1
= = P (Xn+1 = i + 1|Xn = i, B), para todo B.
pi + q i
Portanto, (Xn )n0 cadeia de Markov e suas probabilidades de transio
so dadas por
P (Xn+1 = 1|Xn = 0) = 1
e
pi+1 + q i+1
P (Xn+1 = i + 1|Xn = i) = , para todo i 1.
pi + q i
i i
i i
i i

i i
Caso II) Suponha que n i < 0. Ento, n < i. Observe que, saindo de 0 em
tempo 0 no chegaremos a i em tempo n, ou seja, P (Xn = i|S0 = 0) = 0.
Logo, neste caso no faz sentido falar em P (Xn+1 = i + 1|Xn = i).
Caso III) Suponha que n i 0 e n i mpar. Ento, P (Xn = i|S0 = 0) = 0

e tambm no faz sentido falar em P (Xn+1 = i + 1|Xn = i).
2.8 Cadeias do Tipo Recorrente, Aperidica e

Irredutvel
Seja (Xn )n0 uma C.M. com espao de estados S e matriz de transio P . Lem-
bre que uma distribuio de probabilidades = ((s))sS dita distribuio
estacionria para (Xn )n0 se e s se = P , ou seja, se para cada j S

xo vale que (j) = (i)P (i, j), j S .
iS
Questo Bsica:
(1a ) Dada uma C.M. P , quais so as condies necessrias (e sucientes)
para que exista uma distribuio estacionria para P ?
(2a ) Se existir, ela nica?
(3a ) Dado um vetor de probabilidade qualquer p sobre S , ser que vale que
lim pP n = ,
n
onde nico?
Observao : Anteriormente j exibimos exemplos em que:
1) P no irredutvel e no existe unicidade do estacionrio.
2) P irredutvel mas no recorrente e no existe estacionrio.
3) P irredutvel e aperidica mas no existe estacionrio tal que para
todo p
lim pP n = .
n
i i
i i
i i

i i
2.8 Cadeias do Tipo Recorrente, Aperidica e Irredutvel 167
Isto nos leva a suspeitar que devemos supor que a cadeia recorrente,
irredutvel e aperidica para termos as propriedades desejadas acima em (1a ),
(2a ) e (3a ).
Sabemos que para cada n > 0 e i S xos

n
n
P (i, i) = fiik P nk (i, i),
k=0
onde fii0 = 0, P 0 (i, i) = 1.

Ento, {

n
0, se n > 0;
P n (i, i) fiik P nk (i, i) =
k=0
1, se n = 0.
Ainda, para todo n 0 e i, j S , vale que

n
P n (i, j) = fiik P nk (i, j).
k=0
Teorema 2.22 (Equao da renovao em N). Sejam (ak )k0 , (bk )k0 e
(ck )k0 sequncias de nmeros reais tais que

(a) ak 0, a k = 1,
k0

(b) | bk | < +,
k0
(c) mdc {k : ak > 0} = 1.

n
Se a equao cn ak cnk = bn , n 0, tiver uma soluo (ck )k 0
k=0
tal que sup| cn | < + (i., (cn ) limitada em R), ento

(1) lim cn = bk se k ak < +
n k ak
i i
i i
i i

i i

(2) lim cn = 0 se k ak = +.
n
k
Demonstrao: Referimos o leitor a [KT] para prova.
Teorema 2.23. Considere (Xn )n0 C.M. com espao de estados S que seja
irredutvel, recorrente e aperidica. Ento,
1 1 1
(a) lim P n (i, i) = = = = i se k fiik < +
n
k fiik Ei (Ti ) i k
k0

(b) lim P n (i, i) = 0 = i se k fiik = +
n
k
(c) i S, lim P n (i, j) = lim P n (j, j) = j

n n
Demonstrao:
(a) e (b) seguem da equao de renovao
{

n
1, se n = 0
P (i, i)
n
fiik P nk
(i, i) = ()
k=0
0, se n > 0
De fato, usando a notao do Teorema da Renovao, considere

{
1, se n = 0
bn =
0, se n > 0

Note que n0 |bn | = 1 < .
i i
i i
i i

i i

Tome ak = fiik . Observe que k0 ak = k0 fiik = fii = 1 pois i
recorrente.
Alm disso, conforme Teorema 2.21 sabemos que o mdc de {n : fiin > 0} = 1
(a cadeia aperidica).
Considere nalmente cn = P n (ii). Com estes valores an , cb , bn , a equao
a de renovao
n
cn ak cnk = bn , n 0.
k=0
Logo, pelo Teorema 2.22, temos

[Ei (Ti )]1 , se Ei (Ti ) = k fiik < +
lim P n (i, i) = k0
n
0 , caso contrrio
(c) Note que para todo n 0 e i, j S , vale que

n
P n (i, j) = fijk P nk (j, j).
k=0
Sejam i e j xos.
Vamos utilizar o Teorema 2.22.
Seja xn k = fijk P nk (j, j) se n > k e xn k = 0 caso contrrio. Ento, para k
xo
lim xn k = fijk j = ak j .
n
Ora,

n

lim P n (i, j) = lim fijk P nk (j, j) = lim xn k .
n n n
k=0 k=0
Note que

sup | xn k | 1 < .
n
k=1
i i
i i
i i

i i
Logo, pelo Teorema da convergncia dominada

n
lim P (i, j) = lim xn k = ak j = fiik j = j ,
n n
k=0 k=0 k=0
pois i recorrente.
Teorema 2.24. Seja (Xn )n0 C.M. nita com matriz de transio P com uma
classe C1 de estados recorrentes positivos e aperidica, sendo os outros estados
transitrios. Ento (Xn )n0 tem uma nica distribuio estacionria dada por
(j) = lim P n (i, j) se j C1 , e

n
(j) = 0 se j
/ C1
Demonstrao: Seja C1 S uma classe fechada, aperidica e recorrente

positiva. Seja P1 a matriz correspondente s transies entre os elementos de
C1 . Isto pode ser feito porque C1 fechado. Seja P1n (i, j) a entrada ij da
matriz P1n . Como P1 irredutvel recorrente, ento
1 1
lim P1n (j, j) = = j C1 e
n j Ej (Tj )
1 1
lim P1n (i, j) = = , i, j C1 .
n j Ej (Tj )
Alm disso,
1
1 (j) = dene uma distribuio de probabilidade sobre C1
E (Tj )
satisfazendo
1 = 1 P1 e nica.
Considere o vetor de probabilidade sobre S que coincide com 1 sobre C1

e zero sobre ST . Sabe-se tambm (ver teorema 1.23) que lim P n (i, j) = 0
n
se j transiente, i S .
i i
i i
i i

i i
Basta provar que lim P n (i, j) = (j) quando i transiente e j C1 .

n
Mas P n (i, j) = nk=0 fijk P nk (j, j) e n1 fijn = 1. A demonstrao segue
agora a mesma linha que foi utilizada no item c) do ltimo teorema.
Esclarecemos ao leitor que quando S innito, pode acontecer de P ser irre-

dutvel aperidica recorrente, mas ter apenas estados recorrentes nulos. Estes
exemplos podem ocorrer, por exemplo, em cadeias de nascimento e morte, que
sero descritas ao m deste captulo.
Proposio 2.23. Seja P aperidico. A propriedade de ser recorrente nulo,
recorrente positivo uma propriedade de classe, ou seja, se i possui tal pro-
priedade e j equivalente a i, ento j tambm possui.
Demonstrao: Seja P aperidico. Vamos mostrar apenas que se i positivo

recorrente e j equivalente, ento j positivo recorrente.
Seja n e m tais que P n (i, j) > 0 e P m (j, i) > 0.
Considere agora um r N qualquer.
Ora,
P n+r+m (i, i) P n (i, j) P r (j, j) P m (j, i).
Considere r varivel e m, n xos.
Se i positivo recorrente ento
1
lim P n+r+m (i, i) = < .
r mi
Logo,
> lim P n+r+m (i, i)
r
P n (i, j) ( lim P r (j, j) ) P m (j, i).

r
Sendo assim,
1
= lim P r (j, j) < .
mj r
i i
i i
i i

i i
Desta forma, j recorrente positivo.
Teorema 2.25. Se S nito irredutvel e aperidico (portanto recorrente)
ento todo estado recorrente positivo.
Demonstrao: De fato, para cada i xo, como a soma nita

1 = lim P n (i, j) = lim P n (i, j).
n n
jS jS
Sendo assim, xado i no pode valer para todo j
lim P n (i, j) = 0.
n
Teorema 2.26. Seja (Xn )n 0 com matriz de transio P , irredutvel, recor-

rente positiva. Ento existe e nico o tal que P = . Ainda, se
1
= (i )iS ento i = i
, onde i o tempo de retorno mdio ao estado
i.
Referimos o leitor para uma prova em [KT].

0 1 0

P= 0 0 1
1 0 0
irredutvel tem perodo 3 e tem = (1/3, 1/3, 1/3) como vetor invariante.
Isto segue do fato que i = 1/3 para i S . Note que no existe o limite
n
lim P11 .
n
i i
i i
i i

i i
Observao : Quando P irredutvel e peridica devemos considerar a cadeia

induzida associada a P d , onde d o perodo. Esta ser aperidica. Ento se
pode utilizar os resultados anteriores.
Teorema 2.27. Se a cadeia de Markov denida por P irredutvel recorrente
e de perodo d, ento
d
lim Piind = .
n mi
Ainda Piim = 0 quando m no mltiplo de d.
Referimos o leitor para [KT1] para uma prova desta armao.

1/2 0 1/2

Exemplo 2.46. 1) Seja P = 1 0 0 .
0 1 0
a) Vamos mostrar que a C.M. associada irredutvel, recorrente positiva e

aperidica.
b) Vamos obter a distribuio estacionria .
a) fcil ver que C0 = {0, 1, 2}. Logo, a cadeia irredutvel
d(0) = mdc {1, 3, 6, 9, } = 1

d(1) = mdc {3, 4, 5, 6, 7, 8, 9, } = 1 = d(2)
1 1 1 1

f00 = n
f00 = + 0 + 1.1 + 0 + 0 + = + = 1
n1
2 2 2 2
Logo, os estados so recorrentes.

Como Pi (Ti = ) = 0, conclumos que i = n fiin e
n1
i i
i i
i i

i i
1 1
0 = n
n f00 = 1. + 2 . 0 + 3. .1.1 + 0 + 0 =
n1
2 2
1 3
+ = 2 < .
2 2
Logo, a cadeia irredutvel, recorrente positiva e aperidica.

b) Desejamos obter agora a distribuio invariante .
A equao P = equivalente a

1/2 0 1/2

((0) (1) (2)) 1 0 0 = ((0) (1) (2)),
0 1 0
( )
1 1 1
(0) + (1) = (0) (1) = 1 (0) (1) = (0) ;
2 2 2
(2) = (1) ;
1
(0) = (2).
2
Ento, vale
(0) = 2(1) = 2(2) e (0) + (1) + (2) = 1.
Portanto,
(0) + (1) + (1) = 1 (0) + 2(1) = 1 (0) = 1 2(1).
Como,
(0) = 2(1) e (0) = 1 2(1) temos
2(1) = 1 2(1) 4(1) = 1 (1) = 14 .
Logo,
i i
i i
i i

i i
2.9 Tempo de Parada e a Propriedade Forte de Markov 175
( )
2 1 1
= , ,
4 4 4
Desta forma,
1 1 1 1 1 1
(0) = = ; (1) = = ; (2) = = .
E0 (T0 ) 2 E1 (T1 ) 4 E2 (T2 ) 4

2.9 Tempo de Parada e a Propriedade Forte de

Markov
Denio 2.23. Dado um processo estocstico Xn , n N, uma varivel
aleatria (extendida, ou seja, pode tomar o valor )
T : {0, 1, 2, 3, ..., n, ...} {},
chamado de tempo de parada (para o processo Xn ) se para cada nN xo,
o conjunto {w | T (w) = n} depende apenas dos valores
X0 (w), X1 (w), X2 (w), ..., Xn (w).
claro que assumimos que Z = { : T (w) = } um conjunto mensu-
rvel. Z pode ter ou no probabilidade nula.
Exemplo 2.47. O primeiro tempo de visita a i S comeando em j S
Tij = inf{n 1, Xn = j},
um tempo de parada, pois para cada n 0
{Tij = n} = {X0 = j, X1 = i, X2 = i, ..., Xn1 = i, Xn = i}.
i i
i i
i i

i i
Contra-exemplo: Seja S = {1, 2, 3} e T : N {} tal que T () =

n se o tempo n a primeira vez que aparece 1 seguido por 2 (no tempo n + 1).
Esta varivel aleatria no um tempo de parada.
Contra-exemplo: Fixe i S e dena Ti (w) como o ltimo tempo n
que = (wt )tN visita i e Ti (w) = caso visite i innitas vezes. Tal Ti
uma varivel aleatria estendida mas no um tempo de parada pois para
determinar se Ti (w) = 3 necessitamos conhecer o caminho = (wt ) em tempos
t maiores do que 3.
Antes de apresentar a demonstrao da propriedade forte de Markov ne-
cessitamos da seguinte verso da Proposio 2.7.
Proposio 2.24. Fixe i S . Sejam os conjuntos A0 , A1 , A2 , ..., An1 , An =

{i}, An+1 , ..., Am S , onde n < m. Ento vale que
P (Xm Am , Xm1 Am1 , . . . , Xn+1 = An+1 , Xn = i, Xn1 An1 ,
Xn2 An2 , . . . , X1 A1 , X0 A0 ) =
Pi (Xmn Am , Xmn1 Am1 , . . . , X1 An+1 )
P (Xn = i, Xn1 An1 , Xn2 An2 . . . , X1 A1 , X0 A0 ).
Demonstrao: Segue de imediato do Teorema 2.7. De fato, sejam os conjuntos

A0 , A1 , A2 , ..., An1 , An , An+1 ..., Am S , onde n < m, ento pelo Teorema 2.7
P (Xm Am , Xm1 Am1 , . . . , Xn+1 = An+1 |Xn An , Xn1 An1 ,
. . . , X1 A1 , X0 A0 ) =
P (Xm Am , Xm1 Am1 , . . . , Xn+1 = An+1 |Xn An ) =
P (Xmn Am , Xmn1 Am1 , . . . , X1 = An+1 |X0 An ).
i i
i i
i i

i i
Isto porque, por denio
P (Xm Am , Xm1 Am1 , . . . , Xn+1 An+1 | Xn An , Xn1 An1 ,
. . . , X1 A1 , X0 A0 ) =
P (Xm Am , Xm1 Am1 , . . . , Xn An , Xn1 An1 , X1 A1 , X0 A0 )
1
.
P (Xn An , Xn1 An1 , . . . , X1 A1 , X0 A0 )
Necessitamos na verdade de uma verso levemente mais sosticada do re-

sultado acima:
Proposio 2.25. Fixe i S. B F , onde F a sigma-

Seja o conjunto
algebra gerada pelos cilindros. Considere agora n N, i S e conjuntos
Aj S xos, j {1, 2, ..., n}. Assumimos que o conjunto An = {i} e que o

conjunto B no dependa das variveis X0 , X1 , ..., Xn1 . Ento, para n e i S
xos vale que
P ( (Xn+1 , Xn+2 , Xn+3 , ...) B , Xn = i, Xn1 An1 ,
Xn2 An2 , . . . , X1 A1 , X0 A0 ) =
Pi ( (Xn+1 , Xn+2 , Xn+3 , ...) B)
P ( Xn = i, Xn1 An1 ,
Xn2 An2 , . . . , X1 A1 , X0 A0 ) =
Pi ( (X1 , X2 , X3 , ...) B )
P (Xn = i, Xn1 An1 , Xn2 An2 , . . . , X1 A1 , X0 A0 ).
i i
i i
i i

i i
Demonstrao: Ora, quando B um cilindro da forma
B = (Xn = a0 , Xn+1 = a1 , .., Xn+r = ar ),
com r N o resultado acima vlido pela Proposio anterior.

Sendo assim, para cilindros B podemos considerar
Pa (B) = P ( (Xn+1 , Xn+2 , Xn+3 , ...) B , Xn = i, Xn1 An1 ,
Xn2 An2 , . . . , X1 A1 , X0 A0 ),
e
Pb (B) = Pi ( (X1 , X2 , X3 , ...) B)
P (Xn = i, Xn1 An1 , Xn2 An2 , . . . , X1 A1 , X0 A0 ).
Denimos assim duas probabilidades que coincidem sobre cilindros.

Com o mesmo tipo de resultado do Teorema da Extenso de Caratheodori-
Kolmogorov podemos extender esta igualdade para a sigma algebra F gerada
pelos cilindros. Ou seja, se Pa e Pb coincidem sobre cilindros, elas coincidem
sobre a sigma-lgebra gerada pelos cilindros.
O ltimo teorema arma que sejam quais forem as restries aps o tempo
n, quando condicionamos em i no tempo n, o processo evolui de maneira
independente do que aconteceu previamente ao tempo n. Ou seja, ele perde
memria do que aconteceu antes do tempo n. Denominamos tal propriedade
de fraca de Markov.
A proposio acima permite formalizar o seguinte exemplo de maneira apro-
priada.
Exemplo 2.48. Considere uma pessoa que possui um capital inicial c > 0,
onde c um nmero natural, e que vai participar de um jogo em que uma
i i
i i
i i

i i
moeda (com probabilidade 1/2 de sair cara e 1/2 de sair coroa) lanada
sucessivamente.
O jogador ganha um real se sai cara e perde um real se sai coroa.
Ele gostaria de atingir um capital xado C > c > 0. O jogo termina quando
o fortuna do jogador atinge o valor C ou o valor 0. natural supor que se o
capital inicial c grande e prximo de C , ento existe maior probabilidade do
jogador atingir seu objetivo de alcanar a fortuna C do que quando o capital
inicial c for prximo de zero. Como quanticar tais probabilidades? Vamos
denotar por p(c) a probabilidade do jogador entrar em bancarrota, ou seja,
atingir ao longo do jogo a fortuna 0 (antes de atingir o valor C ).
Em princpio, apenas sabemos que p(0) = 1 e p(C) = 0.
Vamos modelar este problema atravs de um processo estocstico. Con-
sidere c xado. Neste caso, tome o espao de estados S = {0, 1, 2, ..., C},
T = N, Xt o valor da fortuna no tempo t. Considere = {1, 2, ..., C}N e
a probabilidade P = Pc ser descrita a seguir. O ponto fundamental que
vamos evitar dizer quem P explicitamente.
Note que P ({w|X0 = c}) = 1, P ({w|X0 = c}) = 0. Ainda, P (X1 = c) = 0.
mais natural descrever P atravs de condicionais, mais exatamente,
P (Xt+1 = d + 1 |Xt = d) = 1/2,
P (Xt+1 = d 1 |Xt = d) = 1/2,

para qualquer t > 1 e 1 d C 1.
claro que segue do estabelecido acima que xado d, para qualquer b <
d 1, ou b > d + 1, ou mesmo b = d, vale que
P (Xt+1 = b |Xt = d) = 0.
Ainda, natural assumir que
P (Xt+1 = 0 | Xt = 0) = 1,
i i
i i
i i

i i
P (Xt+1 = C | Xt = C) = 1.
Isto o jogo termina ao ser alcanado um dos valores 0 ou C .

Note que estas informaes implcitas e ainda a informao P (X0 = c) = 1
so sucientes para calcular o valor de P (A) para um conjunto qualquer A
= {1, 2, ..., C}N que depende apenas de nitas restries temporais.
De fato, por exemplo, considere c xado,
1 1
P (X0 = c , X1 = c + 1) = P (X1 = c + 1 | X0 = c) p(X0 = c) = .1 = .
2 2
Note que natural no presente exemplo que, para i 0, e di , di+1 , di+2 S
valha
P (Xi+2 = di+2 | Xi = di , Xi+1 = di+1 ) = P (Xi+2 = di+2 | Xi+1 = di+1 ),
pois o valor de Xi no inuencia na probabilidade de Xi+2 = di+2 . claro

que a probabilidade de Xi+2 = di+2 inuenciada pelo valor Xi+1 = di+1 . Por
exemplo,
P (Xi+2 = 5 | Xi+1 = 3) = 0,
mas
1
P (Xi+2 = 5 | Xi+1 = 4) = .
2
Ainda, no caso em que c = 1,
1
P ({w|X0 (w) = 1, X1 (w) = 2, X2 (w) = 1}) = ( )2 .
2
usual denotar a probabilidade P quando assumimos que X0 = c, ou seja,

quando o capital inicial for c, por Pc . Este ponto de vista ser importante a
seguir. Vamos analisar a funo p(c) como funo de c.
Para cada c, em funo das condies de compatibilidade considere pelo
teorema de Caratheodori-Kolmogorov o processo Xt : S , t N, Pc ,
i i
i i
i i

i i
a probabilidade sobre = {0, 1, 2, ..., C}N e a sigma-algebra F (de certos

subconjuntos de ). A sigma-algebra F no depende de c.
Lembre que as famlias de variveis aleatrias Xt que consideramos aqui
sempre satisfazem a propriedade: se w = (w0 , w1 , w2 , ..., wn , ...) ento Xt (w) =
wt .
Nosso objetivo resolver o problema: quem p(c)? Ou seja, calcular a
probabilidade Pc (B) do conjunto
Bc = B = {w = (w0 , w1 , w2 , w3 , ...wt , ...) tal que w0 = c, wt = 0
para algum t > 0, e ainda ws = C para todo r tal que 0 < r < t } =
{w : X0 (w) = c, Xt (w) = 0 para algum t e Xr = C para 0 < r < t}.
Note que o conjunto Bc depende de innitas informaes.

Este conjunto Bc , est na sigma-algebra F . Fica claro, deste modo, a
necessidade de se ter de considerar na teoria uma sigma-algebra aonde ca
bem denido o conceito de probabilidade. Apenas as distribuies nito-
dimensionais no bastam e conjuntos mais complexos, que dependem de in-
nitas coordenadas, aparecem de maneira natural em problemas concretos.
Existem eventos w que nunca atingem qualquer dos valores C ou 0.
Por exemplo, no caso c = 2 e C = 5, o evento w = (w0 , w1 , w2 , w3 , ..., wt , ..) =
(2, 3, 2, 3, 2, 3, 2, 3, 2, 3, ...) possui tal propriedade.
Considere o conjunto
D = Dc = {w = (w0 , w1 , w2 , w3 , ..., wt , ...) = {0, 1, 2, ..., C}N ,
tal que w0 = c, wt = C e wt = 0 para todo t N }.
O conjunto D est tambm em F e Pc (D) = 0. Este resultado foi obtido

quando foi analisado o assim chamado passeio aleatrio com p = 1/2. De fato,
com probabilidade 1, comeando em c, o processo atinge qualquer ponto em
i i
i i
i i

i i
Z. Logo, restrito a S = {0, 1, . . . , C}, comeando em c o processo atinge 0 ou

C , com probabilidade 1.
Para ilustrar tal armao ao leitor vamos analisar um caso particular.
Considere C = 3 e xemos c = 1, ento o conjunto D acima tem apenas um
elemento
D = {(1, 2, 1, 2, 1, 2, 1, 2, 1, 2, ...)}.
Destacamos aqui o fato que um conjunto com apenas um elemento pode

ter probabilidade positiva.
Note que
D =
n=1 {w : X0 = 1, X1 = 2, X2 = 1, X3 = 2, ..., X2n1 = 2, X2n = 1},
e portanto D um conjunto mensurvel em F (obtido por interseo de con-

juntos de F indexados por um conjunto enumervel n N ) e assim faz sentido
perguntar pelo valor P (D).
Como vale a propriedade que se V U , ento P (V ) P (U ) (pois, P (V )
(P (V ) + P (U V )) = P (U )), ento, dado n N,
P (D) P ({w : X0 = 1, X1 = 2, X2 = 1, X3 = 2, ...,
1
X2n1 = 2, X2n = 1}) = ( )2n1 ,
2
para todo n. Note que tomando n grande o valor ( 12 )2n1 se torna arbitraria-
mente pequeno. Logo P (D) = 0.
Note que a demonstrao acima bem geral, na verdade este procedimento

mostra que dados uma seqncia de conjuntos A0 , A1 , A2 , A3 , ..., An , .. tais que
... An An1 An2 ... A4 A3 A2 A1 A0 ,
i i
i i
i i

i i
e
D = nN An ,
se limn P (An ) = 0, ento P (D) = 0.
Uma fcil generalizao disto mostra que se D = nN An , e
... An An1 ... A2 A1 A0 ,
ento P (D) = limn P (An ). Esta a assim chamada propriedade mon-

tona e que vlida para qualquer probabilidade P .
Esclarecidos estes pontos de grande importncia, vamos voltar ao nosso
problema.
Considere xado o nmero natural c. Segue da regra de Bayes que para c
tal que C > c > 0, vale que
p(c) = Pc (Bc ) = Pc ({w Bc }) =
Pc ({w Bc : X1 = c + 1}) Pc ({X1 = c + 1})+

Pc ({w Bc : X1 = c 1}) Pc ({X1 = c 1}) =
1 1
Pc ({w Bc : X1 = c + 1}) + Pc ({w Bc : X1 = c 1}) .
2 2
O ponto fundamental agora que para c tal que 0 < c < C , vale que
p(c + 1) = Pc ({w Bc : X1 = c + 1}) e p(c 1) = Pc ({w Bc : X1 = c 1}).
A armao acima, que absolutamente intuitiva, requer uma prova, a
qual ser apresentada em breve.
Obtemos assim equao de diferenas
1
P ({w : X0 (w) = c, Xt (w) = 0 para algum t}) = p(c) = (p(c 1) + p(c + 1)),
2
com a condio inicial e nal, respectivamente, p(0) = 1 e p(C) = 0. A soluo
desta equao
c
p(c) = 1 ,
C
i i
i i
i i

i i
como pode ser conrmado por substituio na equao.

Esta frmula d o valor exato da dependncia da probabilidade p(c) em
funo da proximidade de c a C .
Vamos mostrar como se obtem a soluo p(c) = 1 Cc , da equao de
diferenas
1
p(c) = (p(c 1) + p(c + 1)),
2
sujeita a condio de contorno p(0) = 1 e p(C) = 0.
Denote por an = p(n) p(n 1).
Ora,
p(n 1) + p(n 1) = 2 p(n 1) = (p(n 2) + p(n)),
ento,
an1 = p(n 1) p(n 2) = p(n) p(n 1) = an .
Sendo assim, procedendo de maneira indutiva a partir de a1 , obtemos que
p(n) = n a1 + p(0).
Como p(0) = 1 e
0 = p(C) = Ca1 + 1,
temos que
1
a1 = .
C
Logo,
1
p(c) = c ( ) + 1.
C
Em concluso: utilizando a Regra de Bayes, ou seja condicionando, obtive-
mos uma equao de diferenas e a partir da obtivemos a soluo do problema
que buscvamos. No foi necessrio calcular a probabilidade de nenhum con-
junto especco! Variaes destas ideias nos permitem obter solues explcitas
do valor de certas probabilidades que se deseja encontrar em inmeros casos.
Uma das Regras de Ouro da Probabilidade: na dvida, condicione!
i i
i i
i i

i i
Vamos agora apresentar o argumento que deixamos para depois nas con-
sideraes do exemplo acima. Usando a notao deste e da ltima proposio
acima considere sobre sobre S = {0, 1, 2, ..., C} o conjunto B = Bc descrito
acima.
Sendo assim, supondo c + 1 < C , a partir da ltima proposio, temos que
P ( (X2 , X3 , X4 , ...) B, X1 = c + 1, X0 = c) =
Pc+1 ( (c + 1, X2 , X3 , X4 , ...) B) P ( X1 = c + 1, X0 = c) =
Pc+1 ( (c + 1, X2 , X3 , X4 , ...) B) Pc , c+1 .
Logo,
Pc ( B | X1 = c + 1) = Pc+1 ( (c + 1, X2 , X3 , X4 , ...) B) = p(c + 1).
Exerccio: Considere o mesmo problema acima, s que desta vez assuma que
a probabilidade de ganhar p, onde 1 > p > 0, e no apenas 1/2. De maneira
anloga, denote por p(c) a probabilidade de bancarrota, quando se comea
com capital c. Condicionando, determine a equao
p(c) = p p(c + 1) + (1 p) p(c 1).
A seguir resolva a equao de diferenas (com a condio de fronteira p(0) =

1 e p(C) = 0) e encontre
[(1 p)/p]c [(1 p)/p]C

p(c) = .
1 [(1 p)/p]C
Exerccio: Considere dois jogadores 1 e 2 com o capital inicial do jogador 1

igual a a > 0 enquanto que b > 0 o capital inicial do jogador 2, onde a e
b so nmeros naturais positivos. O total de capital d = a + b. Em cada
jogada o jogador 1 tem chance p de ganhar 1 real e tem chance q de perder 1
i i
i i
i i

i i
real, onde p + q = 1. O jogador 2, por sua vez, tem chance q de ganhar 1 e p

de perder 1 real em cada jogada.
Seja Xn o capital do jogador 1 na n-sima jogada.
O jogo termina quando um dos jogadores est arruinado. Perguntas de
interesse:
1) O jogo acaba sempre? Isto ser que K = {w = (wt ) , tal existe t
tal que wt {0, d} } satisfaz P (K) = 1?
2) Qual o valor P (o jogador 1 car arruinado)? Isto se V = {w =
(wt ) , tal existe t tal que wt {0} }, qual o valor P (V )?
3) Qual o valor P (o jogador 2 car arruinado)? Isto se U = {w =
(wt ) , tal que existe t tal que wt {d} }, qual o valor P (U )?
Dado um processo estocastico Xn : R, (uma probabilidade sobre S N )

onde para cada w = (w0 , w1 , w2 , .., wn , ..) S N , temos que Xn (w) = wn , e
um tempo de parada T . O processo estocastico XT naturalmente denido
atraves das funes (XT )n , n N:
(XT )n (w) = Xn (w), para n < T (w), e (XT )n (w) = XT (w) para n T (w).
Fica assim denida uma funo G : tal que
G(w) = (w0 , w1 , .., wT (w)1 , wT (w) , wT (w) , ..., wT (w) , ...).
A um processo estocastico est associada uma probabilidade PT sobre S N .

Assim, precisamos denir PT sobre cilindros.
Suponha que P seja a probabilidade sobre S N associada ao processo es-
tocstico Xn : R.
Assim, estabelecemos que
PT ((XT )0 = a0 , (XT )1 = a1 , .., (XT )k = ak ) =
P ( G1 ({X0 = a0 , X1 = a1 , .., Xk = ak } ) ).
Fica assim denida a probabilidade PT sobre S N .
i i
i i
i i

i i
Seja T tempo de parada e Xn , n N, processo de Markov, vamos mostrar

um resultado geral a seguir que como caso particular diz: seja S = {1, 2, 3, 4},
ento
PT (XT +1 = 2, XT +2 = 3, XT +3 = 2 | XT = 1) =
P (X1 = 2, X2 = 3, X3 = 2 | X0 = 1).
Teorema 2.28 (Propriedade Forte de Markov). Seja Xn Processo de

Markov obtido a partir de P e . Considere T tempo de parada. Suponha
que P (T < ) = 1. Ento, condicionando em XT = i, o Processo Estocs-
tico {Ym }mN tal que Ym = XT +m se torna uma Processo de Markov (com
probabilidade inicial ei e matriz de transio P ).
Mais precisamente,
P (XT = s0 , XT +1 = s1 , ..., XT +m = sm |XT = i) =
P (X0 = s0 , X1 = s1 , ..., Xm = sm | X0 = i).
Demonstrao: Seja n xo. Note primeiro que
{T = n}{XT = i} = {X0 {i}, X1 {i}, ..., Xn1 {i}, Xn = i}.
Vamos considerar a seguir os conjuntos Ar = {i}, onde n > r 0, no

resultado anterior.
Para n e m xos, pela propriedade (fraca) de Markov descrita pelo ltimo
teorema
P ({XT = s0 , XT +1 = s1 , ..., XT +m = sm } {T = n} {XT = i}) =
P (XT = s0 , ..., XT +m = sm | T = n, XT = i) P ({T = n} {XT = i}) =

Pi ({X0 = s0 , X1 = s1 , ..., Xm = sm } P ({T = n} {XT = i} )).
i i
i i
i i

i i
Agora somando sobre n N obtemos
P ({XT = s0 , XT +1 = s1 , ..., XT +m = sm } | {T < } {XT = i} ) =

P ({XT = s0 , XT +1 = s1 , ..., XT +m = sm } {T < } {XT = i} )
=
P ({T < } {XT = i})
P ({XT = s0 , XT +1 = s1 , ..., XT +m = sm } {T = n} {XT = i} )
=
nN
P ({T < } {X T = i})
P ({X0 = s0 , X1 = s1 , ..., Xm = sm }) P ({T = n} {XT = i} )

nN
P ({T = n} {X T = i})
P ({T = n} {XT = i} )
=
P ({T < } {XT = i} )
P ({T = n} {XT = i} )
P (X0 = s0 , X1 = s1 , ..., Xm = sm ) =
nN
P ({T < } {XT = i})
Pi (X0 = s0 , X1 = s1 , ..., Xm = sm ).
Corolrio 2.7. Propriedade Forte de Markov - Seja Xn Processo de Markov
obtido a partir de P e . Seja i xo e suponha que Ti o tempo de primeiro
retorno a i comeando em i. Ento condicionado a Ti e Ti < , o Processo
Estocstico {Yn }nN dado por Yn = XTi +n satisfaz
P (XTi = s0 , XTi +1 = s1 , ..., XTi +n = sn , | XTi = i , Ti < ) =
P (X1 = s1 , ..., Xn = sn | X0 = i , Ti < ).
A demonstrao basicamente a mesma do teorema anterior.

Note que, o Teorema acima no vale para T que no seja tempo de parada.
De fato, seja S = {1, 2, 3} e P tal que tem todas as entradas positivas. Con-
sidere T tal que T () = n se no tempo n a primeira vez que aparece 1
seguido por 2 (no tempo n + 1).
i i
i i
i i

i i
Ento, se valesse o Teorema obteramos, em particular, que vale
0 = P (XT +1 = 3 | XT = 1 ) =
P (X1 = 3 | X0 = 1) = P13 > 0,
o que uma contradio.
Este resultado nos mostra que necessrio ser bastante cuidadoso no uso
de nossa intuio. Olhando de maneira supercial, somos levados a crer pela
propriedade fraca de Markov" que aps atingir no tempo aleatrio T o valor
1, o processo comea a partir da com completa perda de memria do passado
e com a lei inicial determinada pela cadeia de Markov. Isto s vale se o tempo
aleatrio T um tempo de parada. A denominao propriedade forte de
Markov se deve ao fato de utilizarmos no resultado acima um tempo de parada.
Proposio 2.26. Seja P cadeia de Markov sobre S e considere a decom-

posio S = ST SR = ST C1 C2 C3 ..., onde Cr so conjuntos recorrentes
irredutveis fechados. Seja T (w) o tempo de parada que o primeiro tempo t
tal que = (wt ) atinge S ST . Suponha que P (T () < )) = 1.
Se deixa ST ento ele vai atingir um certo Cr . Para Cr xo, vale
P (XT +n Cr , para todo n 1 | XT Cr ) = 1.
Demonstrao: Primeiro, note que
P (X1 Cr | X0 Cr ) = 1.
De fato,
P (X1 Cr | X0 Cr ) =
P (X1 Cr , X0 Cr )
=
P (X0 Cr )
P (X1 Cr , X0 Cr ) + P (X1 S Cr , X0 Cr )
=
P (X0 Cr )
i i
i i
i i

i i
P (X0 Cr )
= 1.
P (X0 Cr )
Usamos acima o fato que Cr fechado e assim P (X1 S Cr , X0 Cr ) = 0.
Suponha agora que para k xo
P (Xn Cr , para todo n tal que k n 1 | X0 Cr ) = 1.
Ento,
P (Xn Cr , para todo n tal que k + 1 n 1 | X0 Cr ) =
P (Xn Cr , para todo n tal que k + 1 n 1 , X0 Cr )

=
P (X0 Cr )
P (Xn Cr , para todo n tal que k + 1 n 1 , X0 Cr )

P (X0 Cr , X1 Cr )
P (X1 Cr , X0 Cr )
=
P (X0 Cr )
P (Xn Cr , para todo n tal que k + 1 n 2 | X0 Cr , X1 Cr )
P (X1 Cr | X0 Cr ) =
P (Xn Cr , para todo n tal que
k + 1 n 2 |X1 Cr ) P (X1 Cr | X0 Cr ) =
P (Xn Cr , para todo n tal que k n 1 |X0 Cr ) = 1.
Acima usamos a propriedade fraca de Markov.
Logo, por induo, para todo k vale que
P (Xn Cr , para todo n tal que k n 1 |X0 Cr ) = 1.
Interceptando sobre todos os k N obtemos
P (Xn Cr , para todo n tal que n 1 |X0 Cr ) = 1.
i i
i i
i i

i i
Agora, utilizando a propriedade forte de Markov
P (XT +n Cr , para todo n 1 | XT Cr ) =
P (Xn Cr , para todo n 1 |X0 Cr ) = 1.
O resultado acima nos arma que se estivermos interessados no compor-

tamento do caminho = (wt ), para valores grandes de t, podemos assumir
que nosso sistema est determinado por uma cadeia de Markov P irredutvel
e recorrente. De fato, dada uma cadeia qualquer P , se com probabilidade 1
vale que um caminho deixa os transientes, ento o caminho entra num Cr e
no sai mais de l. Nem sempre vale que probabilidade 1 um caminho deixa os
transientes, como por exemplo, no passeio aleatrio (1/2, 1/2) sobre Z, onde
todos os estados so transientes. No entanto, se a cadeia for nita, com prob-
abilidade 1, em algum momento t, o caminho = (wt ) deixa o conjunto dos
transientes. Isto acontece porque o conjunto dos transientes, neste caso, no
fechado (ver Proposio 2.18).
Exemplo 2.49. Vamos analisar em todos os aspectos a cadeia de Markov

sobre S = {1, 2, 3, 4} com a seguinte matriz de transio:

1/2 0 1/2 0
0 1/3 2/3 0

P = .
1/4 0 3/4 0
0 0 1/2 1/2
a) Primeiro vamos analisar as Classes de equivalncia:
C0 = {1, 3} C1 = {2} C2 = {4}
C0 fechada; C1 e C2 no so fechadas
i i
i i
i i

i i
Figura 2.10:
1 1 1 3
P (1, 1) + P (1, 3) = + = 1 = + = P (3, 1) + P (3, 3)
2 2 4 4
Logo, a C.M. no irredutvel
b) Agora vamos analisar a Periodicidade.
d(1) = mdc {1, 2, 3, 4, } = 1 = d(3)
d(2) = mdc {1} = 1 = d(4)
Os estados so aperidicos.
c) Desta vez consideramos a Classicao dos Estados.

( )2
1 11 131 1 3 1
f11 = + + + + =
2 2 4 ( ) 2 4 4 2 4 4
n
= 12 + 18 n0 34 = 12 + 81 1 1 3 = 12 + 18 4 = 1
4
Logo, C0 classe recorrente.
1 1
f22 = < 1, f44 = < 1
3 2
Logo, C1 e C2 so classes transientes.
d) Agora a vez de analisar a Classicao dos Estados Recorrentes.
i i
i i
i i

i i
( )2
n 1 11 131 1 3 1
E1 (T1 ) = n f11
= +2 +3 +4
n1
2 24 244 2 4 4
( )3 ( )
1 1
n
1 3 1 3 1 3
+5 + = + n = + =2
2 4 4 2 8 n=0 4 2 2
Observao : Se mostrarmos que C0 = {1, 3} irredutvel e aperidica com
uma nica distribuio estacionria, ento ela uma classe recorrente positiva.
Observe que:
( )
1/2 1/2
P1,3 =P= .
1/4 3/4
1 1
P0 = (1) + (3) = (1) 2(1) 4(1) + (3) = 0
2 4
2(1) = (3)
e
1 3
(1) + (3) = (3).
2 4
Como (1) + (3) = 1 temos (3) = 1 (1) e
1
2(1) = 1 (1) 3(1) = 1 (1) = .
3
( )
1 2
Logo, = , .
3 3
Conclumos assim que os estados em C0 so recorrentes positivos.
e) Queremos agora obter a distribuio estacionria . Ela ser nica?

Sabemos que
i i
i i
i i

i i

i recorrente P n (i, j) =
n1

i transiente P n (i, j) <
n1

Como 2 e 4 so transientes temos que P n (i, j) < i, j = 2, 4.
n1
e, portanto, P n (i, j) 0 i (j) = 0 sempre que j transiente.

n
Portanto, (2) = 0 = (4). Logo a distribuio estacionria dada por
= (1/3, 0, 2/3, 0) e nico.

De outra maneira:

1/2 0 1/2 0
0 1/3 2/3 0

((1) (2) (3) (4)) = ((1) (2) (3) (4)).
1/4 0 3/4 0
0 0 1/2 1/2
1 1

(1) + (3) = (1)

2 4

1

(2) = (2)
3
= =

1 2 3 1

(1) + (2) + (3) + (4) = (3)

2 3 4 2

1
(4) = (4)
2
i i
i i
i i

i i
2.10 Processos de Nascimento e Morte 195

1 1

= (3) 2(1) = (3)

2 4

= (2) = 0

(4) = 0

4
Como (j) = 1 temos que = (1/3, 0, 2/3, 0).
j=1
2.10 Processos de Nascimento e Morte

Denio 2.24. Uma cadeia (ou processo) de nascimento e morte uma
cadeia de Markov que tem a matriz de transio da forma

r0 po 0 0 0

q1 r 1 p 1 0 0

P=
0 q 2 r2 p2 0
,
0 0 q r p
3 3 3
.. .. .. .. ..
. . . . .
onde qi , ri , pi , i = {0, 1, 2, 3, . . . }, so tais que
pi + qi + ri = 1.
Assumimos que pi > 0 e qi > 0 para todo i. Desta forma a cadeia sempre
irredutvel.
Os pi esto associados a taxa de nascimento e os qi a taxas de morte (se a
populao i). Uma pergunta natural o que vai acontecer com a populao
se o modelo descrito por tal sistema de taxas. Em termos estatsticos, vai
ocorrer extino ou a populao cresce sem limites?
i i
i i
i i

i i
usual tambm denotar por cadeia de nascimento e morte uma cadeia

tal que tem conjunto de estados S = {0, 1, 2, . . . , d}, satisfaz as propriedades
correspondentes acima, e da forma

r0 po 0 0 0 0 . 0

q1 r 1 p 1 0 0 0 . 0

0 q 2 r2 p2 0 0 . 0

0 0 q3 r 3 p 3 0 . 0 ,

. . . . . . . . .

0 0 0 . . 0 qd1 rd1 pd1

0 0 0 . 0 . 0 qd rd
A cadeia acima tambm recorrente.

Se alguns dos ri no nulo a cadeia aperidica. A cadeia de nascimento e
morte um modelo bastante utilizado em aplicaes. Vamos analisar a seguir
tais cadeias, classicar o estado 1 e calcular a distribuio estacionria.
Vamos agora calcular a Distribuio Estacionria para o Processo de

Nascimento e Morte. Consideraremos a cadeia de Nascimento e Morte em
{0, 1, , d} ou S = N.
Suponhamos que a cadeia irredutvel, i.,
pi > 0; 0 i < d
qi > 0; 0 < i d,
ou, se d = ,
pi > 0 para i 0,
qi > 0 para i > 0.
Supondo que d = . Ento

(i) P (i, j) = (j), j S
i0
equivalente a
i i
i i
i i

i i

(0) = (0) r0 + (1) q1

(j) = (j 1) pj 1 + (j) rj + (j + 1) qj + 1 , j 1.
Como, pi + qi + ri = 1 as equaes em se reduzem a

qi (1) po (0) = 0

qj + 1 (j + 1) pj (j) = qj (j) pj 1 (j 1) , j 1.
Segue que
qj + 1 (j + 1) pj (j) = 0 j 0
pi
= (j + 1) = (j) j 0
qj + 1
p0 , p1 , , pi 1
= (j) = j 1.
q1 , q 2 , , q j
Portanto,

(0) se j = 0

(j) =

p , p , , pj 1
o i (0), se j 1
q1 , qj

Como buscamos tal que (j) = 1 , temos que
j 0

p0 pj 1
1 = (0) + (0) =
j 1
q1 qj
1
(0) = =

p0 pj 1
1 +
j 1
q1 qj
1
=

p0 pj 1
j 0
q1 qj
Obtemos assim a expresso do termo geral,
i i
i i
i i

i i
p0 p1 pj 1
q 1 qj
(j) = (2.9)
p0 p1 pj 1
j 0
q 1 qj

p0 pj 1
Ento, se < , a cadeia tem uma nica distribuio
j 0
q1 qj
estacionria dada pela expresso que obtivemos antes.

p0 pj 1
Se = , ento qualquer soluo ou identicamente
j 0
q1 qj
nula ou tem soma innita.
Se d = #S nito, procedendo de maneira similar se obtem que a dis-
tribuio estacionria nica e dada por
p0 pj 1
q1 qj
(j) = d , 0 j d.
p0 pi 1
i=0
q 1 qi
Vamos agora abordar outros tpicos.

Fixado i S , sejam a S e b S tais que a < i < b. Por denio
Ta = Ta,i denota o tempo em que pela primeira vez, saindo de i em tempo 0,
se atinge o estado a. A mesma coisa para Tb = Tb,i .
Lema 2.2. Considere o intervalo de a=0 a b = n, ento,
lim P (T0,1 < Tn,1 | X0 = 1) =

n
P ( { | T0 () < Tn () para algum n > 1 | X0 = i} ).
Este lema ser demonstrado aps a apresentao de um exemplo que ilustra

bem a teoria que est sendo desenvolvida nesta seo.
i i
i i
i i

i i
Note que se
P ( { | T0 () < Tn () para algum n > 1 | X0 = i} ) = 1,
ento 1 recorrente, pois dado um caminho = (wt ), para P -quase todo ,

existe n, tal que T0 < Tn , w0 = 1 e ainda existe t < Tn tal que wt = 0. Logo,
para algum s > 0 temos que ws = 1. De fato, como p0 > 0,
P ( { | existe k > 0, tal que para todo t > k temos que wt = 0} ) = 0.
Logo, podemos usar o Teorema 2.17 para concluir que 1 recorrente. Desta
forma, neste caso, todo estado i S recorrente.
Assumindo a validade do lema 2.2 (demonstrao em breve) podemos
seguir. Vamos mostrar que sob a hiptese

q1 q2 qr
= ,
p p pr
r=1 1 2
ento
P (T0,1 < | X0 = 1) = 1.
A hiptese acima, em que o somatrio innito, indica que, neste caso, os

qi (que so as probabilidades que trazem cada estado a um de menor valor)
agem coletivamente de forma que suplantam em intensidade o efeito dos pj
(que conduzem cada estado a um de valor maior).
q1 q2 qr
Lema 2.3. Assumindo que r=1 p1 p2 pr = , ento
P (T0,i < | X0 = i) = 1.
Demonstrao: Sejam a, b S com a < b. Denimos para i tal que

a < i < b,
(a) (i) = Pi (Ta < Tb ) = P (Ta < Tb |X0 = i), para a i < b
i i
i i
i i

i i
(b) (a) = 1 e (b) = 0.

fcil ver, condicionando no tempo 1 a partir do tempo 0 em de i, que
esta funo satisfaz a relao = P , ou seja,
(i) = qi (i 1) + ri (i) + pi (i + 1),
para todo i tal que a i < b.

Vamos a seguir estimar (i) = Pi (T0 < Tn ), quando i est ente 0 e n.
Sejam a e b xos e a < i < b,
Como ri = 1 qi pi temos que
(i) = qi (i 1) + (1 qi pi ) (i) + pi (i + 1),

isto ,
pi (i + 1) pi (i) = (i) (1 qi ) (i)
qi (i 1) = qi [ (i) (i 1)] .
Assim,
qi
[ (i + 1) (i) ] = [ (i) (i 1)].
pi
Portanto, procedendo indutivamente quando i > a
qi qi1 qa+1
(i + 1) (i) = [ (a + 1) (a)]
pi pi1 pa+1
Seja
q1 q2 qr
r = e 0 = 1.
p1 p2 pr
Assim,
i
(i + 1) (i) = ( (a + 1) (a) ) ().
a
Somando a igualdade (*) sobre i entre a e b 1, atravs de cancelamentos,
temos
i i
i i
i i

i i
b1
1
0 1 = (b) (a) = [ (a + 1) (a) ] i .
a i=a
Desta forma,
a
(a + 1) (a) = b 1 .
i=a i
Substituindo este valor acima em (*) obtemos
i
(i + 1) (i) = b 1 ,
j =a j
para todo i tal que, a i < b.
Somando sobre j , entre i e b 1, atravs de cancelamentos, temos
b 1
j =i i
0 (i) = (b) (i) = b 1 .
j =a j
Conclumos assim que
b1
j=i j
Pi (Ta < Tb ) = (i) = b1 .
j=a j
Para i e a xos, a < i, seja b = n e vamos fazer n tender a innito. Suponha

que j=a j = , ento
n1 n1
j=i j j=i j
lim (i) = lim n1 = lim i1 n1 =
n n
j=a j n
j=a j + j=i j
1
= lim i1 n1 = 1.
n j=a j j=i j
n1 + n1
j=i j j=i j
Logo, mostramos que para a < i xos,
lim P (Ta < Tn |X0 = i) = lim (i) = 1.

n n
i i
i i
i i

i i
Segue do lema anterior que para a = 0 e i qualquer
P (T0,i < | X0 = i) = 1.

Note que se acontecer de j=a j = , ento a cadeia transiente. De
fato, neste caso, fcil ver, a partir da expresso acima, que
n1
j=i j
lim (i) = lim n1 < 1.
j=a j
n n
Exemplo 2.50. Considere a Cadeia de Nascimento e Morte em
S = {0, 1, 2, . . . },
denida por
i+2
pi =
2(i + 1)
e
i
qi = ,
2(i + 1)
para todo i 0.
Vamos mostrar que a cadeia transiente. De fato, note que qi
pi
= i
i+2
. Logo,
1, 2, , i 2
i = = = .
3, 4, , (i + 1) (i + 2) (i + 1) (i + 2)
1 1
= 2( ).
i+1 i+2
Ento

( 1 1
)
i = 2 =
i1 i1
i+1 i+2
i i
i i
i i

i i
( )
1 1 1 1 1 1
= 2 + + + =
2 3 3 4 4 5
1
= 2. = 1 < .
2
Logo, a cadeia transiente.
Vamos agora demonstrar o lema 1.2 que havia sido mencionado antes.
Demonstrao: De fato, vamos demonstrar que se
A = { | T0 () < Tn () para algum n > 1},
ento,
1
P1 (A) = lim P1 (T0 < Tn ) = 1 .
n

j
j 0
Sabemos que

n 1
j
j =1 0
(1) = P1 (T0 < Tn ) = = 1 =

n 1 1
n
j j
j =0 j =0
1
= 1 , (2.10)

n 1
j
j =0
J que 0 = 1.
i i
i i
i i

i i
Estamos considerando a cadeia comeando no estado 1. Um dado caminho

= (wn )nN , pode se mover no mximo um passo para a direita ao longo de
S = N, em cada unidade de tempo.
Ento, para cada ,
1 T2 () < T3 () < (),

logo,
An = { | T0 () < Tn ()}, n > 1 , forma uma seqncia no decres-
cente de conjuntos (ou, eventos).
Assim,
lim Pi (To < Tn ) = Pi (T0 < Tn para algum n > 1).
n
Como a desigualdade () implica em Tn n temos para cada xo que
Tn () .
n
Logo,
lim P (T0 < Tn ) = Pi (A).

n
Por (1), P1 (A) = lim P1 (T0 < Tn ) = lim (1) = lim 1
n n n
1 1
= 1

n 1
j
j 0
j =0
Se j 0 j = , ento
P1 ( { | T0 () < Tn () para algum n > 1} ) = 1.
Exemplo 2.51. Um jogador na roleta faz uma srie de apostas de um real

cada vez, iniciando com o capital de 10 reais. Ele tem probabilidade 9/19
de ganhar um real e 10/19 de perder um real em cada aposta. O jogador
i i
i i
i i

i i
estabelece a princpio que vai parar quando seu capital atingir o valor 35 reais,
ou que os resultados so tais que perde os dez reais iniciais, e assim atinge o
capital zero. Vamos obter aqui solues explcitas.
Primeiro vamos calcular a probabilidade do jogador atingir os 35 reais.
Considere Xn o capital do jogador no instante n, sendo assim temos que
X0 = 10.
Usando a notao acima, (Xn )n 0 forma uma cadeia de Markov de Nasci-
mento e Morte com S = {0, 1, 2, . . . , 35},
pi = 9/19, 0 < i < 35, razo de nascimento;
qi = 10/19, 0 < i < 35, razo de morte;
ri = 0, 0 < i < 35.
Note que o jogador estabeleceu a priori que 0 e 35 so estados absorventes.
Neste caso, usando a notao acima, a = 0, b = 35 e i = 10.
Ora, P10 (T35 T0 ) = 1 (10) e
34
i ( )i ( )i
i = 10 q1 , , q i 10/19 10
(10) = 34 onde i = = = .
p1 , , p i 9/19 9
i
i=0
Assim,

9
9
i (10/9)i
i=0 i=0 1 (10/9)10
1 (10) = = = = 0, 047.
34 34 1 (10/9)35
i (10/9)i
i=0 i=0
Desta forma, a probabilidade do jogador atingir o capital 35 reais de
0.047.
Com probabilidade 1 os caminhos atingem o valor 0 ou o valor 35. Logo, a
probabilidade do jogador atingir o capital 0 0, 953.
Vamos calcular o ganho esperado.
i i
i i
i i

i i
Ora, ele perde dez reais, ou seja seus ganhos so 10 reais com probabili-
dade 0, 953. Seus ganhos so +25 reais com probabilidade 0, 047.
Valor esperado do ganho: 10 0, 953 + 25 0, 047 = 9.53 1.17 =

8, 36.
2.11 Apndice - Cadeias de Markov de Ordem

Superior
Seja S = {1, 2, 3, .., d} o espao de estados e para cada 2-upla (x1 , x2 ) S S ,
considere p(x1 , x2 , x3 ) = px1 ,x2 (x3 ) R, onde x3 S , tal que px1 ,x2 : S R,
uma probabilidade sobre S , isto ,

px1 ,x2 (x3 ) = 1,
x3 S
e
0 px1 ,x2 (x3 ) 1.
Um processo estocstico Xt , onde t T N, tal que para todo n, e todo

xn , xn+1 , xn+2 S vale que
P (Xn+2 = xn+2 | Xn = xn , Xn+1 = xn+1 ) = p(xn , xn+1 , xn+2 ) =
pxn ,xn+1 (xn+2 ), ()
chamado de uma 2-cadeia de Markov.

Generalizando o que vimos antes, fcil ver que uma vez xado, uma
matriz 2 por #S
(p0x0 ,x1 )x0 ,x1 S ,
i i
i i
i i

i i
2.11 Apndice - Cadeias de Markov de Ordem Superior 207
tal que

p0x1 ,x2 = 1,
x0 ,x1 S
se assumirmos que
p0x0 ,x1 = P (X0 = x0 , X1 = x1 ),
ca determinado de maneira nica o processo Xt , ou seja, podemos calcular
P (X0 = x0 , X1 = x1 , ..., Xm = xm ),
para todo m N e x0 , x1 , ..., xm S .

Este processo ser chamado de uma 2-processo estocstico de Markov com
estados S .
Em algumas situaes do mundo real mais natural assumir que o que
acontece num momento depende no somente do estado anterior (no tempo),
mas sim (apenas) dos dois estados anteriores (no tempo). Neste caso, prefer-
vel modelar o problema atravs de um 2-processo estocstico de Markov.
Ressaltamos que para anlisar as propriedades deste processo estocstico
com espao de estados S e da 2-cadeia de Markov associada podemos fazer
recair o problema no estudo de uma cadeia de Markov como anteriormente
descrito. De fato, basta considerar uma cadeia de Markov em que o novo
espao S dos estados constitudo por pares (x1 , x2 ) S S . O que se faz
rebatizar os smbolos atravs de pares de elementos de S .
Vamos ilustrar esta armao atravs de um exemplo especco: suponha
S = {1, 2} e assuma que nos foi dada a informao
p1,1 : S R, p1,2 : S R, p2,1 : S R, p2,2 : S R.
Neste caso so um total de 8 nmeros reais, e vamos supor para simplicar

que so todos positivos.
Considere S = {1, 2, 3, 4}, onde identicamos 1 com (1, 1), 2 com (1, 2), 3
com (2, 1) e nalmente 4 com (2, 2).
i i
i i
i i

i i
Seja agora a matriz P = (p(i, j))i,j{1,2,3,4} , da forma 4 por 4, tal que traduz
a informao que nos foi concedida. Por exemplo, p(2, 3) = p1,2 (1) ou seja, do
par (1, 2) se passa para 1 com probabilidade p1,2 (1). Ainda, p(3, 4) = 0, pois
no se pode passar de (2, 1) para (2, 2), visto que a segunda entrada (2, 1) no
igual a primeira de (2, 2).
Neste caso,

p(1, 1, 1) p(1, 1, 2) 0 0
p(1, 2, 1) p(1, 2, 2)
0 0
P= ,
p(2, 1, 1) p(2, 1, 2) 0 0
0 0 p(2, 2, 1) p(2, 2, 2)
ou seja,

p(1, 1) p(1, 2) p(1, 3) p(1, 4)

p(2, 1) p(2, 2) p(2, 3) p(2, 4)
P= .
p(3, 1) p(3, 2) p(3, 3) p(3, 4)
p(4, 1) p(4, 2) p(4, 3) p(4, 4)
Note que se os oito nmeros p(i, j, k) inicialmente dados forem todos posi-
tivos ento P 2 , da forma 4 por 4, tem todas as entradas positivas e assim P
regular.
Pode-se considerar tambm 3-cadeias de Markov ou at n-cadeias de Markov.
Todos estes casos recaem no estudo de cadeias de Markov atravs de um pro-
cesso de rebatizar n-uplas de smbolos, em tudo similar ao descrito acima.
Dizemos que a cadeia de Markov tem ordem n no caso correspondente. O
caso inicialmente analisado por ns eram as 1-cadeia de Markov. Estamos
armando acima que toda n-cadeia de Markov pode ser analisada atravs de
uma 1-cadeia de Markov.
Voltando agora ao exame de problemas concretos (com conjunto de estados
S ) oriundos do mundo real, podemos nos perguntar num problema especco
se o modelo correto a ser considerado uma 1-cadeia de Markov, ou uma 2-
cadeia de Markov, ou ento uma 3-cadeia de Markov, etc. Quanto maior for
i i
i i
i i

i i
2.12 Exerccios 209
a ordem da cadeia, maior ser a a dimenso da matriz da nova 1-cadeia de

Markov associada P e mais complexa ser a anlise do problema.
Referimos o leitor a um exemplo muito interessante sobre a precipitao
de chuva em Snoqualmie Falls nos EUA apresentado na Seo (2.8) em P.
Guttorp [Gu]. Aps um detalhado estudo dos dados colhidos ao longo dos
anos, utilizando estimao de maximum likelihood, se compara a anlise do
problema atravs de uma 1-cadeia de Markov, uma 2-cadeia de Markov ou uma
3-cadeia de Markov. A melhor escolha cou em modelar o problema atravs
de uma 1-cadeia de Markov. J num outro exemplo sobre a fora do vento
na Irlanda, na mesma seo do livro, a escolha melhor foi para a modelagem
atravs de uma 2-cadeia.
Uma vez determinado o melhor modelo (em funo dos dados reais) se pode
fazer previses sobre a evoluo temporal do processo estocstico associado ao
problema em considerao.
2.12 Exerccios
1. Considere um jogador que ganha ou perde uma unidade com probabili-
dades p e q, respectivamente. Suponha que o seu capital inicial x e que
o seu adversrio tem um capital de a-x, a x (portanto, o capital inicial
total a). O jogo continua at que um dos jogadores que arruinado, ou
seja, at que o primeiro jogador aumente seu capital at a ou perde x.
a. Determine o espao de estados S.

b. Dena a C.M. (Xn )n0 .
c. Determine a matriz de transio para esta C.M..
2. Dena a cadeia de Markov e determine seu espao de estados e suas

matrizes de transio de primeira e segunda ordem para as seguintes
situaes:
i i
i i
i i

i i
a. Seis pontos so marcados em um crculo no sentido horrio. O pro-

cesso se move de um dos pontos para um de seus vizinhos com
probabilidade 12 .
b. Escolhe-se ao acaso um nmero X1 entre os inteiros de 1 a 7. Para
n > 1, Xn o nmero escolhido ao acaso entre os inteiros
1, 2, 3, , Xn1 .
c. A rea de atuao de um vendedor constituda de trs cidades, A,
B e C. Ele nunca vende na mesma cidade em dias sucessivos. Se
vende na cidade A, no dia seguinte vende na cidade B. Se vende em
B ou em C, ento no dia seguinte duas vezes mais provvel que
ele venda em A do que em outra cidade.
d. Considere lanamentos independentes de um dado honesto. Dena
Xn o menor dos nmeros que aparecem nos n primeiros lanamen-
tos.
3. Suponha que o nvel scio-econmico de uma pessoa classicado em trs

categorias: classe alta (A), classe mdia (M) e classe baixa (B). Suponha
que dos lhos de um homem da classe alta, 85% so de classe alta e 15%
so de classe mdia. J um indivduo de classe mdia, 10% so da classe
alta, 70% da classe mdia e 20% so da classe baixa. Dos lhos de um
homem da classe baixa, 25% so da classe mdia e 75% so da classe
baixa. Supondo que cada indivduo tem um lho, podemos formar uma
C.M. observando uma famlia atravs de geraes sucessivas.
a. Dena a C.M. (Xn )n1 .

b. Determine o espao de estados desta cadeia.
c. Determine a matriz de transio P da C.M..
d. Calcule P 2 e interprete seu resultado.
i i
i i
i i

i i
2.12 Exerccios 211
e. Suponha que um homem no tenha necessariamente um lho e que

0.85 a probabilidade de um indivduo qualquer ter um lho. Neste
caso, determine a matriz de transio da nova C.M.
f. O que voce pode dizer a respeito do estado introduzido no item (e)?
4. Trs tanques lutam entre si. O tanque A atinge seu alvo com probabil-
idade 1/2, o tanque B com probabilidade 2/3 e o tanque C com prob-
abilidade 1/3. Tiros so dados simultaneamente e quando um tanque
atingido, ele ca fora de ao. Como conjunto de estados escolha o
conjunto de tanques ainda em ao. Suponha que em cada passo (ou
etapa), cada tanque atira em seu oponente mais forte.
a. Verique se a seguinte matriz de transio descreve o processo correta:

1 0 0 0 0 0 0 0

0 1 0 0 0 0 0 0

0 0 1 0 0 0 0 0

0 0 0 1 0 0 0 0
P= .
1/3 1/6 1/3 0 1/6 0 0 0

1/6 1/3 0 1/6 0 2/6 0 0

2/9 0 4/9 1/9 0 0 2/9 0
0 0 0 8/18 0 4/18 4/18 2/18
O estado AC signica que os tanques A e C esto em ao; o estado
A signica que apenas o tanque A est em ao; o estado E signica
que nenhum tanque est em ao.
b. Modique a matriz de transio do item (a) assumindo que, quando
todos os tanques esto em ao, A atira em B, B atira em C e C
em A.
5. Seja X1 , X2 , uma seqncia de v.a.'s independentes (est claro o sen-
i i
i i
i i

i i
tido?). Dena Sn = X1 + X2 + + Xn . Mostre que (Sn )n1 um

processo Markoviano.
6. Cadeia de Ehrenfest. Suponha que existam d bolinhas que so enumer-

adas como 1, 2, , d. Inicialmente estas d bolinhas esto distribudas
em duas urnas. Um nmero entre 1 e d escolhido aleatoriamente e a
bolinha com esse nmero transferida da urna em que se encontra para
a outra. Seja Xn o nmero de bolinhas na urna 1 no instante de tempo
n. (Xn ; n 0) uma C.M. com matriz de transio dada por

i
d, j=i1
P (i, j) = 1 d, j = i + 1
i

0, j = i 1 e j = i + 1.
a. Descreva o espao de estados.
b. Determine a matriz de transio para este tipo de cadeia quando d=4.
a. Determine o espao de estados.
b. Determine a matriz de transio desta C.M.
7. No pas de OZ, no existem dois dias bons sucessivamente. Se eles

tem um dia bom, no prximo estar nevando ou chovendo. Se estiver
chovendo (ou nevando) a chance de 1/2 de permanecer no mesmo estado
no dia seguinte e de 1/4 de ser um dia com tempo diverso. Considere
a C.M. com estados N (nevando), C (chovendo) e B (dia bom).
a. Obtenha a matriz de transio.
b. Se 0 = (1/5, 2/5, 2/5), obtenha 1 e 2 .
c. Qual a distribuio n ?
i i
i i
i i

i i
2.12 Exerccios 213
8. Considere uma seqncia de experimentos da seguinte forma: primeiro

uma moeda honesta lanada. Ento, se no (n 1)-simo ensaio ocorre
cara, lanamos uma moeda com probabilidade 1/k de sair coroa; se ocorre
coroa, lanamos novamente a moeda honesta. Quais so as probabili-
dades de transio ?
9. Um jogador tem 2.00 dlares. Ele aposta 1,00 dlar de cada vez e ganha
1,00 dlar com probabilidade 1/2. Ele pra de jogar se perder os 2,00
dlares ou ganhar 4.00 dlares.
a. Determine a matriz de transio da C.M.

b. Qual a distribuio inicial?
c. Qual a probabilidade de que ele perca seu dinheiro aps no mximo
5 jogadas?
d. Qual a probabilidade de que o jogo dure mais do que 7 jogadas?
10. Um psiclogo faz os seguintes assentamentos a respeito do comporta-

mento de camundongos submetidos a um programa particular de ali-
mentao: para qualquer ensaio particular, 80% dos camundongos que
se dirigiram para a direita no experimento anterior, iro dirigir-se para
a direita neste ensaio, e 60% dos que se dirigiram para a esquerda no
experimento anterior, iro dirigir-se para a direita neste ensaio.
a. Descreva o espao de estados da C.M.

b. Determine a matriz de transio.
c. Se 50% se dirigiram para a direita no primeiro ensaio, o que o psiclogo
poderia prever com respeito ao segundo ensaio?
i i
i i
i i

i i
d. Em relao ao item (c), o que ele poderia prever com respeito ao

terceiro ensaio?
e. Em relao ao item (c), o que ele poderia prever com respeito ao
milsimo ensaio?
11. Um homem se encontra em algum ponto inteiro do eixo da abscissa

compreendido entre a origem e o ponto 6. Em cada etapa ele anda para
o ponto imediatamente esquerda com probabilidade q , ou para o ponto
imediatamente direita com probabilidade p, ou permanece no ponto
onde se encontra com probabilidade e (assim p + q + e = 1), a menos que
esteja na origem 0 ou no ponto 6. Neste ltimo caso ele caminhar para
o ponto imediatamente direita ou esquerda, respectivamente.
a. Descreva a v.a. Xn , n 1.
b. Descreva o espao de estados S .
c. Determine a matriz de transio de (Xn ; n 1).
12. Observao : Este exerccio um exemplo do Passeio Aleatrio. Con-

sidere a cadeia de Ehrenfest com d=3 (veja Exerccio 6) Sabe-se que a
matriz de transio desta cadeia dada por

3, j =i1
i
P (i, j) = 1 3i , j = 1 + i

0 , j = i 1 e j = i + 1.
a. Encontre P , P 2 , P 3 .
b. Supondo que a distribuio inicial dada por 0 = ( 14 , 41 , 14 , 14 ). en-
contre as distribuies 1 , 2 , 3 .
13. Mostre que se a um estado absorvente da C.M. (Xn )n0 ento P n (i, a) =
P (Xn = a)/X0 = i) = Pi (Ta n), n 1.
i i
i i
i i

i i
2.12 Exerccios 215
Sugesto: Use a denio de um estado absorvente e o fato que

n
n
P (i, j) = fijk P nk (j, j).
k=1
14. Prove que

Pi (Tj = 3) = P (i, k)Pk (Tj = 2).
k=j
15. Suponha que trs fabricantes de automveis mantiveram os seguintes da-

dos com respeito a compras dos clientes:
Compra Prxima Compra (n=1)

Presente (n=0) %Ford (0) %Chevrolet (1) %Volkswagen (2)
Ford (0) 40 30 30
Chevrolet (1) 20 50 30
Volkswagen (2) 25 25 50
a. Descreva a situao acima atravs de uma matriz de transio.
b. Interprete P(0,2), P(1,2) e P(2,0).
c. Se um cliente acabou de comprar um Ford, qual a probabilidade
dele comprar um Chevrolet daqui a 2 anos?
d. Suponha distribuio uniforme para X0 . Determine 1 .
e. Calcule P 2 = P P , 0 P 2 , 1 P .
f. Verique se a cadeia irredutvel ou no.
16. Considere a C.M. (Xn )n1 cuja matriz de transio dada por

0.4 0.6 0

P = 0.3 0 0.7 .
0 0 1.0
i i
i i
i i

i i
a. Determine as classes de equivalncia do espao de estados.

b. Calcule fii , para i S .
c. Determine 1 , 2 e 3 considerando 0 = (1, 0, 0).
17. Para suas frias anuais, um executivo seleciona um dos trs lugares: Eu-
ropa (E), Hava (H) ou Grcia (G) usando a seguinte regra.
Se ele foi Europa no ano passado, escolher o Hava com probabilidade
1/3 e Grcia com probabilidade 2/3.
Se ele foi ao Hava no ano anterior, escolher Europa, Hava novamente
e Grcia com probabilidades 1/2, 1/8 e 3/8, respectivamente.
Se ele foi Grcia no ano anterior, Europa e Hava so igualmente
provveis de serem escolhidas este ano.
a. Descreva o espao de estados.

b. Determine a matriz de transio.
c. Calcule P 2 .
d. Como voc classicaria as preferncias do executivo aps um longo
tempo? Isto , quem a distribuio estacionria?
18. Suponha que uma partcula se move entre trs posies 1, 2, e 3. Em

qualquer tempo, a probabilidade da partcula fazer um movimento no
sentido horrio p e a probabilidade da partcula se mover no sentido
anti-horrio 1-p, sempre provindo de uma posio prvia.
'$

f f

f
&%
a. Considere Yn a posio da partcula no n-simo tempo.
i i
i i
i i

i i
2.12 Exerccios 217
b. Determine a matriz de transio da C.M. (Yn )n1 e o seu espao de

estados.
c. Com distribuio inicial uniforme, isto , 0 = ( 13 , 13 , 31 ), calcule 1 e

2.
d. O que voc pode dizer da distribuio de n de Yn ?
e. Determine as classes de equivalncia de S.

f. Calcule f11 . Como voc classica os estados desta C.M.?
19. Seja (Xn )n0 uma C.M. com espao de estados {1,2,3,4} e matriz de
transio

1/2 1/2 0 0

1 0 0 0
P= .
0 1/3 2/3 0
1/2 0 1/2 0
a. Calcule fii , i S .
b. Classique os estados.
c. Obtenha as classes de equivalncia.
20. Passeio aleatrio em Z: Sejam Y1 , Y2 , Y3 , ... variveis aleatrias indepen-

dentes e identicamente distribudas assumindo valores em Z. Sejam
X0 = 0
Xn = Y1 + Y2 + ... + Yn , n 1
Xn+1 = Xn + Yn+1
Observe que (Xn )n0 satisfaz a propriedade de Markov pois Yn+1 inde-
pendente de Y1 , ..., Yn ento Xn+1 depende apenas de Xn .

Sejam P(Y1 = k) = ak , ak 0 e kZ ak = 1.
i i
i i
i i

i i
a. Calcule as probabilidades de transio P (i, j) = P (Xn+1 = j/Xn =

i).
b. Mostre que P (i, j) = P (0, j i).
c. Escreva a matriz de transio P .
21. Seja (Xn )n0 uma Cadeia de Markov com dois estados (0 e 1) cuja prob-
abilidade de transio de 0 para 1 p e de 1 para 0 q .
a. Prove que

n1
(0) = (1 p q) (0) + q
n n 0
(1 p q)j .
j=0
Sugesto: Use induo matemtica.
b. Para p = 0.3 e q = 0.9 determine n a partir de 0 .
c. Para a situao do item (b) determine P 5 e a distribuio conjunta

de (X0 , X1 ).
22. Cada projtil disparado pelo canho principal de um tanque, atinge ou

erra o alvo com uma probabilidade que depende do sucesso da descarga
anterior. Se o tiro anterior atingiu o alvo, h uma probabilidade rela-
tivamente alta de que o prximo tiro tambm atinja o alvo. Se o tiro
anterior no atingiu o alvo, preciso corrigir a posio do canho, e
a probabilidade de acertar ser menor no prximo tiro. O tanque e o
alvo podem estar ambos em movimento de modo que o conhecimento do
sucesso ou fracasso nos tiros anteriores (a menos do imediatamente ante-
rior) de pouca importncia quanto a predizer o sucesso ou fracasso do
prximo tiro. Assim, razovel supor que se esteja observando um pro-
cesso Markoviano estacionrio com espao de estados S = {0, 1} onde
i i
i i
i i

i i
2.12 Exerccios 219
0 = atinge o alvo" e 1 = no atinge o alvo". Suponha que a partir

de observaes no campo de batalha foi possvel obter estimativas das
probabilidades de transio de 1 passo:
3 3
P (0, 0) = , P (1, 0) = .
4 8
a. Prove que
P n+1 (0, 0) = P n (0, 0) + , (2.11)
onde = P (0, 0) P (1, 0) e = P (1, 0).
b. Aplique a Equao 2.11 repetidas vezes para obter

1 n
P n+1 (0, 0) = P 1 (0, 0)n + ( ),
1
sempre que = 1.
c. Obtenha as frmulas para P n (1, 1), P n (0, 1) e P n (1, 0) em termos de
, e = P (0, 1) mantendo similaridade com (1).
d. Calcule o limite de P n .
23. Considere (Xn )n0 uma C.M. com matriz de transio dada por

0 0 1/2 1/2 0

0 0 1 0 0

P= 1 0 0 0 0 .

1/9 0 3/9 0 5/9
1/9 0 0 5/9 3/9
a. Obtenha as classes de equivalncia.

c. Obtenha o perodo de cada estado.
i i
i i
i i

i i
d. Calcule P(T3 = +|X0 = 3).
24. Prove que P (i, j) > 0 = fij > 0, i, j S, mas o contrrio no

verdadeiro.
25. Cadeia de Nascimento e Morte : S=N

r0 p0 0 0 ... ...

q1 r 1 p1 0 . . . . . .

P= 0 q2 r2 p2 0 . . . ,

0 0
q3 r 3 p 3 0 . . .
.. .. .. .. ..
. . . . .
onde r0 0, p0 0, ri 0, pi > 0, qi > 0.
a. Verique se a C.M. (Xn )n0 irredutvel.
b. Verique que a C.M. aperidica se e s se algum ri > 0.
c. Considere o caso particular em que pn =p, n, qn =1-p, rn =0, n1 e

r0 =1-p. Conclua que
p < q a cadeia recorrente positiva;
p = q a cadeia recorrente nula;
p > q a cadeia transiente.

d. Existe distribuio estacionria? Se existe, nica?
26. Seja (Xn )n0 uma C.M. com espao de estados S={1,2,3,4,5} e matriz
de transio dada por
i i
i i
i i

i i
2.12 Exerccios 221

0 1 0 0 0

1/3 0 0 2/3 0

P=
1/2 0 1/2 0 0 .

1 0 0 0 0
3/8 0 3/8 0 2/8
a. Classique os estados.
b. Obtenha a distribuio limite quando n +.
c. Encontre o tempo mdio de recorrncia para todos os estados recor-
rentes.
27. Considere a C.M. (Xn )n0 cuja matriz de transio dada por

1/4 3/4 0

P = 1/3 1/3 1/3
0 1/4 3/4
a. Verique se a C.M. irredutvel.

b. Calcule f00 .
c. Utilize os itens (a) e (b) para classicar todos os estados.
28. Seja (Xn )n0 uma C.M. com espao de estados S = N {0} e matriz de
transio dada por

1/2 1/2 0 0 ...

1/2 0 1/2 0 . . .
P=

.
1/2 0 0 1/2 . . .

.. .. .. ..
. . . .

a. Obtenha f11
n
e f11 .
i i
i i
i i

i i
b. Determine fii , para todo i S {1}.
29. Considere a matriz estocstica

0 1 0 0

0 1/2 1/2 0
P= .
0 1 0 0
0 1/4 0 3/4
a. Classique os estados da C.M. (Xn )n0 cuja matriz de transio a

matriz P acima e cujo espao de estados S = {0, 1, 2, 3}.
b. Calcule fijn , para n {1, 2, 3} e i, j {0, 2}.
c. Calcule P 2 (1, 3).
d. Calcule Ei (N (j)), para i, j {0, 1}.
30. Suponha que existam duas urnas 1 e 2 e 2d bolas das quais d so brancas
e d so azuis. Inicialmente d bolas so colocadas na urna 1 e as restantes
na urna 2. A cada ensaio, uma bola escolhida ao acaso de cada uma
das urnas e elas so trocadas de lugar. Dena Xn = nmero de bolas
azuis na urna 1 aps n ensaios.
a. O processo (Xn )n0 uma C.M.? Justique sua resposta.
b. Obtenha a matriz de transio, se ela existir.
31. Um equipamento pode estar em uma das trs seguintes situaes: funcio-
nando (F), em conserto (C) ou parado (P) esperando por mais trabalho.
Este equipamento observado sempre que h uma mudana de estados
(situaes). Considere Xn = o estado aps a n-sima mudana. Suponha
que
i i
i i
i i

i i
2.12 Exerccios 223

0 1/2 1/2

P= 1 0 0 .
1 0 0
a. Calcule P 2 , P 3 , P 4 e P 5 .
b. Com base no item a, obtenha P 2n e P 2n1 .
c. Calcule P0 (T0 = n) para n = 2, 3, 4 e 5, onde 0 o estado F.
d. Qual a probabilidade P0 (T0 ser um nmero mpar)?
32. Considere uma C.M. com espao de estados S = {0, 1, , 4} e matriz

de transio

0 3/8 0 5/8 0

0 0 1/2 0 1/2

P=
0 0 1 0 0 .

1 0 0 0 0
0 0 0 1/2 1/2
a. Determine as classes de equivalncia de S.
c. Calcule P0 (T4 = 4) e P3 (T3 = 5).

d. Determine f00 e f11 .
e. Calcule E0 (N (2)).
f. Calcule P0 (N (4) = +).
33. Seja (Xn )n0 uma C.M. com espao de estados S = {1, 2, 3, 4} e matriz
i i
i i
i i

i i
de transio

1/2 1/6 1/6 1/6
0
0 0 1
P= .
0 0 0 1
1 0 0 0
a. Mostre que esta cadeia recorrente, irredutvel e aperidica.
b. Calcule P 2 , P 4 e P 8 . Use estes resultados para estimar Ej (Tj ), para

j S.
c. Obtenha a distribuio estacionria ((j))jS resolvendo o sistema

P = .
d. Compare os itens b e c.
34. Seja (Xn )n0 uma C.M. com espao de estados S = {1, 2, 3, 4, 5} e matriz
de transio

0 1 0 0 0

1/2 0 0 1/2 0

P= 1/3 0 2/3 0 0 .

1 0 0 0 0
1/4 0 1/4 0 1/2
b. Obtenha a distribuio limite de Xn quando n .
c. Encontre o tempo mdio de recorrncia para todos os estados recor-

rentes.
35. Seja (Xn )n0 uma C.M. com espao de estados S = {0, 1, 2, 3, } e
matriz de transio
i i
i i
i i

i i
2.12 Exerccios 225

0 1 0 0 0 ...

1/4 0 3/4 0 0 . . .
P=

.
1/4 0 0 3/4 0 . . .

.. .. .. .. ..
. . . . .
b. Encontre a distribuio limite, se existir.
36. Considere duas urnas U1 e U2 . A soma do nmero de bolas que esto nas
duas urnas N . Uma pessoa escolhe ao acaso uma bola (todas as bolas
tem a mesma probabilidade de serem escolhidas) da totalidade destas N
bolas (independente da urna em que esto). Ento se joga uma moeda
com probabilidade p de cair 1 (cara) e com probabilidade 1 p de sair 2
(coroa). A bola selecionada anteriormente depositada na urna U1 ou U2 ,
dependendo se saiu respectivamente 1 ou 2 quando jogamos a moeda. O
procedimento repetido indenidamente. Tome o conjunto de estados S
como S = {0, 1, 2, 3, ...N } e assuma que cada s S descreve o nmero de
bolas na urna U1 . Determine a cadeia de transio de Markov associada
ao procedimento.
37. Seja uma matriz estocstica P do tipo n por n. Mostre que se o estado i
pode ser atingido a partir de j (isto , existe k > 0 tal que (P k )j,i > 0),
ento existe r (n 1), tal que (P r )j,i > 0).
38. Considere o passeio aleatrio sobre os inteiros tal que para todo i Z
vale Pi,i+1 = p, Pi,i1 = 1 p e Pi,j = 0 para os outros casos de j Z.
Calcule (P m )0,0 e a seguir determine a funo geradora

P (s) = (P m )0,0 sm .
m=0
i i
i i
i i

i i
39. Nas mesmas hipteses do ltimo exerccio, para
= (w0 , w1 , w2 , ...),
tal que w0 = 0, seja T0 () = i, se i a primeira vez que wj = 0 (no caso de

tal no ocorrer T0 () = .) Considere o processo tal que P (X0 = 0) = 1.
Calcule a funo geradora

P (s) = P (T0 = m) sm .
m=0
i i
i i
i i

i i
Convergncia de Variveis
Aleatrias
Neste captulo vamos descrever alguns dos vrios sentidos em que uma se-
quncia de variveis aleatrias pode convergir a uma outra xada. Diversos
problemas em Probabilidade e Estatstica dependem do correto entendimento
destas questes.
Lembre que neste texto para analisar um Processo Estocstico tomando
valores em um conjunto S R consideramos uma probabilidade P sobre o
conjunto = S N . Ainda, se = (w0 , w1 , w2 , ..., wn , ...) = S N , ento, como
dissemos antes, assumiremos que Xn (w) = wn .

O valor esperado de , denotado por E(), a integral (w)dP (w). Se o
leitor desejar pode ver a formulao rigorosa no captulo 5 mas isto no ser
necessrio para o presente captulo.
Lembre que quando : R toma valores num conjunto nito este valor
E() obtido via a denio 1.13 (que consistente com o captulo 5). No caso
em que o espao de Bernoulii = {1, 2, ..., d}N e constante, digamos
nos cilindros de tamanho k xo, ento s toma nitos valores, e se pode usar
o caso mais simples da denio e que mencionado acima.
Por exemplo, se P uma probabilidade de Markov, k = 3 (acima), e tem
227
i i
i i
i i

i i
228 Convergncia de Variveis Aleatrias Cap. 3
o valor a0 ,a1 ,a2 no cilindro a0 , a1 , a2 , aj {1, 2, ..., d}, j = 0, 1, 2, ento

dP = a0 ,a1 ,a2 P (a0 , a1 , a2 ).
(a0 ,a1 ,a2 ){1,2,...,d}3
Exemplos numricos aparecem aps o exemplo 2.4.
3.1 Lei dos Grandes Nmeros

Sejam X1 , X2 , , Xn , variveis aleatrias independentes e identicamente
distribudas (ver denio na seo 0). Assim, se X1 integrvel, todas elas
sero e ainda E(Xn ) = E(X1 ), para todo n N.
Queremos mostrar que em algum sentido
1
lim (X1 () + + Xn ()) E(X1 ).
n n
Recomendamos o leitor a [GS] e [HPS] para uma descrio mais detalhada
do assunto.
O seguinte exemplo ilustrativo.
Exemplo 3.1. Jogue uma moeda honesta n vezes, de maneira independente

e conte o nmero de caras obtidas. O espao amostral = {(w1 , w2 , ) :
wn = cara ou wn = coroa, n N}. Associe a cara o nmero 1 e a coroa o
nmero 0. Neste caso = {0, 1}N .
{
1, se no n-simo lanamento ocorre cara
Xn (w) = X(wn ) = = IA ,
0, se no n-simo lanamento ocorre coroa
onde A = cara no n-simo lanamento.
Logo, X1 , X2 , , so variveis aleatrias independentes e identicamente dis-

tribudas, onde E(Xn ) = 12 . Ento, natural esperar que, para num conjunto
i i
i i
i i

i i
3.1 Lei dos Grandes Nmeros 229
de probabilidade 1, quando n ,
1 1
Sn () = (X1 () + + Xn ()) E(X1 ) = .
n 2
Isto porque sabemos, intuitivamente, que se jogarmos a moeda muitas
vezes, mais ou menos metade das vezes obteremos cara. Nesta seo desejamos
fazer armaes que sejam vlidas, por exemplo, para caminhos num con-
junto K S N = {0, 1}N , tal que P (K) = 1. Esta seria a maneira Matemtica
de formalizar o que indica a nossa intuio. Outras formas mais fracas desta
armao tambm so teis.
Vamos agora precisar o que estamos armando acima. Primeiro necessrio

descrever distintos tipos de convergncia.
Note que os resultados obtidos no presente contexto tem natureza diversa
do que foi analisado no captulo anterior. Uma coisa falar do limite de
P (Xn ) = j , para j xo, quando n vai a innito, outra fazer armaes para
um conjunto K de caminhos K S N . No primeiro caso nos bastaria o
conhecimento das distribuies nito-dimensionais de P sobre = S N , mas
no segundo caso no.
p
Denio 3.1 (Convergncia em Probabilidade). Denotamos Yn Y ,
se > 0, temos que
lim P ({ tal que | Yn () Y () | > } ) = 0,

n
onde Y, Yn so variveis aleatrias em (, A, P ).
O conceito acima descreve o fato que para valores grandes de n, de alguma

forma, as variveis aleatrias Yn e Y so aproximadamente iguais.
i i
i i
i i

i i
q.c.
Denio 3.2 (Convergncia Quase Certamente). Denotamos Yn Y ,
P ({ | lim Yn () = Y ()}) = 1.
n
O ltimo conceito acima descreve de outra forma o fato que para valores
grandes de n, as variveis aleatrias Yn e Y so aproximadamente iguais. Os
dois conceitos nem sempre coincidem.
p
Teorema 3.1. Yn Y quase certamente Yn Y .
Demonstrao: Suponha que Yn Y quase certamente. Queremos mostrar

que
P (|Yn Y | > ) 0, > 0.
Seja A0 = {w : Yn (w) Y (w)}. Sabemos que P (A0 ) = 1. Para todo
w A0 , |Yn (w) Y (w)| < , para todo n sucientemente grande. Considere

An = { | para todo k n, |Yk () Y ()| < } = [|Yk Y | < ].
k=n
Como An An+1 e como w A0 , ento w An para algum n, temos que
A0 An = lim An isto , An n1 An .
n1 n
Logo,
1 = P (A0 ) 6 P ( An ) , e, ento, P (An ) 1.
n>1
Mas An [|Yn Y | < ]. E, ento, P (|Yn Y | ) = 1 P (|Yn Y | 6

) 1 1 = 0.
p
Logo, Yn Y .
p q.c.
Exemplo 3.2. Yn Y mas Yn 9 Y . Considere a sequncia de conjuntos
[ ] [ ] [ ] [ ]
1 1 1 3
I1 = [0, 1], I2 = 0, , I3 = , 1 , I4 = 0, , , I7 = , 1
2 2 4 4
i i
i i
i i

i i
3.1 Lei dos Grandes Nmeros 231
e mais geralmente, [ ]
i i+1
I2m +i = m, m .
2 2
Dena {
0, se X
/ In
Yn =
1, se X In .
p
(i) Yn 0.
De fato: P (|Yn 0| ) = P (Yn = 1) = P (X In ) = i+1
2n
2in = 1

2n n
0.
q.c.
(ii) Yn 9 0
De fato: P (Yn 9 0) = 1, j que Yn = 0 ou 1, para innitos n.
P ({w ; Yn (w) 9 0}) = P ({w ; Yn (w) = 0 ou 1 , para innitos n }) =
P () = 1.
Sejam X1 , X2 , , Xn , variveis aleatrias integrveis em (, A, P ).

n
Considere Sn () = Xi ().
i=1
Denio 3.3. A sequencia X1 , X2 , , Xn , satisfaz a Lei Fraca dos Grandes

Sn E(Sn )
Nmeros, se n
0 em probabilidade, ou equivalentemente, se
( )
Sn E(Sn )

P
n 0, > 0.
Denio 3.4. A sequencia X1 , X2 , , Xn , satisfaz a Lei Forte dos Grandes

Nmeros, se
Sn ()E(Sn )
n
0 quase certamente, isto ,
( )
Sn E(Sn )
P 0 = 1.
n
i i
i i
i i

i i
Note que a armao da Lei Fraca envolve apenas as distribuies nito-

dimensionais.
Se a sequncia X1 , X2 , , Xn , satisfaz a Lei Forte, ento satisfaz a Lei
Fraca, pelo teorema acima.
Teorema 3.2. A desigualdade de Chebyshev arma o seguinte: seja g : (0, )

(0, ), estritamente crescente, e X : R, variavel aleatria. Suponha que
g(X) seja P -integrvel. Ento, para qualquer a R, a > 0, vale que
E(g(X))
P (X a) .
g(a)
Demonstrao: Segue de imediato de
g(a) P ({X a}) = E(g(a) I{Xa} ) = E(g(X) I{g(X)g(a)} ) E(g(X)).
Se aplicarmos a armao acima para g(x) = x2 obtemos para cada a real

xado
E(X 2 )
P (X a) .
a2
Teorema 3.3 (Lei Fraca de Tchebyschev). Sejam X1 , X2 , , Xn , var-
iveis aleatrias, independentes com varincias nitas e uniformemente limi-
tadas (isto , c R tal que Var (Xn ) 6 c, n). Ento,
Sn E(Sn ) p
0.
n
Demonstrao: Usando a desigualdade de Chebishev acima para X = |Sn
E(Sn )|, g(x) = x2 , e a = n, obtemos

( )
Sn E(Sn )

P
n = P (|Sn E(Sn )| n) 6
Var (Sn ) nc c
6 6 = 0.
n 2 2 n 2 2 n2 n
i i
i i
i i

i i
3.2 Lema de Borel-Cantelli 233
Teorema 3.4 (Lei Fraca de Khintchin). Sejam X1 , X2 , , Xn , var-
iveis independentes, identicamente distribudas e integrveis com mdia co-
mum . Ento,
Sn p
.
n
Teorema 3.5 (Lei Forte de Kolmogorov). Seja (Xn )n1 sequncia de vari-
Var (Xn )
veis aleatrias independentes e integrveis tais que n2
< . Ento,
n1
Sn E(Sn ) q.c.
vale a Lei Forte dos Grandes Nmeros, isto , n
0.
Os resultados acima no sero demonstrados.

No Captulo 5 vamos enunciar o Teorema Ergdico, resultado de grande
generalidade, e que tem como consequncia a Lei Forte do Grandes Nmeros.
Maiores detalhes sero fornecidos naquela parte.
3.2 Lema de Borel-Cantelli

Seja A1 , A2 , , An , sequncia de conjuntos mensurveis (eventos). Den-
imos:

limite superior: lim sup An = Ak
n n=1 k=n

limite inferior: lim inf An = Ak .
n n=1 k=n
Idia Intuitiva:
1) O evento lim sup An o evento ocorrncia de um nmero innito dos

An , j que w lim sup An w Ak w Ak , n w
n1 kn k=n

Ak w Ak1 para algum k . Mas w Ak , logo w Ak2 para algum
k=1 k=k1 +1

k2 > k1 . Continuando, w Ak logo w Ak3 para algum k3 > k2 , etc.
k=k2 +1
Desta maneira, temos uma sequncia crescente de nmeros inteiros positivos
i i
i i
i i

i i
k1 < k2 < k3 < que dependem de w tais que w Akn , n. Logo, w

pertence a um nmero innito dos An 's ento w Ak , n. Logo,
kn
w lim sup An .
Notao: lim sup An = [An innitas vezes] = [An i.v.].
2) lim inf An =[ocorrncia de An para todo n sucientemente grande].
w lim inf An w Ak para algum n0 = n0 (w) w Ak para todo

kn0
k sucientemente grande, isto , k n0 .
Denio 3.5. Se lim sup An = lim inf An = A ento dizemos que A o
limite dos An , e denotamos An A.
Lema 3.1 (Lema de Borel-Cantelli). Seja (An )n1 sequncia de eventos
aleatrios em (, A, P ), isto , An A, n.

(a) Se P (An ) < ento P (lim sup An ) = P (An innitas vezes)=0.
n1

(b) Se (An )n1 uma sequncia de eventos independentes tais que P (An ) =
n1
, ento P (An innitas vezes)=1.
Demonstrao:

(a) Se P (An ) < limn P (Ak ) 0.
n1 k=n
Observe que
( ) ( ) ( )

P (An innitas vezes)= P Ak = P lim Ak = lim P Ak 6
n1 k=n n k=n n k=n

6 lim P (Ak ) = 0, pois P (Ak ) < lim P (Ak ) = 0.
n k=n n1 n k=n
Logo, P (An i.v.)=0.
i i
i i
i i

i i

(b) Se A = lim sup An = lim Ak = Ak ento, Ac = Ack
n n k=n n1 k=n n1 k=n
de tal modo que
( ) ( ) ( )

c
P (A ) = P Ack = P lim Ack = lim P Ack .
n1 k=n n k=n n k=n
n0
Para n0 > n observamos que Ack Ack e, portanto,
k=n k=n
(
) ( n0 )
n0
n0
P Ack = lim P Ack = lim P (Ack ) = lim (1 P (Ak ))
k=n n0 k=n n0 n0
k=n k=n
j que (An )n1 a sequncia de eventos independentes.

Como para todo x > 0 vale a desigualdade 1 ex x, ento ex 1 x,
e assim, para cada k vale 1 P (Ak ) e P (Ak ) . Desta forma, tomando o

n0
produto (1 P (Ak )), conclumos que
k=n
( ) ( )
(
) n0
n0
P Ack 6 lim exp P (Ak ) = exp lim P (Ak ) = 0,
k=n n0 n0
k=n k=n
(
)
pois a srie P (An ) diverge. Portanto, P (Ac ) = lim P Ack = 0, o
n1 n k=n
que implica em P (A) = 1.
Exemplo 3.3. Seja uma cadeia de Markov com conjunto de estados S . Seja
i em S e suponha que P (X0 = i) = 1. Para cada n, considere o subconjunto
de , dado por An = {|Xn () = i}.

Se n P (An ) < , pelo Lema de Borel-Cantelli (a), temos que
P (An innitas vezes) = 0.

Desta forma, se n P (An ) < , ento i transiente.
i i
i i
i i

i i
Exemplo 3.4. Seja Xn processo independente e identicamente distribudo

sobre S = {1, 2, ..., d}, denido por P (X0 = i) = pi > 0, para todo i.
Fixe i0 S . Para cada n seja An = {|Xn () = i0 }. Os conjuntos An so

independentes e P (An ) = pi0 . Logo n P (An ) = , e assim, pelo Lema de
Borel-Cantelli (b), temos que P (An innitas vezes) = 1.

p q.c.
Exemplo 3.5. Pode acontecer que Yn 0, mas Yn 9 0.
Considere X1 , X2 , independentes e identicamente distribudas tais que
Xn E(1).
Dena Y1 = X1 e Yn = ln(n) Xn
, para n > 1.
p
(i) Yn 0 j que P (|Yn | ) = P (|Xn | | ln(n)|) = P (Xn ln(n)) =

1 P (Xn 6 ln(n)) = 1 (1 e ln(n) ) = e ln(n) = eln(n) = n = n1

n
0.
q.c.
(ii) Yn 9 0. De fato:
Vamos mostrar que P (Yn innitas vezes)=1 para algum > 0.

Isto implica que Yn innitas vezes com probabilidade 1. Logo, Yn no
converge para zero.
Observe que tomando
An = [Yn ], ento, w [An i.v.] Yn (w) para um nmero innito de
n's
Yn (w) no converge a zero.
Se P (An i.v.)= 1 P (Yn 9 0) = 1.
Como os eventos [Yn ] so independentes j que os Yn 's o so,

1
P (Yn ) = P (Xn ln(n)) = e ln(n) =
= ,
n n n n
n
se 0 < < 1.
i i
i i
i i

i i
Pelo Lema de Borel-Cantelli, parte (b), P (Yn i.v.)=1, se 0 < < 1.

q.c.
Portanto Yn 9 0.
Teorema 3.6. Seja (An )n1 sequncia de eventos independentes e An A.

Ento, P (A) = P (x esta em An innitas vezes )= 0 ou P (A) = 1.

Demonstrao: O teorema segue do fato que a srie P (An ) ou converge
n1
ou diverge. Quando diverge, isto implica em P (A) = 1 e quando converge,
implica em P (A) = 0.
Como uma simples aplicao do Lema de Borel-Cantelli, obteremos uma

verso da Lei Forte dos Grandes Nmeros.
Teorema 3.7. Se (Xn )n1 sequncia de variveis aleatrias independentes
e identicamente distribudas com mdia comum e quarto momento nito, ou

seja, (X1 ) dP < ,
4
ento,
( )
Sn
P lim = = 1.
n n
Demonstrao:
Dena ( )
n n!
=
a1 , ...,ak a1 !...ak !
Observe que
[ ]4

n
(Xi ) =
i=1

n ( )
(Xi ) + 4
4
(Xi )3 (Xj )+
3,1
i=1 i=j
i i
i i
i i

i i
( )
4
(Xi )2 (Xj )2 +
2,2
i=j
( )
4
(Xi ) (Xj )(Xk )2 +
1,1,2
i=j=k e i=k
( )
4
(Xi ) (Xj )(Xk ) (Xs ).
1,1,1,1
i,j,k,s distintos
Como as v.a.'s Xi so independentes tais que E(X

( i ) = 0 e Var Xi =) ,
2
()
ento E[ (Xi )]4 = E[ (Xi )4 ] + 4 E (Xi )2 (Xj )2 =
2 i=j

n E(X1 ) + 6 4
E(Xi ) E(Xj ) = n E(X1 )4 +
2 2 6 n(n1) 2 2
2
=
i=j
n E(X1 )4 + 63 n(n 1) 4 6 Cn2 .

Portanto, E[ (Xi )]4 6 Cn2 .
A desigualdade de Markov arma que para a > 0 e > 0 dados

|X| dP
P ({|X| > a}) = P ({|X| > a })

.
a
A demostrao deste fato segue de considerar a funo indicador de {|X| >
a }.
Pela Desigualdade de Markov, temos que
{ n }
E{ (Xi )}4 Cn2 c1
C
P (Xi ) > n 6 6 = = .
n4 4 n 4 4 n2 4 n2
i=1
c
Neste caso, P (|Sn n| > n) 6 n2
e ento
c
P (|Sn n| > n) 6 2
< pois a srie n2 converge.
n1 n1
n n1
Pelo Lema de Borel-Cantelli, item (a), com probabilidade 1 somente um

nmero nito de eventos {w : | Snn | > } ocorrem, isto , P (A ) = 0
i i
i i
i i

i i
onde { }
Sn
A = lim sup > .
n n
Observe ainda que os conjuntos A crescem, medida que 0, para o
conjunto {w; Snn 9 }. Fazendo 0 atravs de um conjunto enumervel de
valores temos que
( ) ( )
Sn
P 90 = P A 1 = 0.
n kN k
Portanto,
( ) ( )
Sn Sn (w)
P 0 = 1, ou seja, P {w | lim = } = 1.
n n n
Teorema 3.8. Se X1 , X 2 , so variveis aleatrias independentes e identi-
camente distribudas
( tais
) que P (|Xn | < K) = 1 para todo n, onde K R e
Sn q.c.
K > 0, ento n .
Demonstrao: Se a sequncia (Xn )n1 formada por variveis uniformemente

limitadas, ento todos os seus momentos de qualquer ordem existem. Logo,
valem as hipteses do Teorema anterior e o resultado segue.
Exemplo 3.6. Fixe > 0. Assim se jogarmos uma moeda que tem probabil-
idade de sair cara (associada ao nmero 1) e 32 de sair coroa (associada ao
1
3
nmero 2) uma quantidade n de vezes, ento, a probabilidade que a mdia de
vezes que sai cara (nas n jogadas) que distante do valor 13 vai a zero com
n . Esta armao a Lei Fraca dos Grandes Nmeros. Isto porque jogar
uma moeda vrias vezes seguidas descrito por um processo independente.
Dito de outra forma
nmero de vezes que saiu cara em n jogadas 1
lim P ({ | | > } ) = 0.
n n 3
i i
i i
i i

i i
Ou, ainda,
n1
j=0 I1 (wj , wj+1 , ...) 1
lim P ({w = (w0 , w1 , ..., wk , ...) tal que | | > }) = 0,
n n 3
onde I1 a funo indicador do cilindro 1 (lembre que I1 (w) = 1, se e s se
w = (w0 , w1 , ..) comea com 1).
Note que os conjuntos da forma
nmero de vezes que saiu cara em n jogadas 1
{w , | | > }
n 3
com n xo, dependem s das n primeiras coordenadas de cada w.
Podemos ainda ver o enunciado acima da seguinte forma: seja Xj : {1, 2}N
{0, 1} R, j 0, dado por Xj (w) = I1 (wj , wj+1 , ..., wk , ...).
Ento vale
n1
j=0 Xj (w) 1
lim P ({w tal que | | } ) = 0.
n n 3
A Lei Forte dos Grandes Nmeros arma que existe um conjunto K
{1, 2}N de probabilidade 1 tal que para qualquer w = (w0 , w1 , ..., wk , ...) K
vale que n1
j=0 I1 (wj , wj+1 , ..., wk , ...) 1
lim = .
n n 3
Ou, ainda n1
j=0 Xj (w) 1
lim = .
n n 3
Este resultado segue do Teorema 3.6 ou 3.7 acima. Ele tambm pode ser
obtido do Teorema Ergdico (ver Exemplo 5.21) que ser discutido na seo
5. Isto porque, como veremos, um processo independente ergdico.
Note que o conjunto
n1
j=0 I1 (wj , wj+1 , .., wk ..) 1
{w = (w0 , w1 , w2 , w3 , .., wk ..) | lim = }=
n n 3
i i
i i
i i

i i
n1
Xj (w) j=01
= { w | lim = },
n n 3
em que necessitamos explicitar a sua probabilidade no um cilindro (de-
pende das innitas coordenadas de cada w).
Teorema 3.9. Seja (Xn )n1 sequncia de variveis aleatrias independentes.
Ento,
q.c.

Xn 0 P (|Xn | > ) < , para todo > 0.
n1
Demonstrao: (=)
Consideremos os eventos Ak = {|Xn | > }. Por hiptese, (An )n1 uma
sequncia de eventos independentes.
q.c.
Suponha que Xn 0. Ento, Xn 0 em um conjunto E c com P (E) = 0.
Um ponto w E c pertence somente a um nmero nito de eventos An . Segue
ento que
lim sup An E.
n
Portanto, P (x esta em An innitas vezes ) 6 P (E) = 0, ou seja, P (x esta em An

innitas vezes ) = 0. Pelo Lema de Borel-Cantelli, parte (b), ento P (An ) <
n1
, pois se P (An ) = , ento P (An i.o.) = 1. Mas ento P (|Xn | >
n1 n1
) < , para todo > 0.
(=)
Considere os eventos A 1 = lim sup {|Xn | > k1 }.

k n
q.c.
Usando os mesmos argumentos na prova do Teorema 3.1 conclumos que Xn
0.
i i
i i
i i

i i
Teorema 3.10. Seja (Xn )n1 sequncia de variveis aleatrias independentes.
Ento,
q.c.

Xn X P (|Xn X| > ) < , para todo > 0.
n1
Demonstrao: Imediata, pois

q.c. q.c.
Xn X Xn X 0.
Teorema 3.11. Seja (Xn )n1 sequncia de variveis aleatrias quaisquer.

q.c.
Se P (|Xn | > ) < , para todo > 0, ento Xn 0
n1
Demonstrao: Seja = k1 , k N . Ento, pelo Lema de Borel-Cantelli

( 1
)
P |Xn | > <
n1
k
({ })
1
P w/ N > 0, n > N , |Xn (w)| < = P (Ak ) = 1.
k
Considere A = Ak . Observe que para todo w A e todo > 0, existe
k1

k N tal . Como w Ak para todo k N segue que 1 =
que k1 <
({
}) q.c.
P w/ k N tal que |Xn (w)| < k1 < , ou seja, Xn 0.
3.3 Teorema Central do Limite

Lembre que dada uma varivel aleatria
X : (, A, P ) (R, R),
chamamos de distribuio de X , a probabilidade X sobre (R, R) tal que
X (A) = P (X 1 (A)),
i i
i i
i i

i i
3.3 Teorema Central do Limite 243
para todo boreleano A R (mais detalhes na denio 5.5).

Note que para calcular X 2 dP , basta calcular x2 dX (x).

Da mesma forma para calcular eX dP basta calcular ex dX (x).
De uma maneira mais geral, dada uma varivel aleatria da forma G(X)

onde G : R R contnua, temos que G(X)dP = G(x)dX (x). Este fato
demonstrado no Captulo 5 logo aps o Exemplo 5.12.
Dada uma funo contnua G : R C, podemos escrev-la da forma
G = G1 + i G2 , Gi : R R, i = 1, 2. Temos ento, por denio, que

G(x)dX (x) = G1 (x)dX (x) + i G2 (x)dX (x).
Finalmente, lembre que a funo de distribuio F : (R, R) (R, R) de
X aquela que satisfaz
FX (x) = F (x) = P (X x) = X ( (, x) ).
Note que FX montona no decrescente.

usual a notao g(x) dX (x) = g(x) d FX (x), ou seja, muitas vezes
se usa a distribuio FX da varivel X na integrao em vez da probabilidade
X . Resulta ser a mesma coisa. A integral de Stieltjes, ou seja, a integrao
da distribuio d FX descrita com detalhes em [Ba2].
Por exemplo, dizemos que uma varivel aleatria X : R+ , onde
(, A, P ) um espao de probabilidade, tem distribuio exponencial de parmetro
se x
1 y
FX (x) = P ({w |X(w) x} ) = e dy.
0
Se X for absolutamente contnua em relao a medida de Lebesgue, ento,
pelo Teorema de Radon-Nikodyn (ver Captulo 5), existe f : (R, R) (R, R),
onde f (y) 0, tal que
x
f (y) dy = X ( (, x) ) = F (x),

para todo x.
i i
i i
i i

i i
Se F diferencivel em x, ento F (x) = f (x).

Se FX tem derivada, dizemos que fX , dada por FX (x) = fX (x), descreve
a densidade da varivel X .
No caso de uma Varivel Aleatria X que descrita por uma exponencial
de parmetro , temos que fX (x) = 1 e x .
Neste caso, por exemplo,

2 2 1 x
X dP = x e dx = x2 fX (x) dx.

usual na literatura expressar x2 fX (x) dx como x2 d FX (x) .
Denio 3.6. Seja X : R varivel aleatria denida no espao de
probabilidade (, A, P). A funo X (t) (tomando valores complexos) dada
por

X (t) = E(e itX
)= itx
e dFX (x) = cos(t x)dFX (x) + i sin(t x)dFX (x),

para todo t R, dita ser funo caracterstica de X , onde i= 1.
Conforme exemplo 3.20 a funo caraterstica de uma varivel aleatria X
que possui distribuio Gaussiana com mdia e varincia
X (t) = e i t 2
1 2 t2
.
Ao m da seo 3.4 apresentamos algumas das propriedades bsicas da

funo caracterstica de uma varivel aleatria X .
Teorema 3.12. Suponha que f : R R seja a funo densidade de dis-
tribuio da varivel X : R e que seja a funo caracterstica de X.

Ento,
1
f (x) = e i t x (t) dt,
2
em todo o ponto em que f diferencivel.
i i
i i
i i

i i
O resultado acima segue de propriedades clssicas de transformada de

Fourier. Referimos o leitor interessado numa prova deste fato para [Ru].
A funo caracterstica, como veremos, possui propriedades operacionais
que a tornam particularmente til em diversos clculos.
Teorema 3.13. Sejam duas variveis Aleatrias X e Y e suponha que exis-

tam f e g suas funes de densidade. Ento, f = g , se e s se, as funes
caractersticas X e Y so iguais. Mais geralmente, duas variveis tem a
mesma distribuio, se e s se, tem a mesma funo caracterstica.
O resultado acima no ser demonstrado. Referimos o leitor interessado

na prova para a Seo 5.9 em [GS].
O teorema acima arma que podemos recuperar a distribuio a partir da
funo caracterstica.
Vamos considerar a seguir as variveis aleatrias Xn , n N, de um Processo
Estocstico, as respectivas funes de distribuio Fn e as respectivas funes
caractersticas Xn .
Denio 3.7. Dizemos que a sequncia de funes de distribuio Fn con-
verge simplesmente funo F, se
F (x) = lim Fn (x),

n
para todo ponto x em que F contnua.
Uma pergunta natural se podemos tratar da convergncia das funes de

distribuio a partir da convergncia de funes caractersticas.
Denio 3.8. Dizemos que a sequncia de variveis aleatrias Xn , n N,

converge em distribuio varivel aleatria X, se a sequncia de funes de
distribuio Fn (respectivamente, de cada Xn ) converge simplesmente funo

F (a distribuio de X ). Isto , se
F (x) = lim Fn (x),

n
i i
i i
i i

i i
para todo ponto x em que F contnua.
O resultado fundamental neste tpico o seguinte:
Teorema 3.14 (Teorema da Continuidade). Considere uma sequncia de

variveis aleatrias Xn , n N, a sequncia respectiva de funes de dis-
tribuio Fn e a sequncia de funes caractersticas Xn .
(1) Se Fn converge simplesmente a uma funo F, que distribuio de
uma varivel aleatria X , e que possui funo caracterstica X , ento Xn

converge simplesmente a X .
(2) Suponha que Xn , e que seja contnua em

converge simplesmente
t = 0, ento existe uma varivel aleatria X , com = X , que possui funo

de distribuio F , e, ainda, vale que Fn converge simplesmente F . Ou seja,
= X para alguma X : R, e Xn converge em distribuio X .
Referimos o leitor [GS] para a prova do resultado acima.

Segue do resultado acima que se Xn , n N, tal que Xn (t), converge
simplesmente (t) = e i t 2 t , quando n , ento Xn converge em
1 2 2
distribuio a uma varivel aleatria que tem distribuio Gaussiana de mdia

e varincia .
No prximo teorema vamos usar o item (2) acima.
Teorema 3.15 (Teorema Central do Limite). Seja Xn , n N, um Pro-
cesso Estocstico independente identicamente distribudo com mdia e var-

2
incia no-nula . Seja Sn = X1 + X2 + ... + Xn , ento
Sn n

n 2
converge em distribuio a uma varivel gaussiana com mdia zero e varincia
i i
i i
i i

i i
De outra forma, para qualquer intervalo (a, b) vale

Sn n b
1 b
x2
lim P (| (a, b)) = (x)dx = e 2 dx,
n n 2 a 2 a
onde a densidade Gaussiana de mdia o e varincia 1.
Demonstrao: Vamos assumir, sem perda de generalidade que E(X1 ) = 0 e

E(X12 ) = 1. O caso geral pode ser obtido a partir deste caso.
Pela Frmula de Taylor de ordem 2 sabemos que
1
ey i = 1 + i y + (i y )2 + r(y),
2
r(y)
tal que limy0 y2
= 0.
Logo, dado > 0, existe > 0 tal que se |y| < , ento r(y)
y2
< .
Disto segue que,
E(X12 ) s2 s2
X1 (s) = 1 + iE(X1 ) s + i2 + R(s) = 1 + R(s),
2 2
onde lims0 R(s)
s2
= 0.
A prova da armao acima ser feita ao m da demonstrao do teorema.
Todas as Xi tem distribuio comum de uma determinada X .
Como as variveis Xi so independentes ento, como veremos no Teorema
3.18, se Sn = (X1 + X2 + ... + Xn ) temos que
t
Sn (t) = ( X ( ) )n .
n n
Desejamos mostrar que
t t2
lim ( X ( ) )n = e 2 ,
n n
pois ento seguir do teorema da continuidade que a distribuio de Sn

n
con-
verge a uma normal de mdia zero e varincia 1.
i i
i i
i i

i i
Para t xo, vamos denotar t (n) = (n) = R( tn ). Segue da frmula de

Taylor de ordem dois que
(n)
lim t2 = 0.
n
n
Vamos provar que para qualquer t xado vale que
t2 t2
lim ( 1 + (n))n = e 2 .
n 2n
Ora, sabemos que
t2 n t2
lim ( 1 ) = e 2 .
n 2n
O resultado segue ento de
t2
(1 + (n))
lim ( 2n
)n = 1,
n (1 t2
2n
)
o qual equivalente a
2
1 ( 1 2t n + (n)) 1 (n)
0 = lim log( ) = lim log( 1 + ).
( 1 2n) ( 1 2t n )
t2 2
n 1/n n 1/n
Como,
(n)
lim t2
= 0,
n
n
dado > 0, para n sucientemente grande, temos que
1
(n) < ( ) t2 ,
n
ou seja,
1 t2
< .
( n1 ) (n)
t2
Ora, como para t xo, 1 2n
1 quando n , ento
1 (n) (n) 1
0 lim inf log( 1 + ) lim inf log( 1 + ) t2 =
( 1 2n) ( 1 2 n ) (n)
t2 t2
n 1/n n
i i
i i
i i

i i
(n) 1
= lim inf log( 1 + ) t2 .
( 1 2t n ) (
2 (n)
n )
2
( 1 2t n )
Pela Regra de L'Hopital vale que
log( 1 + x)
lim = 1.
x0 x
Sendo assim para todo > 0 vale que
1 (n)
0 lim inf log( 1 + ) t2 .
n 1
n ( 1 2n)
t2
Logo,
1 (n)
lim inf log( 1 + ) = 0.
1
( 1 2t n )
2
n
n
O mesmo procedimento pode ser feito para o lim sup. Sendo assim
1 (n)
lim log( 1 + ) = 0,
n 1 ( 1 2t n )
2
n
e isto demonstra o resultado desejado.

Lembre que assuminos que E(X1 ) = 0 e E(X12 ) = 1
Vamos agora mostrar que
2 2
2 E(X1 ) s s2
X1 (s) = 1 + iE(X1 ) s + i + R(s) = 1 + R(s),
2 2
onde lims0 R(s)

s2
= 0.
Devemos estimar,

sX1 ()i
X1 (s) = e dP () = esxi dF (x).
Ora,
x2 dF (x) = 1 < ,
i i
i i
i i

i i
por hiptese.
Dado > 0, seja a > 0 tal que
1 E(X12 )
= < /2.
a4 a4
Ora

i s X1 () i s X1 ()
X1 (s) = e dP () = e dP () + ei s X1 () dP ().
|X1 |<a |X1 |a
Pela frmula de Taylor, dado 2 a2 , seja > 0 tal que se y < ento
r(y)
y2
< 2 a2 .
Tomando 1 = a , obtemos que se 0 < s < 1 , ento s |X1 ()| < s a < ,
para tal que |X1 ()| < a.

Isto d conta do termo |X1 |<a ei s X1 () dP () < /2, em funo da ex-
presso acima (formula de Taylor).
De fato, para cada xo em |X1 ()| < a, aplicamos a formula de Taylor
para y = sX1 () e obtemos
r(s X1 ()) r(s X1 ())

2
2
.
(a s) (|X1 ()| s) 2 a2
Logo,
R(s) r(s X1 ())
2
= 2
.
s s 2
O resultado segue por integrao em P sobre o conjunto {|X1 ()| < a}.
Finalmente, pela desigualdade de Chebyschev,

| e i s X1 ()
dP ()| < |ei s X1 () | dP () = P (|X1 | a) =
X1 a |X1 |a
1
P (X12 > a2 ) < < /2.
a4
i i
i i
i i

i i
3.4 Funes Geradoras de Probabilidade e Funes Caractersticas 251
3.4 Funes Geradoras de Probabilidade e Fun-

es Caractersticas
Iniciaremos esta seo pelas funes geradoras de probabilidade vlidas apenas
para as variveis aleatrias discretas. Depois analisaremos as funes geradoras
de momentos e caractersticas.
Recomendamos o leitor a [GS] e [HPS] para uma descrio mais detalhada
do assunto.
Denio 3.9 (Funo Geradora de Probabilidade). Seja X varivel

aleatria discreta com funo massa de probabilidade fX (). Denimos a funo
real X () dada por

X (t) = P(X = k)tk = fX (k)tk ,
k0 k0
para todo t [1, 1], como a funo geradora de probabilidades de X se X ()

for convergente para todo |t| 1.
Exemplo 3.7. Considere a varivel aleatria X que tem distribuio expo-

nencial de parmetro . Determinaremos X ().
Observe que
e k
X (t) = fX (k)tk = tk
k0 k0
k!
( t) k
= e = e e t = e(1t) , (3.1)
k0
k!
para todo |t| 1.
i i
i i
i i

i i
Exemplo 3.8. Considere a varivel aleatria X , tal que para 0 < p < 1, vale
fX (k) = pq , onde q = p 1. Determinaremos X ().
k
Observe que

X (t) = fX (k)tk = pq k tk = p (qt)k
k0 k0 k0
1
= p , (3.2)
1 qt
para todo |t| 1.

Observao: X (1) = 1 e X () absolutamente e uniformemente convergente
em |t| 1.
Atravs da funo geradora de probabilidades X () podemos determinar
a esperana e a varincia de X . De fato:

(i) X (t) = k1 kfX (k)tk1 e X (1) = E(X).

(ii) X (t) = k2 k(k1)fX (k)tk2 = k2 k 2 fX (k)tk2 k2 kfX (k)tk2 ,
e ento X (1) = E[X(X 1)].

Portanto,
V ar(X) = E(X 2 ) [E(X)]2 = X (1) + X (1) [X (1)]2 . (3.3)

Exemplo 3.9. Por exemplo,
X (1) = E[X(X 1)(X 2)] j que

X (t)|t=1 = k(k 1)(k 2)fX (k)tk3 |t=1
k0

= (k 3 3k 2 + 2k)fX (k) = k 3 fX (k) 3 k 2 fX (k)
k0 k0 k0

+ 2 kfX (k). (3.4)
k0
i i
i i
i i

i i
Portanto, EX 3 =
X (1) + 3X (1) 2X (1).
Ainda,
( ) ( )
r r
X (1) + + (r 1)X (1).
(r) (r1) (r2)
EX r = X (1) + X (1)
1 2
A partir da funo geradora de probabilidades conseguimos obter a funo

massa de probabilidade de uma varivel aleatria X . Observe que se X tem
distribuio exponencial de parmetro , ento

e(1t) = fX (k)tk
k0
( t)k k
e(1t) = e et = e = e tk . (3.5)
k0
k! k0
k!
Comparando as duas sries de potncias na expresso (3.5) obtemos a

funo fX (), ou seja, conseguimos calcular fX (k), para todo k .
Exemplo 3.10. Voltando ao primeiro exemplo desta seo, vamos determinar

E(X) e V ar(X) partir da funo X (). Como X (t) = e(1t) , temos que
X (1) = E(X) = .
Como X (t) = e(1t) , temos que X (1) = 2 . Ento, pela expresso
(3.3) obtemos V ar(X) = 2 + 2 = .
Exemplo 3.11. Voltando ao segundo exemplo, determinaremos E(X) e V ar(X)

partir da funo X (). Como X (t) = (1qt)
p
2 (q) = (1qt)2 , temos que
pq
2
X (1) = E(X) = pq . Como X (t) = (1qt)
pq
3 (2q), temos que X (1) = 2 p3 =
pq
2 2 q2
2 pq 2 . Portanto, pela expresso (3.3) obtemos V ar(X) = 2 pq 2 + q
p
p2
= q
p2
.
i i
i i
i i

i i
Denio 3.10. Seja X varivel aleatria qualquer denida no espao de
probabilidade (, A, P). A funo real MX () dada por

MX (t) = E(e ) = tX
etx dFX (x) =

xn d FX (x) n

Xn d P n
[ ]t = [ ]t ,
n=0
n! n=0
n!
dita ser a funo geradora de momentos de X se a esperana acima existe
em alguma vizinhana de zero.
Note que esta funo captura, via os coecintes da serie de potencias, a

informao de todos os momentos X n d P , n N.
Exemplo 3.12. Mostraremos que a varivel aleatria X , cuja funo massa

de probabilidade dada por fX (x) = 6( 2 x2 )1 , para todo x N, no possui
funo geradora de momentos. Observe que
6 1 6 2
fX (x) = = = 1.
x1
2 x1 x2 2 6
No entanto,
6 tx 1
MX (t) = E(etX ) = etx fX (x) = e = ,
x1
2 x1 x2
sempre que t > 0. Portanto, no existe funo geradora de momentos para X .
Exemplo 3.13. Considere a varivel aleatria X (com valores sobre N) que

tem distribuio exponencial de parmetro , ento. Determinaremos MX ().
i i
i i
i i

i i
Observe que

MX (t) = E(etX ) = etx fX (x)
x0
(et )x
= e = e e e = e(1e ) ,
t t
(3.6)
x0
x!
para todo t R.
Exemplo 3.14. Considere a varivel aleatria X E(), > 0 (exponencial

com valores sobre R+ ). Determinaremos MX (). Observe que

MX (t) = E(e ) = tX
etx fX (x)dx
0
[ ]
(t)x 1 (t)x
= e dx = e = , (3.7)
0 t 0 t
para todo t < .
Exemplo 3.15. Considere a varivel aleatria X (, ), tomando valores

1 x
reais positivos, onde , > 0. Isto signica que fX (x) = () x e , onde
denota a funo gamma [Ru]. Determinaremos MX ().
Observe que

1 x
MX (t) = E(e ) =tX tx
e fX (x)dx = etx x e dx
()
0 0
()
= x1 e(t)x dx =
() 0 () ( t)
( )

= , (3.8)
t
para todo t < .
i i
i i
i i

i i
Observaes:
1. A funo geradora de momentos determina unicamente a funo de dis-

tribuio de X .
2. Se MX () existe, ento ela nica.
3. A funo geradora de momentos MX () nada mais do que a Transformada

de Laplace.
4. Se a funo geradora de momentos MX () de uma varivel aleatria X existe

para todo t (t0 , t0 ), com t0 > 0, ento existem as derivadas de MX () de
todas as ordens em t = 0. Neste caso,
(k)
MX (t)|t=0 = E(X k ),
para todo k N.
Exemplo 3.16. Voltando ao ltimo exemplo, vamos determinar a esperana

e a varincia de X , utilizando a funo MX (). Observe que
[( ) ] ( )1

E(X) = MX (t)|t=0 = =
t t=0 t ( t)2
t=0
( )1

= 2
= (3.9)

e ainda
[ ( )2 ( )1
2
E(X ) =2
MX (t)|t=0 = ( 1) +
t ( t)4 t
]
2 (1) ( 1) 2 2 +
= + 2 = . (3.10)
( t)3 t=0 2 2
i i
i i
i i

i i
Portanto,
2 + 2
V ar(X) = E(X 2 ) [E(X)]2 = 2
2 = 2.

Teorema 3.16. Seja (Xn )n1 sequncia de variveis aleatrias independentes
e suponha que a funo geradora de momentos de Xn existe, para cada n N.

n
Ento, a funo geradora de momentos de Sn = i=1 Xi existe e dada por

n
MSn (t) = MXi (t). (3.11)
i=1
Demonstrao: Observe que

( n )
( n )
MSn (t) = E(e tSn
)=E e t i=1 Xi =E e tXi
i=1

n
n
= E(et Xi ) = MXi (t), (3.12)
i=1 i=1
onde a quarta igualdade acima vlida pela hiptese de independncia das

variveis aleatrias.
Exemplo 3.17. Considere (Xm )m1 sequncia de variveis aleatrias indepen-

dentes e identicamente distribudas tais que X1 B(n, p) (binomial). Consid-

eraremos Sm = m i=1 Xi e determinaremos MSm ().
Observe que
( )

n
n
MX1 (t) = E(et X1 ) = et x px q nx
x=0
x
( )

n
n ( )n
= (et p)x q nx = et p + q ,
x=0
x
i i
i i
i i

i i
mn
para todo t R. Ento, MSm (t) = (et p + q) , para todo t R, pela expresso
(3.11).
Desejamos agora denir a funo geradora de momentos para um vetor

aleatrio (X, Y ) em R2 , ou seja
(X, Y ) : R2 .
Nosso interesse na probabilidade conjunta, ou seja, dado um conjunto

C R2 , qual o valor
P ( {w | (X, Y )(w) C} ) ?
Dizemos, quando existir, que d FX,Y a densidade conjunta se para qual-

quer conjunto da forma C = (a, b) (c, d) R2 , vale
b d
P ( {w | (X, Y )(w) C} ) = ( d FX,Y (x, y) dy) )dx .
a c
Denio 3.11. Seja (X, Y ) um vetor aleatrio em R2 . Se E(et1 X+t2 Y ) existe

para todo |t1 | h1 e |t2 | h2 , onde h1 , h2 R h1 , h2 > 0, ento a funo
geradora de momentos de (X, Y ) denida por

MX,Y (t1 , t2 ) = E(et1 X+t2 Y
) = et1 x+t2 y dFX,Y (x, y). (3.13)
Observaes:
1. A funo geradora de momentos MX,Y (, ) determina unicamente a funo

de distribuio conjunta de (X, Y ).
2. Se MX,Y (, ) existe, ento ela nica.
i i
i i
i i

i i
3. Observe que
MX,Y (t1 , 0) = E(et1 X ) = MX (t1 )

MX,Y (0, t2 ) = E(et2 Y ) = MY (t2 ) (3.14)
Portanto, MX,Y (, ) determina completamente as distribuies marginais de

X e de Y .
4. Se MX,Y (, ) existe, ento tambm existem os momentos de (X, Y ) de todas
as ordens, e eles podem ser obtidos atravs da igualdade,

m+n MX,Y (t1 , t2 )
= E(X m Y n ), (3.15)
tm
1 tn
2 t1 =0=t2
para quaisquer m, n N.
Observe ainda que

MX,Y (t1 , 0) MX,Y (0, t2 )
= E(X); = E(Y );
t1 t2
t1 =0

t2 =0
2 MX,Y (t1 , 0) 2 MX,Y (0, t2 )
= E(X 2 ); = E(Y 2 );
t21 t22
t1 =0 t2 =0
2 MX,Y (t1 , t2 )
= E(XY ). (3.16)
t1 t2 t1 =0=t2
Teorema 3.17. Sejam X e Y variveis aleatrias denidas no espao de prob-

abilidade (, A, P). Ento, X e Y so independentes se e somente se
MX,Y (t1 , t2 ) = MX,Y (t1 , 0) MX,Y (0, t2 ),
para todo t1 , t2 R.
Demonstrao: (=)
Observe que
MX,Y (t1 , t2 ) = E(et1 X+t2 Y ) = E(et1 X ) E(et2 Y )

= MX (t1 ) MY (t2 ) = MX,Y (t1 , 0) MX,Y (0, t2 ). (3.17)
i i
i i
i i

i i
(=)
A prova ser feita para o caso em que as variveis aleatrias X e Y so
contnuas. Se MX,Y (t1 , t2 ) = MX,Y (t1 , 0) MX,Y (0, t2 ) ento temos que
( ) ( )
t1 x+t2 y t1 x t2 y
e fX,Y (x, y) dx dy = e fX (x) dx e fY (y) dy

= et1 x+t2 y fX (x) fY (y) dx dy. (3.18)
Portanto, fX,Y (x, y) = fX (x) fY (y), para todo (x, y) R2 , e conclumos que
X e Y so variveis aleatrias independentes.
Exemplo 3.18. Considere (X, Y ) vetor aleatrio contnuo com funo densi-
dade conjunta dada por
{
e(x+y) , se x > 0 e y > 0
fX,Y (x, y) =
0, c.c .
(a) Determine MX,Y (, ). (b) Calcule E(X), E(Y ), V ar(X), V ar(Y ) e E(XY ).
Para resolver o item (a), observe que

MX,Y (t1 , t2 ) = E(e t1 X+t2 Y
)= et1 x+t2 y exy dx dy
(
0
0 ) ( )
(t1 1)x (t2 1)y (1t1 )x (1t2 )y
= e dx e dy = e dx e dy
(0
)( 0
) 0 0
1 1
= , (3.19)
1 t1 1 t2
para todo t1 < 1 e t2 < 1. Para resolver o item (b), considere as igualdades
(3.16), obtendo
i i
i i
i i

i i
( )
MX,Y (t1 , 0) (1)(1) 1

E(X) = = = 1 = E(Y )
t1 t1 =0 (1 t1 )2 1 t2 (t1 ,t2 )=(0,0)
( )
2 MX,Y (t1 , 0) (1)(2) 1

E(X 2 ) = = = 2 = E(Y 2 )
t12
t =0=t2 (1 t1 )3 1 t2 (t1 ,t2 )=(0,0)
1
MX,Y (t1 , t2 )
2
1 1

E(XY ) = = 2 (1 t )2
= 1.
t1 t2 (t1 ,t2 )=(0,0) (1 t1 ) 2 (t1 ,t2 )=(0,0)
Conclumos que V ar(X) = 1 = V ar(Y ) e que cov(X, Y ) = 0. De fato, as

variveis aleatrias so independentes j que
fX,Y (x, y) = exy = ex ey = fX (x) fY (y),
para todo (x, y) R2 .
A funo caracterstica denida para qualquer varivel aleatria X e ela

existe sempre.
Denio 3.12. Seja X varivel aleatria qualquer denida no espao de
probabilidade (, A, P). A funo X () (tomando valores complexos) dada
por

(i t x)n
X (t) = E(e itX
)= itx
e dFX (x) = dFX (x),
n=0
n!

para todo t R, dita ser a funo caracterstica de X, onde i= 1.
Exemplo 3.19. Considere Z N (0, 1) (normal), ou seja, Z possuem dis-

tribuio normal com mdia 0 e varincia 1. Determinaremos Z (). Observe
i i
i i
i i

i i
que

1 z2
Z (t) = E(e itZ
)= eitz e 2 dz
2

1 12 (z 2 2itz) 1 t2
e 2 e 2 (zit) dz
1 2
= e dz =
2 2
t2
= e 2 , (3.20)
para todo t R.
Observaes:
1. A funo caracterstica X () determina unicamente a funo de dis-

tribuio de X atravs das frmulas de inverso (transformada de Fourier
inversa).
2. A funo caracterstica X () nada mais do que a Transformada de Fourier
da funo fX (). Portanto, a funo X () sempre existe.
3. A funo caracterstica X () limitada por 1. De fato:
( )
|X (t)| = |E(eitX )| E|eitX | = E cos2 (tX) + sen2 (tX)
= E(1) = 1, (3.21)
para todo t R, onde a desigualdade acima devido de Jensen.

4. X (0) = 1.
5. X (t) = X (t).
6. X uniformemente contnua na reta.
7. A v.a. X tem distribuio simtrica em torno de zero se e s se X (t)
real para todo t.
i i
i i
i i

i i
Teorema 3.18. Sejam X e Y v.a.'s independentes. Ento,
X+Y (t) = X (t)Y (t),
para todo t R. Ainda, se X1 , X2 , ..., Xn so independentes (ver denio na
seo 0), ento, X1 +X2 +...+Xn (t) = X1 (t) X2 (t)...Xn (t).

X+Y (t) = E(eit(X+Y ) ) = E(eitX eitY ) = E(eitX ) E(eitY ) = X (t) Y (t),
onde a terceira igualdade devido independncia de X e Y .

n
Por induo, Sn (t) = Xi (t) sempre que Xi so v.a.'s independentes, onde
i=1

n
Sn = Xi .
i=1
Teorema 3.19. Seja X v.a. qualquer. Considere Y = aX + b, para a, b R

e a = 0. Ento, Y (t) = eitb X (at), para todo t R.
Y (t) = E(eitY ) = E(eit(aX+b) ) = E(eitb eiatX ) = eitb X (at), t R.
Exemplo 3.20. Considere X N (, 2 ) (a distribuio normal ou Gaus-

siana). Determinaremos X ().
Observe que
t2
X = + Z e Z (t) = e 2 , onde Z N (0, 1).
Usando resultados anteriores obtemos
2 t2
X (t) = eit Z (t) = eit e 2 .
i i
i i
i i

i i
Observao: Se X v.a. qualquer tal que MX () exista, ento
X (t) = E(eitX ) = MX (it), para todo t R.
Exemplo 3.21. Seja X () (exponencial) Determine X ().

Observe que MX (t) = t

, para todo t < . Ento,

X (t) = MX (it) = , para todo t R.
it

Teorema 3.20. Seja X E|X|n < . Ento, X () possui

v.a. qualquer tal que

n derivadas contnuas e X (k) (t) = (ix)k eitx dFX (x), para todo t R e
k
1 k n. Em particular, X (k) (0) = ik E(X k ), onde X (k) (0) = d dtXk (t) |t=0

(k) dk itx dk itx
X (t) = k e dFX (x) = e dFX (x) =
dt dtk

= k itx
(ix) e dFX (x) = i k
xk eitx dFX (x), para todo t R.
Ento,

dk X (t)
X (k)
(0) = |t=0 = ik xk dFX (x) = ik E (X k ).
dtk
Exemplo 3.22. Considere X P (1 ), 1 > 0, ou seja, X tem distribuio

de Poisson.
(a) Calcularemos X ().
i i
i i
i i

i i
(b) Obteremos E(X) e E(X 2 ).

(c) Considere Y P (2 ) independente de X. Mostraremos que X + Y
P (1 + 2 ) utilizando X+Y ().
Vamos mostrar a validade das armaes acima.
(a) Observe que X (t) = MX (it) = e(e 1) , para todo t R.
it
(b) Como E(X) = 1i X (0) e como X (t) = e(e 1) . eit i,

it
temos que
1 1
X (0) = i (e(e 1) eit )|t=0 = .
it
E(X) =
i i

Como E(X 2 ) =
it1 it1
1
i2
X (0) e como X (t) = i eit i e(e ) + i eit e(e ) i eit =
it1 ) it1 )
= eit e(e 2 e2it e(e ,
temos que
it 1) it 1)
E(X 2 ) = ( eit e(e + 2 e2it e(e )|t=0 = + 2 .
(c) Observe que

it 1) it 1) it 1)
X+Y (t) = X (t) Y (t) = e1 (e e2 (e = e(1 +2 )(e ,
para todo t R. Pelo Teorema da Unicidade, temos que X + Y P (1 + 2 ).
Denio 3.13. Seja X = (X1 , X2 , ..., Xk ) um vetor aleatrio k dimen-

sional, ou seja, X : Rk , e X(w) = (X1 (w), X2 (w), ..., Xk (w)). A funo
X : Rk C
denida por
( { })

k
( )
X (t1 , , tk ) = E exp i tj Xj = E ei <t,X> ,
j=1
i i
i i
i i

i i
k
onde < t, X >= j=1 tj Xj representa o produto interno dos vetores X e
t = (t1 , , tk ), dita ser funo caracterstica de X .
Observaes:
1. Valem todas as propriedades enunciadas para X () onde X uma v.a.

unidimensional.
2. A partir da funo X () podemos sempre obter a funo caracterstica de

qualquer uma das v.a. Xj , 1 6 j 6 k . De fato:
X,Y (t, u) = E (eitX + iuY ) = E (eitX + iuY + i0Z ) = X,Y,Z (t, u, 0),
para todo (t, u) R2 .
Exemplo 3.23. Considere o vetor aleatrio (X, Y ) dado por
X\
Y
0 1 2 fX (x)
1 1 1
1 6 6
0 3
1 2 1 2
2 6 6 6 3
2 3 1
fY (y) 6 6 6
1
Calcularemos X,Y (t1 , t2 ), para todo (t1 , t2 ) R2 .

Observe que

2
2
X,Y (t1 , t2 ) = E (eit1 X + it2 Y ) = e it1 x e it2 y pX, Y (x, y)
x=1 y=0
1 1 1 2
e it1 e it2 0 + e it1 e it2 + e it1 e it2 2 0 + e i2t1 e it2 0 + e i2t1 e it2 +
6 6 6 6
1 1 1 1 2 1
+ e i2t1 e i2t2 = e it1 + e it1 e it2 + e i2t1 + e i2t1 e it2 + e i2t1 e i2t2
6 6 6 6 6 6
1
= (e it1 + e it1 e it2 + e i2t1 + e i2t1 e it2 2 + e i2t1 e i2t2 )
6
i i
i i
i i

i i
3.5 Exerccios 267
1
= (e it1 (1 + e it2 + e it1 ) + e i2t1 (2 e it2 + e i2t2 )).
6
Conclumos que
1 it1
X,Y (t1 , t2 ) = (e (1 + eit2 + eit1 ) + ei2t1 (2 eit2 + ei2t2 )), para todo t1 , t2 R.
6

Exemplo 3.24. Calcularemos X,Y , onde X, Y so v.a. i.i.d. E(1), ou seja,

X e Y tem distribuio exponencial de parmetro 1
Observe que
X,Y (t1 , t2 ) = E(eit1 X eit2 Y ) = E(eit1 X ) E(eit2 Y ) =

it1 x x y (1it1 )x
= e e dx e it2 y
e dy = e dx e(1it2 )y dy =
0 0 0 0
1 1 1
= = ,
1 it1 1 it2 (1 it1 )(1 it2 )
para quaisquer t1 e t2 R.
Portanto,
1
X,Y (t1 , t2 ) = , para quaisquer t1 e t2 R.
(1 it1 )(1 it2 )
3.5 Exerccios
1. Determine a funo geradora de momentos de X U([a, b]) (uniforme).
Calcule a esperana e a varincia de X atravs da MX ().
i i
i i
i i

i i
2. a. B(n, p) a distribuio de Bernoulli da parametros n, p ; a prob-

( ) sobre {0, 1, ..., n} tal que a probabilidade do evento k
abilidade
n
pk (1 p)nk . Se X B(n, p), qual a funo caracterstica
k
de X ?
b. Mostre, usando funes caractersticas, que se X B(m, p) e Y
B(n, p) e X e Y so independentes, ento X + Y B(m + n, p).
3. Considere X N (, 2 ).
a. Calcule E(X 3 ).
b. Calcule E(X 4 ).
Sugesto: Calcule primeiro para N (0, 1) e use linearidade.
4. a. Suponha que X E(). Mostre que a funo caracterstica de X

2 + it
X (t) = = 2 .
it + t2
b. Seja Y varivel aleatria com distribuio exponencial dupla cuja
densidade dada por
|y|
fY (y) =
e , para todo y R.
2
Calcule a funo caracterstica de Y . Sugesto: Use simetria e o
item (a).
c. Demonstre: Se Z e W so independentes e identicamente distribudas,
com Z E(), ento Z W exponencial dupla.
5. Use a funo caracterstica do Exerccio 4 desta Lista para mostrar que

se X (n, ), n N, ento
( )n

X (t) = .
it
i i
i i
i i

i i
3.5 Exerccios 269
6. Considere a varivel aleatria X com distribuio Laplace cuja densidade

dada por
1 |x|/
fX (x) = e , x, R e > 0.
2
a. Mostre que a funo geradora de momentos existe e coincide com
MX (t) = (1 2 t2 )1 et , |t| < 1/.
7. Seja (X, Y ) vetor aleatrio contnuo com funo de densidade de proba-

bilidade conjunta dada por

x2 + xy , 0 < x < 1 e 0 < y < 2
fX,Y (x, y) = 3
0, c.c..
a. Encontre a funo geradora de momentos de (X, Y ).

b. Determine todos os momentos de ordem 2 do vetor (X, Y ).
8. Considere X uma varivel aleatrio positiva com primeiro momento

nito. Mostre que

a. E( X) E(X).
(1)
b. E X E(X) .
1
9. Considere o vetor aleatrio (X, Y ) com funo densidade conjunta dada

por
1 [1 + xy(x2 y 2 )], |x| 1 e |y| 1
fX,Y (x, y) = 4

0, c.c..
a. Encontre a funo geradora de momentos de (X, Y ).

b. X e Y so independentes?
i i
i i
i i

i i
c. Encontre a covarincia entre X e Y .
10. Calcule a funo caracterstica da varivel aleatria X quando
a. X geometricamente distribuda com parmetro p, 0 < p < 1.

Nota: A srie geomtrica

an
n=0
onde a uma constante real, converge sempre que |a| < 1 e a soma
da srie dada por (1 a)1 .
b. Sn = X1 + ... + Xn , onde Xi E(), independente, para todo 1
i n. Sugesto: Use o Exerccio 4 desta lista.
11. Suponha que X e Y sejam variveis aleatrias independentes e identica-

mente distribudas. Mostre que XY (t) = |X (t)|2 .
12. Seja X uma varivel aleatria contnua tendo funo densidade dada por
1
fX (x) = e|x| , x R.
2
a. Mostre que MX (t) = (1 t2 )1 , 1 < t < 1.
b. Use esta funo geradora de momentos para encontrar os momentos
de ordem r de X .
13. Considere a varivel aleatria contnua X do Exerccio 12 desta Lista.
a. Mostre que X (t) = (1 + t2 )1 .

b. Mostre que
|x| 1
e = eitx dt.
(1 + t2 )
i i
i i
i i

i i
3.5 Exerccios 271
14. Use o Exerccio 13 desta Lista para mostrar que
X (t) = e|t| , t R,
quando X varivel aleatria com distribuio Cauchy.
15. Considere a varivel aleatria X com funo geradora de momentos

MX (). Calcule MY (), em termos de MX (), onde Y = a + bX com
a, b R, e b = 0.
16. Sejam X e Y v.a. independentes tais que X C(M1 , b1 ) e Y C(M2 , b2 ).
a. Calcule a funo caracterstica das variveis X + Y e X+Y

2
.
b. As variveis aleatrias X + Y e X+Y
2
tm distribuio de Cauchy?
Sugesto: Lembre que se Z C(0, 1) e X C(M, b), ento X =
bZ + M .
17. Sejam X e Y v.a. independentes cuja funo densidade conjunta dada

por
1
fX,Y (x, y) = (6 x y) I(0,2) (x) I(2,4) (y)
8
a. Determine a funo caracterstica X,Y ( , ) do vetor (X, Y ).
i i
i i
i i

i i
i i
i i
i i

i i
4
Cadeias de Markov em Tempo
Contnuo
4.1 Introduo e Propriedades Gerais

Vamos analisar agora as Cadeias de Markov em tempo contnuo. Ser ne-
cessrio (em algum momento) para o seu bom entendimento algum breve co-
nhecimento da Teoria das Equaes Diferencias. Vamos apresentar uma breve
introduo ao tpico na Seo 4.5. O material que l se encontra basicamente
o que se precisa neste captulo. Ao leitor interessado em mais detalhes sobre
este tpico recomendamos [DL] Captulo 2.
O conjunto R+ vai denotar a seguir o conjunto dos nmeros reais t tal que
t 0.
Seja (, A, P ) um espao de probabilidade, (S, G) um espao mensurvel
e ainda uma famlia de variveis aleatrias Xt indexadas por um parmetro
t R+ , e onde cada Xt : (, A, P ) (S, G) mensurvel, A p() uma
sigma-algebra. Dizemos que tal famlia (Xt )tR+ um processo estocstico
com espao de parmetros temporais t R+ . Vamos assumir aqui que S
nito ou enumervel e assim podemos supor, sem perda de generalidade que
S Z. A sigma-lgebra sobre S ser G = p(S), ou seja, o conjunto das partes
de S .
273
i i
i i
i i

i i
274 Cadeias de Markov em Tempo Contnuo Cap. 4
Como exemplo, o leitor pode ter em mente o seguinte caso: uma central
telefnica recebe telefonemas durante o dia. Digamos que Xt , denote o nmero
de de chamadas recebidas at o tempo t. A medida que o tempo passa este
nmero pode car igual ou aumentar. A qualquer momento t + s, depois de t,
poder ocorrer uma nova chamada. Em princpio, no parece natural indexar
o parmetro tempo pelo conjunto dos naturais.
O espao S de estados seria o conjunto dos nmeros s = 0, 1, 2, 3, 4, ..., n, ....
Assumimos que X0 = 0 com probabilidade 1.
Esta central poderia estar localizada em uma cidade com mais frequncia
de telefonemas ou em uma com menos. Os modelos teriam que ser diferentes
para levar em conta este fato. Suponha, por exemplo, que em certo momento
t xado temos que Xt = 142. Seja s xo, claro que no primeiro caso teremos
maior probabilidade de se ter um nmero mais elevado de telefonemas no
tempo t + s, do que no segundo. Ou seja, Xt+s deveria ser maior no primeiro
caso (em termos probabilsticos) do que no outro. A primeira cidade tem maior
frequncia de telefonemas. Deveria existir menor intensidade de telefonemas na
segunda. Seria natural supor a existncia de um parmero que determinasse
tal intensidade. Neste caso, na primeira cidade seria maior.
Pode-se mostrar que neste modelo teramos que para t xo, e s xo, s
{0, 1, 2, 3, 4, ..., n, ...},
( t)s t
P (Xt = s) = e .
s!
Note que para s xo, a medida que t cresce, o valor P (Xt = s) decresce.
Isto traduz o fato que a medida que o tempo passa, o nmero de telefonemas
recebidos vai aumentando at que com grande probabilidade vai car maior
que s.
Observe que se grande a intensidade deste decrescimento (da probabil-
idade) com t aumenta dramaticamente.
Este processo conhecido pelo nome de Processo de Poisson com parmetro
. A razo de se ter os valores das probabilidades das Xt dadas desta forma
i i
i i
i i

i i
4.1 Introduo e Propriedades Gerais 275
ser explicado posteriormente.

Alertamos o leitor que este um texto introdutrio sobre Processos Es-
tocsticos e optamos nesta seo por evitar certas tecnicalidades para tornar
o livro acessvel a uma audincia maior. Acreditamos, de qualquer forma, que
as idias centrais caro claras do ponto de vista matemtico (embora no
totalmente formalizadas).
Denio 4.1 (Processo de Markov). Seja (Xt ; t 0) um processo estocs-

tico com espao de estados SZ nito ou enumervel como denido acima.
Dizemos que Xn um processo estocstico de Markov com tempo contnuo
t0 se vale a condio
P (Xt = j|X0 = i0 , Xt1 = i1 , . . . , Xtn = in ) =
= P (Xt = j|Xtn = in ), ()
t 0, j, i0 , i1 , . . . , in S,
toda vez que 0 < t1 < t2 < t3 < ... < tn < t e
P (X0 = i0 , Xt1 = i1 , . . . , Xtn = in ) > 0.
A cada w em , podemos associar o caminho amostral = (wt ) = Xt (w).

Logo, : R+ S . Considere S R = { | : R+ S}. Seja U : S R que
+ +
associa a cada w o elemento U (w) = = (wt )tR+ S R tal que wt =

+
Xt (w). Nosso ponto de vista, mais uma vez, ser considerar prioritariamente
a sigma-lgebra A = U 1 (A) e a probabilidade P induzida por U , tal que
P (B) = P (U 1 (B))
Desta forma, para ns, P uma probabilidade que associa valores reais no
negativos a certos subconjuntos B S R (os elementos da sigma-algebra em
+
considerao).
Sendo assim, as variveis Xt que vamos nos ater, sero as induzidas por
U , ou seja, vamos supor que para cada t 0 xado, Xt : S R S , ser tal
+
i i
i i
i i

i i
que Xt () = wt , se = (wt )tR . Ainda, de maneira anloga ao caso de tempo

discreto, um cilindro um conjunto da forma
{Xt1 = s1 , Xt2 = s2 , ..., Xtn = sn },
com t1 < t2 < ... < tn R+ , si S, i {1, 2, ..., n}, ou seja, o conjunto
{ = (wt )tR+ tal que wt1 = s1 , wt2 = s2 , ..., wtn = sn } S R .

+
A sigma-algebra natural a ser considerada aqui a gerada pelos conjuntos

cilindros (ver EK] ou captulo 5). No vamos elaborar muito sobre este ponto
que um pouco mais complexo do que o correspondente a tempo discreto
(conforme captulo 2).
Note que o caminho no ser em geral contnuo, pois toma valores num
subconjunto de Z.
Vamos descrever a seguir um exemplo de Processo Markoviano que ser
basicamente o nico tipo de processo estocstico com tempo contnuo e estado
discreto que ser considerado neste texto.
Figura 4.1:
Considere S Z o conjunto de estados. Relembrando o caso com tempo

discreto, ou seja, T = N, o que determinava a probabilidade P sobre S N ,
associada a um Processo Markoviano era a matriz estocstica P e um vetor
i i
i i
i i

i i
de probabilidade inicial sobre S . Dito de outra forma P cava determinada

pela famlia de matrizes P n , que satisfaa a propriedade: n, m N
P n P m = P n+m ,
e um vetor de probabilidade inicial sobre S .

Como vimos antes, para qualquer n N, a matriz P n era estocstica.
Ainda, P 0 = I.
Para descrever um Processo Estocstico Markoviano em que o espao de
estados S Z e o conjunto de parmetros temporais T igual a R+ , neces-
sitaremos de algumas propriedades semelhante.
Seja uma famlia de matrizes estocsticas P t , da forma #S por #S , index-
adas por t R+ tal que vale para todo s, t R+
P s P t = P s+t .
Supomos ainda que P 0 = I , onde I a matriz identidade da forma #S por

#S (ou seja a matriz I que 1 na diagonal e 0 fora dela).
Diremos que a famlia P t , t R+ , dene um semigrupo a tempo contnuo
sobre o conjunto S .
Fixado t, ento (P t )ij = Pijt determina o elemento i, j S da matriz P t .
Pijt vai nos dizer qual a probabilidade de estar em j no tempo t, dado que
se estava em i no tempo 0, ou seja, para todo i, j S e t 0 vale que
(P t )ij = P (Xt = j | X0 = i).
Da mesma forma, como no caso Markoviano com tempo discreto, vamos

supor no nosso modelo que uma vez xado r, o nmero Pijt vai determinar
tambm qual a probabilidade de estar em j no tempo r + t, dado que se estava
em i no tempo r 0. Ou seja, vamos supor que o processo homogneo no
tempo.
i i
i i
i i

i i

Seja agora = (s )sS , s s = 1, um vetor de probabilidade inicial sobre
S , isto P (X0 = s) = s , s S .
Com a informao acima gostaramos de denir uma probabilidade P sobre
S R . Na verdade vamos denir a probabilidade P sobre um certo subconjunto
+
de S R , mas isto explicamos mais tarde.

+
Fixado o semigrupo P t e vamos denir primeiro a probabilidade de um

cilindro contido em S R .
+
Por denio,
P ( X0 = a0 , Xt1 = a1 , Xt2 = a2 , Xt3 = a3 , ..., Xtn = an ) =
= P ( {w | w(0) = a0 , w(t1 ) = a1 , w(t2 ) = a2 , w(t3 ) = a3 , ..., w(tn ) = an } ) =
a0 Pat10 a1 Pat21t t3 t2 tn tn1

a2 Pa2 a3 .... Pan1 an .
1
Ainda,
P ( X0 = a0 ) = a0 .
Por exemplo, se S = {1, 2, 3}, = (1 , 2 , 3 ) = ( 15 , 25 , 25 ) o vetor de

probabilidade inicial e P t o semigrupo com t R tal que para t = 1, 37
temos que P 1.37 a matriz estocstica

1 1 1
3 3 3
4 1
P 1,37 = 7 2
7 7
,
2 2 1
5 5 5
ento
1 1 1
P (X0 = 1, X1.37 = 2) = 1 (P12 )1.37 = = .
5 3 15
Algumas vezes, denotaremos wt S por w(t).
Na verdade necessrio (por razes que no vamos comentar aqui) re-
stringir o espao S R a um subconjunto . Seja o subconjunto de funes
+
: R+ S , tal que so contnuas direita e ainda que possuem limite
i i
i i
i i

i i
esquerda (embora no sejam necessariamente contnuas esquerda). Isto ,

para todo t vale que
lim w(u) = w(t),
ut, ut
e ainda, existe o limite

lim w(u).
ut, ut
Como S discreto (toma valores em N), tal funo ser constante em

intervalos [ti , ti+1 ) (fechados a esquerda e abertos a direita) onde 0 = t0 < t1 <
t2 < t3 < ... < tn < ...
No caso em que S = {0, 1, 2, 3}, um tpico elemento de seria como
descrito na Figura 4.1.
Um cilindro sobre denido da mesma forma que foi introduzido antes
em S R (s trocando S R por ).
+ +
Finalmente, armamos que existe uma sigma-lgebra F sobre que contm

todos os possveis cilindros em . Ainda, podemos denir P (A) para qualquer
elemento em A F p() de tal modo que
a) P uma probabilidade sobre F ,
b) P (B) coincide com a denio acima quando B for um cilindro.
c) duas probabilidades sobre F que coincidem nos cilindros so iguais.
Esta sigma-lgebra F ser denominada de sigma-lgebra gerada pelos cilin-
dros. Vamos analisar nesta seo exclusivamente este espao de Probabilidade
(, F, P ).
A maioria dos Processos Estocsticos Xt com espao de estados S e pa-
rmetro temporal t R+ , que aparecem em aplicaes tem a propriedade
que os caminhos em S R , tem limites esquerda e direita para quase todo
+
ponto. Em geral, se pode assumir que o processo tal que todos os caminhos
amostrais so contnuos direita, sem que isto interra nas distribuies nito-
dimensionais (conforme [EK]).
i i
i i
i i

i i
Aps a apresentao dos exemplos do Processo de Poisson e de nascimento

e morte (nas Sees 4.2 e 4.3) vamos voltar a fazer algumas consideraes
gerais sobre a Teoria dos Processos Markovianos a tempo contnuo e estado
discreto na Seo 4.4.
O leitor que desejar mais detalhes da formalizao rigorosa do que foi des-
crito acima pode encontrar timas exposies em [KT1], [Bi], [GS], [BaW] e
[E].
Em resumo, se existe uma famlia de matrizes estocsticas P t , onde t 0,
do tipo #S por #S tal que
1) para todo t, u R+ , vale que P t+u = P t P u ,
2) para cada t R+ a matriz P t estocstica,
3) P 0 = I ,
ento, a partir de qualquer vetor de probabilidade = (s )sS sobre S podemos
denir uma probabilidade P no conjunto (de caminhos contnuos direita).
Prioritariamente vai nos importar aqui denir P sobre conjuntos tipo cilin-
dro.
Exemplo 4.1. Por exemplo, seja vetor de probabilidade inicial, ento
P (X0 = s1 , X7,5 = s2 ) = s1 (P 7,5 )s1 ,s2 ,

P (Xt = 3) = s (P t )s,3 .
sS

P (X2.3 = s1 , X7,5 = s2 ) = s (P 2,3 )s,s1 (P 5,2 )s1 ,s2 .
sS
Seja, por exemplo S = {1, 2, 3}. Note que
(P (Xt ) = 1, P (Xt ) = 2, P (Xt ) = 3) = (1 , 2 , 3 ) P t =
i i
i i
i i

i i

(P t )11 (P t )12 (P t )13
t
(1 , 2 , 3 ) (P )21 (P t )22 (P t )23 .
(P t )31 (P t )32 (P t )33
Note que
2 (P t )2 3
P (Xt = 3 | X0 = 2) = = (P t )2 3 .
2
Ainda,
(P (Xt = 1 | X0 = 2), P (Xt = 2 | X0 = 2), P (Xt = 3 | X0 = 2)) =

( P (Xt = 1 , X0 = 2) P (Xt = 2 , X0 = 2) P (Xt = 3 , X0 = 2) )
, , =
P (X0 = 2) P (X0 = 2) P (X0 = 2)
( 2 (P t )2 1 2 (P t )2 2 2 (P t )2 3 )
, , =
2 2 2
( (P t )21 , (P t )22 , (P t )23 ).

(P t )11 (P t )12 (P t )13

(0, 1, 0) (P t )21 (P t )22 (P t )23 .
(P t )31 (P t )32 (P t )33
Seja S enumervel ou nito qualquer. Lembre que para todo i, j S e
t 0 vale
(P t )ij = P (Xt = j | X0 = i).
Ainda, xado condio inicial, e Xt o processo estocstico associado a
P t , t R+ , se i, j S = {1, 2, ..., d}
( P (Xt = 1 | X0 = i), P (Xt = 2 | X0 = i), ...,

P (Xt = d | X0 = i)) =
( (P t )i 1 , (P t )i 2 , ..., (P t )i d ) = ei P t .
onde ei o vetor em que tem todos elementos nulos a menos do i-simo que
igual a 1.
i i
i i
i i

i i
No caso do geral, pode-se mostrar que a P denida da forma descrita

acima, a partir da famlia P t e do vetor , dene, de fato, um Processo Es-
tocstico de Markov.
Vamos mostrar esta propriedade no caso particular
P (Xt = j|X0 = i0 , Xt1 = i1 , Xt2 = i2 ) = P (Xt = j|Xt2 = i2 ),
t 0, j, i0 , i1 , i2 S, toda vez que 0 < t1 < t2 < t.

De fato,
P (Xt = j|X0 = i0 , Xt1 = i1 , Xt2 = i2 ) =
P (Xt = j, X0 = i0 , Xt1 = i1 , Xt2 = i2 )

= =
P (X0 = i0 , Xt1 = i1 , Xt2 = i2 )

i0 Pit01i1 Pit12it1
P tt2
i j sS s Ps i2 Pi2 j
t2 tt2
= 2 2
= Pi2 j =
tt2
=
i0 Pit01i1 Pit12it
2
1
sS s Ps i2
t2

P (X0 = s, Xt2 = i2 , Xt = j)
= sS =
sS P (X0 = s, Xt2 = i2 )
P (X0 S, Xt2 = i2 , Xt = j) P (Xt2 = i2 , Xt = j)

= = =
P (X0 S, Xt2 = i2 ) P (Xt2 = i2 )
= P (Xt = j | Xt2 = i2 ).
O caso geral pode ser demonstrado de maneira semelhante. Fica assim
demonstrada a armao acima.
Denio 4.2. Fixado uma familia Pt satisfazendo 1), 2) e 3), uma Cadeia
de Markov o conjunto de todos os Processos Estocsticos obtidos a partir de
qualquer vetor de probabilidade .
i i
i i
i i

i i
Uma pergunta natural se existem famlias de matrizes estocsticas P t

indexadas por t com tais propriedades. Vamos analisar tal questo a seguir.
Denio 4.3. Uma matriz L com entradas reais da forma #S por #S tal
que
1) Lii 0, para todo i S ,

2) Lij 0, para todo i = j, i, j S ,

3) jS Lij = 0 para todo i S ,
dita uma matriz do tipo linha soma zero.
Exemplo 4.2. No caso em que S = {1, 2, 3, 4}, um possvel exemplo seria

2 1 0 1
1 2 1 0

A= .
0 0 2 2
1 0 1 2
Seja Bn uma sequncia de matrizes da forma #S por #S , n N, ento

dizemos que a matriz A o limite da sequncia Bn ,
lim Bn = A,
n
se, para cada i, j S , vale a propriedade que a entrada (Bn )ij da matriz Bn
satisfaz
lim (Bn )ij = Aij .
n
Note que o conjunto das matrizes n por n isomorfo ao conjunto Rn . Por

2
exemplo, ( )
a11 a12
M (2, 2) = { | a11 , a12 , a21 , a22 R },
a21 a22
tem a mesma dimenso de R4 , ou seja, isomorfo a este espao.
i i
i i
i i

i i
Considere G : M (2, 2) R4 , tal que

( )
a11 a12
G( ) = (a11 , a12 , a21 , a22 ).
a21 a22
G claramente uma bijeo linear. Sendo assim, o sentido de convergncia

acima descrito o mesmo que o leitor est familiarizado de convergncia em
Rk . S que k = n2 .
Vamos ser mais explcitos, diremos, por exemplo, que a sequncia de ma-
trizes
( ) ( )
bn11 bn12 a11 a12
converge matriz quando n ,
bn21 bn22 a21 a22
se o vetor
bn = (bn11 , bn12 , bn21 , bn22 )
em R4 converge ao vetor
a = (a11 , a12 , a21 , a22 ).
Por exemplo,
( ) ( )
1 + n1 ( 12 )n 1 0
lim = .
n 3 21n 1
cos( n ) 3 1
Formalmente, para qualquer existe N > 0 tal que, para todo n > N , vale
que
||bn a|| = ||(bn11 , bn12 , bn21 , bn22 ) (a11 , a12 , a21 , a22 )|| .

Acima ||(x1 , x2 , x3 , x4 )|| = x21 + x22 + x23 + x24 , denominada de norma
euclidiana do vetor (x1 , x2 , x3 , x4 ) em R4 . No caso em que o vetor bn converge
ao vetor a, ento para todo i, j xados vale que o nmero real bnij converge
ao nmero real aij . As propriedades anlogas para matrizes do tipo n por n
i i
i i
i i

i i
seguem deste fato usando uma identicao similar a dada por G acima. O
caso em Rn em tudo semelhante ao que foi descrito acima para R4 .
2
Dada uma sequncia de matrizes An , dizemos que

An = A,
n=0
se

n
lim Ak = A.
n
k=0
Denio 4.4. Considere uma matriz A da forma #S por #S , ento eA
matriz da forma #S por #S dada por
1 2 1 3 1 4 1 1
eA = I + A + A + A + A + ... + An + ... = An .
2! 3! 4! n! n=0
n!
eA chamada de exponencial da matriz A
Exemplo 4.3. Seja a R. Dada a matriz A da forma 2 por 2

( )
0 0
A= ,
a 0
ento ( ) ( ) ( )( )
1
0 0 0 1 0 0 0 0
eA = + + +
0
1 a 0 2! a 0 a 0
( )( )( )
1 0 0 0 0 0 0
+ ... =
3! a 0 a 0 a 0
( ) ( ) ( ) ( )
1 0 0 0 1 0 0 1 0 0
+ + + + ... =
0 1 a 0 2! 0 0 3! 0 0
( ) ( ) ( )
1 0 0 0 1 0
+ =
0 1 a 0 a 1
i i
i i
i i

i i
Exemplo 4.4. Dada a matriz 2 por 2

( )
b 0
A= ,
0 c
ento fcil ver que ( )

eb 0
eA = ,
0 ec
onde a, b R.
Se S for nito de cardinalidade n, dada a matriz A da forma n por n,

sempre existe eA (ver [DL]). Se S for innito, necessrio considerar alguma
norma que faa o papel da norma euclidiana em Rn . Desta forma poderemos
dar sentido convergncia de matrizes. Isto pode ser feito e, neste caso, Bn
converge a B se para cada par i, j S , cada elemento (Bn )ij converge a Bij
quando n vai innito. A seguir vamos considerar apenas as matrizes A tais
que existe eA .

Considere duas matrizes A e B (com #S nita) da forma A = k Ak e

B = j Bj , pode-se mostrar (ver [L]) que seu produto dado por

AB = C = lim Aj Bk .
r
k+jr
Dadas duas matrizes A e B , nem sempre vale que eA+B = eA eB . O resul-

tado seguinte nos d uma condio suciente para que isto ocorra.
Lema 4.1. Dadas A e B do tipo #S por #S , se AB = BA, ento eA+B =

eB eA = eA eB .
i i
i i
i i

i i
Demonstrao: De fato, usando o fato que AB = BA,

n
1 i m
1 j
A B
e e = lim A . lim B =
n
i=0
i! n
j=0
j!
1 k j
= lim A B = eA+B .
l
k+jl
j!k!
Referimos o leitor para [DL] para uma demonstrao mais cuidadosa do

resultado acima.
Note que segue diretamente da denio de exponencial de matriz que se
B for a matriz com todas as entradas nulas, ento eB = I .
Por denio, para cada t real, a matriz et A a expresso
1 1 1 1 1
tA
e = I + t A + t2 A2 + t3 A3 + t4 A4 + ... + tn An + ... = tn An .
2! 3! 4! n! n=0
n!
Note que e0 A = I , para qualquer A. Ou seja, (e0 A )ij = ij , onde ij a

delta de Kronecker.
Segue do Lema acima que dado t e A, ento etA inversvel (et A )1 = et A .
De fato, (t A) (t A) = ( t A) (t A) e assim
et A et A = et A t A = e0 = I = et A et A .
Dada uma matriz L tipo linha soma zero, denote P t = et L , onde t 0.

Vamos mostrar que tal P t dene um semigrupo, e este ser denominado de
semigrupo gerado por L. A matriz L denominada de gerador innitesimal
do semigrupo.
Fixado L tipo linha soma zero qualquer, vamos mostrar que de fato tal P t =
et L satisfaz as propriedades 1) 2) e 3) acima (mencionadas antes da Exemplo
4.1). Deste modo obteremos uma classe grande de exemplos de cadeias de
Markov com tempo contnuo.
i i
i i
i i

i i
Antes de mais nada, para ilustrar a armao acima, vamos mostrar a

seguir um exemplo interessante e importante do clculo do semigrupo P t a
partir do gerador innitesimal.
Exemplo 4.5. Seja L a matriz dois por dois tipo linha soma zero dada por
( )
a11 a12
,
a21 a22
onde
a11 = a12 = 0 e a22 = a21 = 0.
Esta matriz ( )

L = ,

descreve o caso geral de uma matriz tipo linha soma zero no caso #S = 2.
Note que
L2 = L L = ( + ) L.
De fato,
( )( ) ( )
2 + 2
LL = = =
2 + 2
( )

( + ) = ( + ) L.

Por induo fcil ver que
( )

Ln = (1)n1 ( + )n1 = (1)n1 ( + )n1 L.

Para cada t xo, podemos fazer o mesmo raciocnio para L tal que
a11 = a12 = t e a22 = a21 = t ,
i i
i i
i i

i i
obtendo Ln com expresso semelhante a acima.

Portanto, para t xo, obtemos a matriz
1
P t = et L = I (et (+) 1) L =
+
( )
1 + et (+) et (+)
= .
+ et (+) + et (+)
Note que para todo t xo, tal matriz P t estocstica.
Vamos agora demonstrar que no caso geral, uma matriz L tipo linha soma
zero determina atravs de P t = et L , t R+ um semigrupo de matrizes.
Fixada a matriz L, dados t, u R+ , temos que
(t A) (u A) = t u A A = u t A A = (u A) (t A).
Logo, pelo lema acima
P t+u = e(t+u) L = et L eu L = P t P u .
J vimos acima que e0 L = I

Falta ento a propriedade 2) requerida para P t ser semigrupo. Aqui neces-
sitamos assumir que L seja tipo linha soma zero.
Seja Bt uma famlia de matrizes da forma #S = m N por #S = m,
indexadas por t R+ . Seja s xo em R+ , ento dizemos que a matriz A o
limite da sequncia Bt quando t tende a s,
lim Bt = A,
ts
se para cada i, j S vale que a entrada (Bt )ij da matriz Bt satisfaz
lim(Bt )ij = Aij .

ts
i i
i i
i i

i i
A convergncia com t s em tudo similar ao que foi descrito no caso de

matrizes Bn convergindo a A quando n vai a innito. A diferena, claro,
que uma vai a innito e a outra a s.
Por exemplo, se s est xado e

sin(t) + t2 t+1

Bt = ,
t2 + t e t
ento
sin(s) + s2 s+1

lim Bt = .
ts
s2 + s es
Teorema 4.1. Dada uma matriz nita A ento
et A I
lim = A.
t0 t
Sendo assim, para i, j S , i = j vale que
(et A )ii 1 (et A )ii (e0 A )ii d (et A )ii

Aii = lim = lim =( )t=0 .
t0 t t0 t dt
Ainda, para i, j S , i = j vale que
(et A )ij 0 (et A )ij (e0 A )ij d (et A )ij

Aij = lim = lim =( )t=0 .
t0 t t0 t dt
Demonstrao: Ora,
etA I
lim =
t0 t
1 2 1 3 1 n
tA + 2!
t A2 + 3!
t A3 + ... + n!
t An + ...
lim = A.
t0 t
i i
i i
i i

i i
Na armao acima temos um limite em t e uma soma innita em n, sendo

assim preciso ser cauteloso. O leitor que desejar obter uma prova rigorosa
do fato acima pode encontr-la em [DL] Seo 2.1.
Finalmente,
(et A )ij ij
Aij = lim ,
t0 t
onde ij a delta de Kronecker, segue da expresso acima quando analisamos
a entrada ij .
Teorema 4.2. Seja A uma matriz nita. Ento etA uma matriz estocstica
para todo t R, se e s se, A uma matriz tipo linha soma zero.
Demonstrao: Note que (ver [DL])
etA I tA
lim =
t0 t
1 2 1 3 1 4 1 n
2!
t A2 + 3!
t A3 + 4!
t A4 + ... + n!
t An + ...
= lim = 0.
t0 t
Acima 0 signica, naturalmente, a matriz com todas as entradas nulas.
Suponha que A seja tipo linha soma zero.
Ora, seja i = j , ambos em S , ento Aij 0, e assim
(etA )ij Iij tAij (et A )ij (e0 A )ij

0 = lim = lim Aij .
t0 t t0 t
Desta forma, para i = j xo vale que
d(et A )ij
0
dt
e, como e0 A = 0, logo temos, para t pequeno, (et A )ij 0.
Ainda,
1 2 2 1 3 3 1
lim(etA I) = lim ( t A + t A + t A + ... + tn An + ... ) = 0.
t0 t0 2! 3! n!
i i
i i
i i

i i
Sendo assim, para i S xo, temos que para t pequeno vale (et A )ii 0,
pois (et A )ii 1.
Conclumos assim que existe > 0 tal que para t < , todas as entradas
de et A so positivas.
Seja agora um u R qualquer xo e n N. Ora, pelo Lema 3.1 temos que
u u u u
eu A = e|( n ) A e( n{z
)A
... e( n ) A} = ( e( n ) A )n .
n vezes
Tomando n grande, temos que nu < e, assim, o produto acima envolve

apenas matrizes com coecientes no negativos. Logo, eu A uma matriz com
entradas no negativas para todo u R+ .
Seguindo o raciocnio inverso, com a mesma argumentao, fcil ver que
se euA tem todas as entradas no negativas para todo u 0, ento para todo
i = j vale que Aij 0. Para isto basta calcular
d(et A )ij
,
dt
e usar o fato que (e0 A )ij = Iij = 0.

Da mesma forma, se euA tem todas as entradas no negativas para todo
u 0, e a soma de cada linha 1, ento , ento para todo i vale que Aii 0.
Isto porque e0iiA = Iii = 1 e (euA )ii 1.
Vamos supor agora que A seja do tipo linha soma zero.
Armamos que se A do tipo linha soma zero ento An , para n > 0,
tambm do tipo linha soma zero. A armao no vale para n = 0.
Isto segue do fato que B do tipo linha soma zero, se e s se, dado o vetor
coluna p, que tem todas as entradas 1, ento B p = q , onde q o vetor coluna
que tem todas as entradas 0, ou seja q = 0. Deste modo A2 p = A (A p) =
A q = A 0 = 0, e assim por diante...
Seja (An )ij a entrada ij da matriz An .
i i
i i
i i

i i
Segue do que foi dito acima que, se A do tipo linha soma zero, ento para
iS

tn n
(et A )ij = 1 + (A )ij = 1.
jS n=1
n! jS
Logo, et A estocstica, para qualquer t 0 xado.

Reciprocamente, se et A estocstica, ento para i S xo,
d ( d tA )
0=( 1 )t=0 = (e )ij t=0 = Aij .
dt dt jS jS
Sendo assim A, do tipo linha soma zero.
O resultado acima quando S innito, sob certas hiptese naturais, tam-

bm vlido, mas a demonstrao mais delicada e no ser feita aqui. Por
exemplo, na ltima passagem da demonstrao acima usamos o fato que
( d tA )
(e )ij t=0 = Aij .
dt jS jS
Quando S innito, em certos casos, no se pode passar a derivada para dentro

do somatrio.
Em resumo, se L tipo linha soma zero, ento o semigrupo P t = et L
estocstico e desta forma, a partir de um vetor de probabilidade (sobre S ),
podemos denir uma probabilidade P no espao de caminhos em S R
+
contnuos a direita (e com limite a esquerda).

Note que a matriz L, denominada de gerador innitesimal, determina as
probabilidades de transio de i para j em tempo t atravs de
(P t )ij = (et L )ij .
Denotamos por = {(p1 , p2 , ..., pn ) | pj 0, j = 1, 2, ..., n, e ainda, p1 +

p2 + ... + pn = 1}.
i i
i i
i i

i i
Figura 4.2: Distintas solues no plano da E.D.O. linear associada p = L(p).

Quando t , ento, p(t) converge a um determinado ponto na reta pontil-
hada. Esta reta passa por p tal que p L = 0.
Dada a equao diferencial p (t) = p(t) L, t 0, e xada uma condio

inicial p(0) = 0 , se obtm uma soluo p(t) (ver [DL] ou o apndice
4.5 ao m deste captulo), e ela tal que pj (t), j = 1, 2, .., n S , descreve a
evoluo ao longo do tempo de P (Xt = j) = pj (t). Isto segue do fato que esta
soluo p(t) satisfaz p(t) = 0 et L .
Est a propriedade fundamental desta parte da teoria.
Por exemplo, seja S = {1, 2}. Ento
(P (Xt ) = 1, P (Xt ) = 2) = (1 , 2 ) P t = (1 , 2 ) et L .
Exemplo 4.6. Suponha que o Processo Xt tomando valores em S = {1, 2},

tenha como gerador innitesimal a matriz
( )

L = ,

onde e so positivos.
i i
i i
i i

i i
Conforme calculamos antes, para t xo, obtemos a matriz

( )
t (+) t (+)
1 + e e
P t = et L = .
+ et (+) + et (+)
Logo, se p1 = P (X0 = 1) e p2 = P (X0 = 2), temos que

( )
1 + et (+) et (+)
(P (Xt ) = 1, P (Xt ) = 2) = (p1 , p2 ) .
+ et (+) + et (+)
Ainda,
( ) ( )
P1,1
t
P1,2
t
P (Xt = 1 | X0 = 1) P (Xt = 2 | X0 = 1)
= =
P2,1
t
P2,2
t
P (Xt = 1 | X0 = 2) P (Xt = 2 | X0 = 2)
( )
1 + et (+) et (+)
= .
+ et (+) + et (+)
Observe que quando t temos que
( )

Pt +

+
.
+ +
Note, neste caso, que para qualquer vetor inicial p = (p1 , p2 ) de probabili-
dade vale que

lim p P t = ( , ),
t + +
conforme Figura 4.2.
No caso de S innito, muitos exemplos tambm podem ser obtidos em

que propriedades anlogas as que foram descritas acima so vlidas. Basta
que para L (uma matriz innito por innito) tipo linha soma zero, se consiga
provar que est bem denido etL , para todo t 0.
i i
i i
i i

i i
Em vrios exemplos vamos proceder de maneira inversa. Iremos supor

que valham certas propriedades para o Processo Estocstico denido por certa
probabilidade P sobre S R (denida anteriormente). Deduziremos a
+
partir desta informao qual a matriz L. Este procedimento ser utilizado

no caso do Processo de Poisson.
Em muitos exemplos aplicados o que se tem na verdade apenas uma
informao de probabilidades de transio (P t )ij prxima a t = 0. Assim
pode-se determinar (de alguma forma) a matriz L. Ou seja, P t , na totalidade
dos valores t, surge apenas aps se descobrir o L, e s ento determinamos
explicitamente P t = et L .
Vamos formalizar o que estamos armando acima: considere novamente
o caso geral de Processos Estocstico Markoviano: seja (, A, P ) espao de
probabilidade, (S, G) espao mensurvel e uma famlia de variveis aleatrias
Xt indexadas por um parmetro t R+ , onde cada Xt : (, A, P ) (S, G)
mensurvel com S enumervel contido em Z.
Suponha que para cada s 0 xado,
P (Xt+s = j | Xs = i),
seja independente de s 0 e que valha a condio
P (Xt = j|X0 = i0 , Xt1 = i1 , . . . , Xtn = in ) = P (Xt = j|Xtn = in ),
t 0, j, i0 , i1 , . . . , in S,
toda vez que 0 < t1 < t2 < t3 < ... < tn < t.
Ento, dena
(P t )ij = P (Xt = j | X0 = i).
Fixe t1 < t2 < t3 .
Usando a regra de Bayes, para i1 e i3 xos, podemos condicionar em t2 e
obtemos
i i
i i
i i

i i
P (Xt3 = i3 , Xt1 = i1 )
(P t3 t1 )i1 i3 = P (Xt3 = i3 |Xt1 = i1 ) = =
P (Xt1 = i1 )

i2 S P (Xt3 = i3 , Xt2 = i2 , Xt1 = i1 )
= =
P (Xt1 = i1 )
P (Xt = i3 , Xt = i2 , Xt = i1 ) P (Xt = i2 , Xt = i1 )
3 2 1 2 1
= =
i S
P (X t2 = i2 , Xt1 = i1 ) P (X t1 = i1 )
2

= P (Xt3 = i3 | Xt2 = i2 , Xt1 = i1 ) P (Xt2 = i2 | Xt1 = i1 ) =
i2 S

= P (Xt3 = i3 | Xt2 = i2 ) P (Xt2 = i2 | Xt1 = i1 ) =
i2 S

= (P t2 t1 )i1 i2 (P t3 t2 )i2 13 .
i2 S
Denio 4.5. A identidade

(P t3 t1 )i1 i3 = (P t2 t1 )i1 i2 (P t3 t2 )i2 i3 ,
i2 S
para t1 < t2 < t3 e i1 , i3 xos chamada de Equao de Chapman-Kolmogorov.
Em sua verso mais simples: para qualquer i, j S , t, s > 0

t+s s t
Pi,j = Pi,k Pk,j .
kS
Neste caso se diz que P , t 0 possui a propriedade de semigrupo.

t
A expresso da equao de Chapman-Kolmogorov tambm pode ser escrita

para t1 < t2 < t3 como

P (Xt3 = i3 | Xt1 = i1 ) = P (Xt2 = i2 | Xt1 = i1 ) P (Xt3 = i3 | Xt2 = i2 ),
i2 S
i i
i i
i i

i i
ou

Pit13,it
3
1
= Pit12,it
2
1
Pit23,it
3
2
.
i2 S
Ou seja, a passagem de i1 em tempo t1 , para i3 em tempo t3 , pode ser

condicionada a um tempo intermedirio t2 , variando todos os possveis valores
s S.
Note que (pela expresso de produto de matrizes)

(P t3 t1 )i1 i3 = (P t2 t1 )i1 i2 (P t3 t2 )i2 13 = (P t2 t1 P t3 t2 )i1 i3 ,
i2 S
onde a lima expresso o elemento i1 i3 da matriz obtida como produto de

P t2 t1 P t3 t
Para t1 < t2 < t3 xos, variando i1 , i3 em S , obtemos a partir da igualdade
acima para todo i1 , i3 , a identidade entre matrizes
P t3 t1 = P t2 t1 P t3 t2 .
Em outras palavras, para t, s 0
P t+s = P t P s ,
ou seja, que vale que P t , t R, um semigrupo a tempo continuo. Por

denio as matrizes P t so estocsticas para cada t xo.
Sendo assim a equao de Chapman-Kolmogorov traduz a propriedade de
semigrupo associado ao processo obtido atravs de P e Xt , t 0.
Nesta formulao no falamos em L. Algumas vezes, em problemas do
mundo real aparece de maneira natural o P t . Outras vezes o que aparece de
maneira natural o L. Exemplos sero apresentados em breve.
Note que por induo tambm vale o seguinte: dados t1 , t2 , ..., tn maiores
que zero, ento
P t1 +t2 +...+tn = P t1 P t2 ... P tn .
i i
i i
i i

i i
Denote por Pi,j (s, t) a probabilidade de Xt = j dado que Xs = i, i, j S .

Se o gerador innitesimal L tiver entradas Aj,k , j, k S , ento valem as
seguintes equaes (quando S enumervel):
a) Equao diferencial forward (para frente) de Chapmann-Kolomogorov:
para s, t
Pij
(s, t) = Pik (s, t)Ak,j (t),
t k
b) Equao diferencial backward (para trs) de Chapmann-Kolomogorov:

para s, t
Pij
(s, t) = Ai,k (s)Pk.j (s, t).
s k
Estas equaes podem ser deduzidas diretamente da equao de Chapman-

Kolmogorov por diferenciao. De fato, para P t da forma P t = et L ,
a) a Equao diferencial forward (para frente) de Chapmann-Kolomogorov

P = P L ,
e
b) a Equao diferencial backward (para trs) de Chapmann-Kolomogorov

P = L P .
Dado P t , podemos nos perguntar: existe um L natural associado ao pro-

blema? Ou seja, ser que existe L tal que P t , da forma P t = et L ? A resposta
como veremos (em muitos casos) sim, e desta forma a) e b) acima so vlidos.
Com as mesmas hipteses anteriores vamos supor agora que seja verdadeira
ainda a hiptese de diferenciabilidade em t = 0, ou seja, que existam os limites
abaixo: para todo i = j S xados
(P t )ij
lim ,
t0 t
i i
i i
i i

i i
e para todo i S
(P t )ii 1
lim ,
t0 t
onde
(P t )ij ,
descreve a probabilidade de transio de i para j em tempo t pequeno.
Vamos denotar por Lij o primeiro limite acima e Lii o segundo limite acima.
De maneira compacta, as duas expresses acima signicam que
Pt I
lim = L. ()
t0 t
Note que Lij 0 para i = j pois (P t )ij 0.
Por outro lado, Lii 0 para i S pois (P t )ii 1 0.
Lembre que Pi,j (t) = P (Xt+u = j | X(u) = i), t, u 0, independente de u.
Ainda, a matriz L assim obtida tipo linha soma zero, pois para i xo

Lij = Lij + Lii =
jS jS,j=i
(P t )ij (P t )ij 1
= lim + lim =
t0
jS,j=i
t t0 t

jS (P )ij 1
t
0
= lim = lim = 0.
t0 t t0 t
Alertamos ao leitor que no caso em que S innito a deduo acima pode
no ser vlida por envolver somas innitas e limites em t. Em muitas situaes
em que S innito, mesmo assim, a armao verdadeira.
No caso em que S = {1, 2, 3, 4}, e

2 2 0 0
1 2 1 0

L= ,
0 1 3 2
0 0 2 2
i i
i i
i i

i i
o limite (*) acima deve ser interpretado da seguinte forma:
a)P1,2 (t) = 2t + o(t)
b)P1,1 (t) = 1 2t + o(t)
c)P1,3 (t) = o(t)
d)P2,3 (t) = t + o(t)
e)P2,1 (t) = t + o(t)
f)P3,4 (t) = 2t + o(t)
g)P3,2 (t) = 1t + o(t)
h)P3,3 (t) = 1 3 t + o(t)
i)P4,3 (t) = 2t + o(t),

o(t)
onde limt0 t
= 0.
No caso S nito, ou innito S = N = {1, 2, 3..., n, ...}, usaremos a notao

d (P s )11 d (P s )12 d (P s )13
. . . . . . .
d (Pdss )21 ds
d (P s )22
ds

ds d (P )23
. . . . . . .
d (P s ) ds ds
31 d (P s )32 d (P s )33
. . . . . . .
d Ps ds ds ds

= . . . . . . . . . . .
ds
. . . . . . . . . .
s
d (P )n 1 d (P s )n 2 d (P s )n 3
.
ds ds ds
. . . . . .
. . . . . . . . . .
d (P s )i j
Acima, o elemento i j da matriz N por N ds
.
i i
i i
i i

i i
No caso em que S = Z, temos que

. . . . . . . . .

. . . . . . . . .

. .
. . . . . . .
d (P s )1 1 d (P s )1 0 d (P s )1 1
. . . . . .
dP s ds ds ds
=
. . . d (P s )0 1
ds
d (P s )0 0
ds
d (P )0 1
ds
. . ..
ds d (P s )1 1 d (P s )1 0 d (P s )1 1
. . . . . .
ds ds ds
. . . . . . . . .

. .
. . . . . . .
. . . . . . . . .
d (P s )i j
Acima, o elemento i j da matriz Z por Z ds
.
O que descrevemos acima, de maneira sinttica, que
dP s
|s=0 = L.
ds
Dito de outra forma, para cada i, j xos vale
d (P s )i,j d P (Xs = j | X0 = i)
|s=0 = |s=0 = Li,j .
ds ds
Exemplo 4.7. Considere o semigrupo
( )
1 + et (+) et (+)
Pt = .
+ et (+) + et (+)
Derivando em cada entrada da matriz obtemos que

( )
d Pt
|t=0 = .
dt
i i
i i
i i

i i
Gostaramos de concluir, a partir das hipteses acima, que para cada t 0

a matriz P t que tem como entrada ij o valor (P t )ij satisfaz P t = etL . Para
que isto ocorra necessitamos, de fato, apenas a hiptese de diferenciabilidade
em t = 0.
Teorema 4.3. Se Pt uma familia de matrizes da forman por n, indexadas

por t 0, que satisfaz a propriedade de semigrupo, com P = I , e ainda
0
lims0 P sI
s
= L, ento
P t = et L ,
para todo t 0.
Demonstrao: De fato, note primeiro que estamos assumindo acima que

Ps I
lim = L. ()
s0 s
Como P s , s 0 um semigrupo, para cada t xo,
P s+t P t Ps P0 t Ps I t
lim = lim P = lim P = L P t. ()
s0 s s0 s s0 s
O produto na ltima expresso direita produto de matrizes.
Logo, conclumos que a existncia de derivada ( direita) em t = 0 (*), ou
seja,
( dP t )
=L
dt t=0
implica (pela propriedade de semigrupo) a existncia de derivada ( direita)
em qualquer ponto t 0 (**), ou seja, a existncia de
dP t
.
dt
Considere a curva (no espao das matrizes Rn com a norma descrita an-
2
teriormente) P t com t 0. Segue do que foi dito acima, que para qualquer
t 0, vale
dP t
= P t L.
dt
i i
i i
i i

i i
Ou seja, o semigrupo P t = X(t) Rn satisfaz a equao diferencial

2
X (t) = X(t) L.
Ainda X(0) = I .
Da Teoria das Equaes Diferenciais Ordinrias (ver [DL] ou Apndice 4.5)
sabe-se que
P t = et L , t 0.
Figura 4.3: Caminho amostral x(t) = xt em que o conjunto de estados

S = {0, 1}
A concluso que se a famlia de matrizes P t , t 0, da forma n por

n, oriundas de um Processo Estocstico Markoviano com #S = n, satisfaz a
hiptese de diferenciabilidade em t = 0, ento existe L tal que para todo t 0
P t = et L .
A evoluo temporal do processo depende basicamente das propriedades
da matriz L, denominada de gerador innitesimal do Processo Estocstico
Markoviano.
i i
i i
i i

i i
Sendo assim, suponha que 0 = (10 , 20 , .., d0 ) denota a probabilidade inicial

do Processo Markoviano. Ainda, denote
t = (P (Xt ) = 1, P (Xt ) = 2, ..., P (Xt ) = n),
a probabilidade no tempo t. A evoluo temporal de t dada por
t = (P (Xt ) = 1, P (Xt ) = 2, ..., P (Xt ) = n) =

(10 , 20 , ..., d0 ) P t = 0 et L (4.1)
para todo t 0.
t satisfaz a equao diferencial d

dt t
= t L.
Deste modo, nosso procedimento inicial de denir uma probabilidade P em
S a partir de um semigrupo et L , t 0, onde L matriz do tipo linha soma
R+
zero, bastante natural.

L denominado de gerador innitesimal do Processo Markoviano a tempo
continuo.
A Figura 4.4 ilustra o fato que (P 0 )ii = 1 e (P 0 )ij = 0. Ainda,
d
(Pijt )t=0 = ij = Lij .
dt
A medida que t > 0 cresce, a funo Pij (t) = (P t )ij cresce, quando i = j.
A medida que t > 0 cresce, a funo Pii (t) = (P t )ii decresce, quando i S.
Lembre que a evoluo de t , t 0, descrita por (4.1).
Denio 4.6. Fixada a matriz tipo linha soma zero L, dizemos que o vetor
de probabilidade um vetor estacionrio para o semigrupo P t = et L , t R + ,

se para todo t R+ vale que
P t = et L = .
i i
i i
i i

i i
Teorema 4.4. Seja S nito, L matriz tipo linha soma zero xada, e P t = et L ,
para P , se e s se, L = 0.
t
ento vetor estacionrio
Demonstrao: Ora, se L = 0, ento a soluo de x (t) = x(t) L, com a

condio inicial x(0) = x(t) = para todo t real. Mas sabemos que tal
x(t) satisfaz
x(t) = et L ,
e assim segue que vetor estacionrio.

Reciprocamente, se x(t) = et L = , para todo t 0, ento, a soluo do
sistema de equaes lineares x (t) = x(t) L com a condio inicial x(0) =
constante, logo
0 = x (t) = L.
Exemplo 4.8. Para a matriz geral da forma linha soma zero do tipo dois por
dois ( ) ( )
11 12
L= = ,
21 22
com , 0, temos que

( , ) L = (0, 0).
+ +
Podemos pensar que tal matriz descreve uma Cadeia Markoviana com
tempo contnuo tomando valores em S = {0, 1}. Neste caso, os caminhos
amostrais so sempre do tipo descrito na gura 4.3. As probabilidades de
transio seriam dadas por
( )
p (t) p (t)
et L =
00 01
.
p10 (t) p11 (t)
i i
i i
i i

i i
A evoluo ao longo do tempo t da matriz et L de fundamental importncia

na anlise do Processo. A evoluo das entradas p00 (t) e p11 (t) so descrita na
gura 4.4.
Logo, o vetor (1 , 2 ) = = ( +

, + ) estacionrio e assim,

=( , ) =( , ) et L = et L ,
+ + + +
para todo t 0.

Dizemos que o processo a tempo contnuo Xt , t 0, estacionrio se para
qualquer t, qualquer n, qualquer escolha t1 < t 2 < ... < tn , vale
P ( X0 = a0 , Xt1 = a1 , Xt2 = a2 , Xt3 = a3 , ..., Xtn = an ) =
= P ( Xt = a0 , Xt+t1 = a1 , Xt+t2 = a2 , Xt+t3 = a3 , ..., Xt+tn = an ).

fcil ver que escolha de vetor de probabilidade inicial estacionrio torna
o Processo de Markov Xt assim obtido um Processo Estacionrio.
Desta forma, considerando o exemplo acima de processo Xt , t R+ , com
S = {1, 2}, associado ao semigrupo com gerador innitesimal L, temos que se
considerarmos o vetor estacionrio, ento vale
(P (Xt ) = 1, P (Xt ) = 2) = (1 , 2 ) P t =
= (1 , 2 ) et L = (1 , 2 ) = (P (X0 ) = 1, P (X0 ) = 2),

para todo t 0.
Ainda, P ( X0 = 1, X3,1 = 1, X7,3 = 2) = P ( X1,2 = 1, X4,3 = 1, X8,5 = 2).
Exemplo 4.9. No caso em que S = {1, 2, 3, 4}, e

2 1 0 1
1 2 1 0

L= ,
0 0 2 2
1 0 1 2
i i
i i
i i

i i
Figura 4.4: A evoluo ao longo do tempo das entradas p00 (t) (ou, p11 (t)) e
p10 (t) (ou, p01 (t)) da matriz et L .
podemos obter o , tal que L = 0, da forma a ser descrita abaixo.

Seja x = (1, x2 , x3 , x4 ) R4 , desejamos inicialmente resolver x L = 0, ou
seja resolver o sistema linear
2 + x2 + x4 = 0,
1 2x2 = 0,
x2 2x3 + x4 = 0.
Este sistema tem trs equaes e trs incgnitas. A quarta equao

redundante (pois a quarta coluna combinao linear das outras j que cada
linha soma zero).
Da segunda equao obtemos que x2 = 12 . Substituindo x2 = 1
2
na primeira
i i
i i
i i

i i
obtemos x4 = 32 . Finalmente, da ltima equao obtemos x3 = 1. Sendo assim,
1 3
(1 , , 1 , ) L = 0.
2 2
Como 1 + 1
2
+1+ 3
2
= 4, temos que o nico tal que L = 0
1 1 1 3
= ( , , , ).
4 8 4 8
Desta forma, para todo t
1 1 1 3 tL 1 1 1 3
( , , , )e = ( , , , )
4 8 4 8 4 8 4 8
e tal dene a probabilidade inicial que torna o Processo de Markov Xt asso-
ciado ao semigrupo P t = et L um Processo Estacionrio.
A demonstrao dos prximos trs resultados pode ser evitada numa pri-
meira leitura. importante, no entanto, o bom entendimento do que armam
os trs teoremas a seguir.
Teorema 4.5. Quando S nito, dada L tipo linha soma zero existe um vetor
de probabilidade estacionrio.
Demonstrao: Para cada t = 1/n 0 xo, n N, a matriz P 1/n estocstica,

logo, existe um vetor qn tal que
qn P 1/n = qn .
Assim, para qualquer n
qn ( P 1/n I )
= 0.
1/n
i i
i i
i i

i i
O conjunto compacto, desta forma existe um elemento q que limite

da subsequncia qn com n natural.
Ora, como
Pt I
lim =L
t0 t
uniformemente, ento
qn ( P 1/n I ) q ( P 1/n I )
0 = lim = lim = q L.
n 1/n n 1/n
Sendo assim, q satisfaz q L = 0 e portanto a partir do ltimo teorema q
um vetor estacionrio para L.
Teorema 4.6. Seja L matriz k por k tipo linha soma zero, denote por I a
matriz k por k , que tem todas as entradas igual a 1, ento se IL for inversvel,
temos que
= (1 1 ...1 1)(L I)1

satisfaz
L = 0.
Demonstrao: Sabemos que existe tal que L = 0. Note que
(I L) = (1 1 ...1 1) (0 0 ...0 0) = (1 1 ...1 1).
Aplicando em ambos os lados da igualdade acima (do lado direito) a matriz

(I L)1 obtemos o resultado desejado.
Teorema 4.7. Seja S nito com cardinalidade d. Dada a matriz L tipo linha
soma zero, suponha que exista apenas um elemento tal que L = 0.
tL
Assuma tambm que e seja regular, para todo t 0. Ento para qualquer
elemento p , vale que
lim p et L = .
t
i i
i i
i i

i i
Demonstrao: Seja t real positivo xo.

Considere o espao
V = {v Rd | 0 = < v, (1, 1, 1, ..., 1) > = v1 + v2 + ... + vd }.
O espao V tem dimenso d 1. O espao gerado pelo vetor (1, 1, ..., 1) e

o espao vetorial V geram o Rd .
Vamos mostrar agora que dado v V , temos que v L V .
Como a matriz L tipo linha soma zero temos que vale

1 0

1 0

L
. = . ,

. .
1 0
logo,
(1 1 1 ... 1) L = (0 0 0 ... 0).
Sendo assim,
< v L , (1, 1, ..., 1) > = < v , (1, 1, ..., 1) L > = < v , (0, 0, ..., 0) >= 0.
Assim, v L V , se v V .
Desta forma, tambm vale que v ( tn Ln ) V , para todo n, e nalmente
que

1
v( (t L)n ) = v et L V,
n=0
n!
se v V .
Acima usamos o fato que como V um conjunto fechado, toda sequncia
convergente de elementos de V Rd , converge a um elemento de V .
Armamos que todo autovalor generalizado de L, outro que 1, tem parte
real negativa.
i i
i i
i i

i i
Figura 4.5: As distintas solues p(t) no caso em que R3 . Neste caso,

p L = 0.
Considere a Transformao linear T : V V , induzida por eL , isto ,

T (v) = v eL . Os autovalores de T so tais que seus autovalores tem norma
menor ou igual a 1, pois e L estocstica (ver Teorema 2.6). Ainda, como
nico que satisfaz L = 0, ento pelo Teorema 2.6, os outros autovalores de T
so distintos de 1.
Denote por c, onde c < 1 o maior destes autovalores. Desta forma, |T (v)| <
c |v|, para todo v em V .
Seja u Cd1 autovetor generalizado associado a C, autovalor de LV
i i
i i
i i

i i
(ou seja, L restrito a V ). Ento vale que u ( tn Ln ) = (t )n u, e assim
u et L = et u.
Sendo assim, como e c < 1, ento, dados v1 , v2 V , vale que
|(v1 v2 ) et L | ct |v1 v2 |.
Note que no est em V pois < , (1, 1, ..., 1) >= 1. Seja agora, x1 , x2
, e escreva x1 = v1 + c1 , e x2 = v2 + c2 , onde c1 , c2 R.
Ora,
1 = < x1 , (1, 1, ..., 1) > =
=< v1 , (1, 1, ..., 1) > + c1 < , (1, 1, ..., 1) > = 0 + c1 .
Logo c1 = 1. Aplicando o mesmo a x2 obtemos que c2 = 1.
Temos ento que
x1 et L x2 et L = (v1 + ) et L (v2 + ) et L =
= v 1 et L v 2 et L .
Sendo assim,
| x1 et L x2 et L | < ct | v1 v2 | =
= ct |(v1 + ) (v2 + ) | ct | x1 x2 |.
Portanto, para p qualquer e t real vale que
| p et L | = | e t L p et L | ct | p | .
Desta forma,
lim p et L = .
t
A velocidade de convergncia a em t da ordem de ct , com c < 1.

Logo, esta convergncia bem rpida.
i i
i i
i i

i i
O Exemplo 4.6 acima mostra um caso particular do ltimo teorema, numa

situao em que vale que para qualquer p inicial xado

lim p et L = ( , ) = .
t + +
Ilustrando o que arma o teorema acima no caso S = {1, 2, 3}, na Figura 4.5
exibimos vrias curvas x(t) = p et L , t R+ , descritas por distintas condies
iniciais p, e sua convergncia ao vetor invariante p, quando t vai a innito.
Teorema 4.8. Suponha que S tem cardinalidade d e o nico elemento
em L = 0, onde
tal que L
matriz d por d tipo linha soma zero. Con-
sidere o semigrupo P gerado por L e o correspondente Processo

t
Estocstico
Markoviano Xt , t R . Dados i e j em S , temos que

+
lim P (Xt = j | X0 = i) = j ,
t
onde = (1 , 2 , ..., d ).
Demonstrao: O semigrupo P t tem gerador innitesimal L, logo
( P (Xt = 1|X0 = i), P (Xt = 2|X0 = i), ...,
P (Xt = d|X0 = i) ) =
= ( (P t )i 1 , (P t )i 2 , ..., (P t )i d ) =
= ei P t = ei et L .
Pelo ltimo teorema temos que
lim ei et L = = (1 , 2 , ..., d ).
t
i i
i i
i i

i i
fcil ver a partir do que foi mostrado acima que se considerarmos uma
vetor inicial de probabilidade qualquer p0 , o semigrupo P t gerado por L e o
correspondente Processo Estocstico Markoviano Xt , t R+ , ento, dado j
em S , temos que
lim P (Xt = j) = j ,
t
onde = (1 , 2 , ..., d ) o vetor estacionrio.
Exemplo 4.10. Como vimos antes, no caso em que S = {1, 2, 3, 4}, e

2 1 0 1
1 2 1 0

L= ,
0 0 2 2
1 0 1 2
o vetor = ( 14 , 1
8
, 1
4
, 83 ) tal que L = 0. Isto ,
1 1 1 3
( , , , )
4 8 4 8
estacionrio para et L , t R+ .
O Processo de Markov Xt associado ao semigrupo P t = et L e a probabili-
dade inicial = ( 41 , 18 , 41 , 38 ) estacionrio. Apenas para esta escolha de
probabilidade inicial o Processo de Markov associado a L ser estacionrio.
Considere o Processo de Markov Xt associado ao semigrupo P t = et L e
uma probabilidade inicial qualquer p .
Neste caso, ento vale que
1
lim P (Xt = 3 | X0 = 2) = .
t 4
Ainda,

4 4
1 1
lim P (Xt = 3) = lim P (Xt = 3 | X0 = j) pj = pj = .
t t
j=1 j=1
4 4
i i
i i
i i

i i
Algumas palavras de cautela ao leitor. No desenvolvimento acima deix-

amos alguns pontos conceituais no totalmente bem resolvidos. Destacamos
que em Processos Estocsticos a tempo contnuo, as probabilidades nito di-
mensionais no caracterizam de maneira nica o Processo. Com isto queremos
dizer que dois Processos Estocsticos Xt e Yt (duas probabilidades PX e PY
sobre S R ) poderiam tem as mesmas distribuies nito-dimensionais e mesmo
+
assim existir um conjunto K tal que PX (K) = 0 e PY (K) = 1.

Sob certas hipteses, resultados similares ao do caso tempo discreto podem
ser obtidos de qualquer forma (propriedade forte de Markov, ergodicidade,
etc.) mas a complexidade matemtica da anlise destas questes bem maior
e est fora do escopo do presente texto. Na Seo 4.4 faremos um apanhado
resumido de alguns resultados bsicos da teoria geral das Cadeias de Markov
a tempo contnuo.
4.2 O Processo de Poisson

Um exemplo muito importante de Processo Estocstico a tempo contnuo
o de Poisson. Seja S = N = {0, 1, 2, ..., n, ...}, vamos voltar a considerar o
Processo de Poisson de parmetro . Armamos que este processo pode ser
descrito como P t = etL , onde a matriz L tipo linha soma zero

0 0 0 0 ..... ... .. ...

0 0 0 0 ..... ... .. ...

0 0 0 0 ..... ... .. ...

L= 0 0 0 0 ..... ... .. ... ,

. . . . . . . .... .. ...

0 ...
0 0 ...... 0 0 0
. . . . . . . .... .. ...
i i
i i
i i

i i
4.2 O Processo de Poisson 317
Nesta matriz temos sempre na diagonal e na entrada logo direita da

diagonal um . As outras entradas so iguais a zero.
A matriz L associada ao Processo de Poisson, no possui vetor de proba-
bilidade , tal L = 0.
Lembre que assumimos no Processo de Poisson que P (X0 = 0) = 1, logo
estamos considerando o vetor inicial
= (1, 0, 0, 0, 0, ...).
Como vimos antes vale para todo j 1
P ( Xt+h Xt = 1 | Xt = j ) = t + o(h),
e
P ( Xt+h Xt = 0 | Xt = j ) = 1 t + o(h),
Considere a equao diferencial x (t) = x(t) L, onde L a matriz acima,

com a condio inicial x(0) = (1, 0, 0, 0, 0, ...), e sua soluo
x(t) = (x0 (t), x1 (t), x2 (t), x3 (t), ..., xn (t), ...).
A soluo x(t), neste caso, nos d uma informao importante para o Processo
de Poisson (conforme descrito no comeo desta seo em que assumimos que
P (X0 = 0) = 1):
(P (Xt = 0), P (Xt = 1), P (Xt = 2), ...) = x(t) =
(1, 0, 0, 0, ...0, ...) et L = (1, 0, 0, 0, ...0, ...) P t .
Note que segue direto da expresso de L que a equao x = x L, equiva-

lente a relao

xk (t) = xk (t) + xk1 (t),
i i
i i
i i

i i
para qualquer k 1, e

x0 (t) = x0 (t). (4.2)
Teramos assim, equivalentemente, a relao
d
P (Xt = k) = P (Xt = k) + P (Xt = k 1),
dt
d
P (Xt = 0) = P (Xt = 0).
dt
Vamos calcular et L neste caso. Note que t L = t L1 + tL2 , onde

t 0 0 0 0 0 ..... ... .. ...

0 t 0 0 0 0 ..... ... .. ...

0 0 t 0 0 0 ..... ... .. ...

L1 = 0 0 0 t 0 0 ..... ... .. ... ,

. . . . . . . .... .. ...

0 0 t ...
0 0 ...... 0 0 0
. . . . . . . .... .. ...
e

0 t 0 0 0 0 ..... ... .. ...

0 0 t 0 0 0 ..... ... .. ...

0 0 0 t 0 0 ..... ... .. ...

L2 = 0 0 0 0 t 0 ..... ... .. ... .

. . . . . . . .... .. ...

0 0 0 ...... 0 ...
0 0 t 0
. . . . . . . .... .. ...
Note que (t L1 ) (t L2 ) = (t L2 ) (t L1 ).
i i
i i
i i

i i
Neste caso, tambm se pode mostrar que et L = et (L1 +L2 ) = et L1 et L2 .

Ora, et L1 matriz diagonal que tem et em cada elemento da diagonal.
Ainda,

0 0 ( t)2 0 0 0 0 . 0 ...

0 0 0 ( t)2 0 0 0 . 0 ...

0 0 0 0 ( t) 2
0 0 . 0 ...

(tL2 ) (tL2 ) = 0 0 0 0 0 ( t)2 0 ... 0 ... ,

. . . . . . . .... .. ...

0 0 0 . ( t)2 ...
0 0 ...... 0
. . . . . . . .... ..
e

0 0 0 ( t)3 0 0 0 0 . ...

0 0 0 0 ( t)3 0 0 0 . ...

0 0 0 0 0 ( t)3 0 0 . ...

(t L2 ) = 0
3
0 0 0 0 0 ( t)3
0 . ... ,

. . . . . . . .... ..

0 3
0 0 0 0 ...... 0 . 0 ( t) ..
. . . . . . . .. .. ..
e assim por diante.
Logo,
2 3 4

( t)5
1 ( t) (2!t) (3!t) (4!t) ... ... ... ...
2 3
5!
( t)4
0 1 ( t) (2!t) (3!t) ... ... ... ...
4!
0 ( t) (2!t)
2 ( t)3
...
0 1 3!
. ... ...

et L2 = 0 0 0 1 ( t) ( t)2
... ... ... ... .
2!
. . . . . . . .... .. ...

0 0 0 0 ...... 0 . 1 ( t) ...
. . . . . . . ... .. ...
i i
i i
i i

i i
Figura 4.6: Trajetria amostral tpica w(t) do Processo de Poisson
Sendo assim, obtivemos explicitamente et L = et L1 et L2 = e t et L2 usando

a expresso acima.
Desta forma, considerando x(t) = (x1 (t), x2 (t), x3 (t), ...), onde xk (t) =
P (Xt = k), obteremos explicitamente
x(t) = (1, 0, 0, 0, ..., 0, ...) et L .
Portanto,
( t)k t
P (Xt = k) = xk (t) = e .
k!
Existem outra formas alternativas de se apresentar tal processo. A razo
porque tal processo tem este gerador innitesimal L ser fornecida a seguir.
Como sabemos, o Processo de Poisson Xt um processo estocstico a
parmetro contnuo: (Xt ), t [0, +), S = N = {0, 1, 2, 3, 4, ..., n, ...}
Note que faz sentido tambm considerar um processo com uma condio

inicial 0 = (0 , 1 , 2 , ..., n , ...), tal que cada n 0, e n=0 n = 1 (em
vez de 0 = (1, 0, 0, 0, ..., 0, ...) como acima). Mas no vamos considerar tal
situao aqui.
Note que P (X9.43 = 7 | X3,4 = 11) = 0. Com probabilidade 1 os cam-
inhos amostrais w(t) do Processo de Poisson so constantes em intervalos e
i i
i i
i i

i i
montonos crescentes. Uma descrio geomtrica de um caminho tpico ap-

resentada na gura 4.6.
Vamos partir de algumas premissas naturais e concluir que devemos model-
lo atravs de uma cadeia de Markov com tempo contnuo e com gerador in-
nitesimal L como descrito acima.
Assim, devemos deduzir do modelo que vale
d
P (Xt = k) = P (Xt = k) + P (Xt = k 1),
dt
d
P (Xt = 0) = P (Xt = 0).
dt
Descreveremos o processo de Poisson atravs de uma aplicao bem denida:
chamadas telefnicas recebidas numa central telefnica.
Denimos Xt = nmero de chamadas recebidas at o instante t
Suponhamos que uma pessoa queira construir um modelo probabilstico
para este processo. A partir de observaes feitas, ela chega s seguintes con-
cluses com relao s chamadas realizadas nessas linhas.
1. A distribuio do nmero de chamadas recebidas durante qualquer in-

tervalo de tempo dado parece depender somente da durao do intervalo
de tempo. Quanto maior o intervalo, maior tende a ser o nmero de
chamadas.
2. As chamadas parecem chegar independentemente, isto , um excesso ou

declnio acidental do nmero de chamadas em algum intervalo de tempo
dado no parece exercer nenhum efeito sobre o nmero de chamadas
ocorridas durante qualquer outro intervalo de tempo.
3. A probabilidade de duas ou mais chamadas chegarem durante um inter-

valo de tempo pequeno muito pequena quando comparada probabil-
idade de uma nica chamada.
i i
i i
i i

i i
Cada resultado do experimento contar o nmero de chamadas recebidas

at os tempos t1 , t2 , t3 , ..., tn , ... , gera uma caminho tipo
= (wt )tR+
e wt S = N para todo t. Logo, NR . Temos que wt constante em

intervalos de tempo. Mais exatamente, em cada intervalo [ti , ti+1 ), a funo (o
caminho amostral) wt constante.
Para s, t R+ , k N consideraremos o evento (conjunto) Aks, t = { tal
que ocorreram exatamente k chamadas no intervalo (s, s + t]} .
Em outras palavras Aks, t = {w ; w(s + t) w(s) = k} , s, t 0 e k =
0, 1, 2, ...
A -lgebra A que devemos considerar sobre deve conter todos os eventos
(conjuntos) Aks, t .
Vamos a seguir descrever mais explicitamente P (Aks, t ).
Com base nas observaes que foram feitas so formuladas as seguintes
hipteses:
Hiptese 1: (Incrementos Estacionrios)

A probabilidade de ocorrncia de k chamadas no intervalo (s,s+t] depende
somente de t e no de s.
def
P (Aks, t ) = P (Aks , t ) = Pk (t) s = s em particular, P (Aks, t ) = P (Ak0, t ) =
Pk (t). Assim, Pk (t) descreve a probabilidade de exatamente k saltos no inter-
valo [0, t].
Hiptese 2: (Incrementos Independentes)

O nmero de chamadas durante intervalos disjuntos de tempo so indepen-
dentes,isto ,
Aks, t e Aju, v so independentes para toda a escolha de k e j se (s, s + t]
(u, u + v] =
i i
i i
i i

i i
Portanto,
P (Aks, t Aju, v ) = P (Aks, t ).P (Aju, v ) = Pk (t).Pj (v), sempre que (s, s + t] (u, u +
v] = . Supomos sem perda de generalidade que s + t < u.
Em particular,
P (Aks, t Ank
u, v ) = P (As, t ).P (Au, v ) = Pk (t).Pnk (v), n e k n.
k nk
Uma forma compacta de descrever esta hiptese dizer que o conjunto Aks, t
independente da sigma lgebra gerada por Xr Xz , r, z (u, u + v], onde
r > z.
(As chamadas chegam sozinhas e no simultaneamente)

Hiptese 3:
A probabilidade de ocorrerem duas ou mais chamadas durante um intervalo
de tempo pequeno muito pequena quando comparada de ocorrer uma nica
chamada. Observe que:

P (ocorrncia de duas ou mais chamadas)= P (Xt 2) = Pk (t) = 1
k=2
P0 (t) P1 (t)
Assim, a hiptese 3 diz que

1 P0 (t) P1 (t) 1 P0 (t) P1 (t)
lim = lim = 0,
t0 P1 (t) t0 1 P0 (t)
ou seja,
P1 (t)
lim = 1.
t0 1 P0 (t)
Queremos mostrar que
A) P0 (t) = P (A00, t )
B) Pk (t) = Pk + Pk1 (t) para todo t 0
O evento nenhuma chamada no intervalo (o, t] o mesmo (que os even-

A) ]
( t ] ( t 2t ] ( 2t 3t ] (n1)t nt
tos nenhuma chamada nos intervalos 0, n , n , n , n , n , ... n
, n ,
onde n N est xo. Desta forma
i i
i i
i i

i i
A00,t = A00, t A0t , t ... A0(n1)t

n n n n
, nt
Como os intervalos so disjuntos, os eventos so independentes (hiptese

2) e ento para t R+ e n N:

n1 ( ) [ ( )]n t
P0 (t) = P (A00,t ) = P A0it , t = P A00, t = (P0 ( ))n .
i=0
n n n n
Logo, tomando t = n, obtemos
P0 (n) = (P0 (1))n .
Vamos estender a armao para n feita acima primeiramente para nmeros

racionais da forma m/n.
Ento, para m N e t R+ xos temos P0 (mt) = (P0 (t))m e assim
m t m [ ]
1 m m
P0 ( t) = (P0 ( )) = (P0 (t)) n = (P0 (t)) n .
n n
Acima usamos o fato que P0 (t) = (P0 ( nt ))n .
Portanto, tomando t = 1 se r = mn
Q,
P0 (r) = (P0 (1))r .
Queremos agora estender este resultado para qualquer real t > 0.
Observe que P0 (t) uma funo decrescente pois

t s A00,s A00,t P0 (t) P0 (s)
Seja t > 0 xo e sejam r1 , r2 Q tais que r1 t r2 .
Ento, (P0 (1))r1 = P0 (r1 ) P0 (t) P0 (r2 ) = (P0 (1))r2 .
Se r1 t e r2 t temos que (P0 (1))r01 P0t (1) e (P0 (1))r2 P0t (1)
Portanto,
P0 (t) = (P0 (1))t , t > 0.
i i
i i
i i

i i
Queremos agora encontrar P0 (t) explicitamente.
Armamos que 0 < P0 (1) < 1.

De fato, note que
P0 (1) = 1 P0 (t) = 1, t > 0 probabilidade 1 de no ocorrer
nenhuma chamada em (0, t].
(O que no de interesse algum)
P0 (1) = 0 P0 (t) = 0, t > 0 probabilidade 1 de ocorrer pelo
menos uma chamada em(0, t],para
todo t > 0.
Vamos analisar com cuidado este segundo caso. se P0 (1) = 0, teriam
que ocorrer pelo menos duas chamadas em (0, t], com probabilidade 1, pois a
ocorrncia de pelo menos uma chamada em (0, 2t ] e de pelo menos uma chamada
em ( 2t , t] (este evento tambm seria de probabilidade um, pela hiptese 1),
implica a ocorrncia de pelo menos duas chamadas em (0, t].
Em conseqncia disto, teramos 1 P0 (t) = 1 e 1 P0 (t) P1 (t) = 1, para
todo t > 0 o que contradiz a hiptese 3.
Lembre que P0 (1) = P ({w | wt = 0 em [0, 1]}).
Logo, 0 < P0 (1) < 1 e denimos = log P0 (1).
Portanto,
P0 (t) = [P0 (1)]t = [e ]t = et , t 0.
Observe que P0 (0) = 1. De fato,
P0 (0) = P (A00,0 ) = P (w ; w(0) w(0) = 0) = P () = 1.
Sendo assim,
P0 (t) = et , t 0
P0 (0) = 1 ; P0 (t) = et = P0 (t) = P0 (t), t > 0
B) Mostraremos agora que

k
Pk (s + t) = Pi (s) Pki (t).
i=0
i i
i i
i i

i i
Ou seja, uma equao tipo Chapman-Kolmogorov.

Sejam k 1, s 0 e t > 0. O evento ocorrem k chamadas em (o, s + t]
pode ser escrito como
Ak0,s+t = (A00,s Aks,t ) (A10,s Ak1

s,t ) (A0,s As,t ) ... (A0,s As,t ).
2 k2 k 0
Observe que os intervalos (0, s] e (s, s + t] so disjuntos o que garante a

independncia dos eventos Ai0,s e Aki s,t , 0 i k 1 pela hiptese 2 de
incrementos independentes.
Alm disso, os eventos Ai0,s Aki
s,t so disjuntos em i, isto ,
(Ai0,s Aki
s,t ) (A0,s As,t ) =
j kj
se i = j
Portanto,

k
k
Pk (s + t) = P (Ak0,s+t ) = P (Ai0,s )P (Aki
s,t ) = Pi (s)Pki (t).
i=0 i=0
Sendo assim obtivemos a equao de Chapman-Kolmogorov desejada.

Vamos agora obter um sistema de equaes diferenciais para os Pk (t).
Ora,

k
Pk (s + t) = Pi (s)Pki (t) =
i=0

k2
= Pi (s)Pki (t) + Pk1 (s)P1 (t) + Pk (s)P0 (t) =
i=0

k2
= Pi (s)Pki (t) + Pk1 (s)P1 (t) + et Pk (s).
i=0
Agora, queremos determinar a derivada direita e esquerda de Pk (s).

Sabemos que a derivada direita de Pk em s dada por
i i
i i
i i

i i
Pk (s + t) Pk (s)
lim+ = Pk (s).
t0 t
Observe que como e t = 1 t + 2!1 2 t2 ..., ento
1)
1 P0 (t) 1 et
lim = lim = .
t0 t t0 t
2) ( )
P1 (t) P1 (t) 1 P0 (t)
lim = lim . =
t0 t t0 1 P0 (t) t
P1 (t) 1 P0 (t)
= lim . lim = 1. = .
t0 1 P0 (t) t0 t
3)
( )
1 P0 (t) P1 (t) 1 P0 (t) P1 (t) 1 P0 (t)
lim = lim . = 0. = 0.
t0 t t0 1 P0 (t) t
Ento,
Pk (s + t) Pk (s)
Pk (s) = lim =
t0 t
[ k2 ]
1
= lim Pi (s)Pki (t) + Pk1 (s)P1 (t) + Pk (s)(et 1) =
t0 t
i=0
1
k2
= lim Pi (s)Pki (t)+
t0 t
i=0
1 et 1
+ lim Pk1 (s)P1 (t) + lim Pk (s) =
t0 t t0 t
1
k2
= (lim Pi (s) Pki (t)) + Pk1 (s) Pk (s).
t0 t
i=0
Ora,
1 1
k2 k2
j=ki
0 Pi (s)Pki (t) Pki (t) =
t i=0 t i=0
i i
i i
i i

i i
1
k
1
= Pj (t) = (P2 (t) + P3 (t) + ... + Pk (t)) =
t j=2 t
1
= (1 P0 (t) P1 (t)) 0.
t t0
Logo, para todo k
Pk (s) = Pk1 (s) Pk (s).
Desta forma, Pk (T ) satisfaz um sistema de equaes diferenciais que

equivalente a x = xL, onde a matriz L foi descrita acima.
Uma maneira de resolver diretamente as equaes acima (sem passar por
exponencial de matriz) observar que
Pk (t) = Pk1 (t) Pk (t),
pode ser escrito como
Pk (t) + Pk (t) = Pk1 (t),
para k 1.
Assim, resolvendo a primeira equao (k = 0),

P0 (t) = P0 (t),
com a condio inicial P0 (0) = 1, obtemos
P0 (t) = e t .
Na notao da seo 4.5, estamos analisando acima a equao diferencial
x (t) = x(t)
com a condio inicial

x(0) = 1,
i i
i i
i i

i i
cuja soluo x(t) = e t .

A seguir, consideramos k = 1

P1 (s) + P1 (s) = Pk1 (s) = e s .
Da expresso anterior (4.2), se obtm que a primeira soluo que
P1 (s) = se s ,
para todo s 0.
Vamos a seguir obter indutivamente as outras solues Pk (s), s 0, do
sistema de equaes diferenciais descrito no comeo desta seo.
Consideramos ento k = 2, logo

P2 (s) + P2 (s) = P1 (s) = 2 s e s .
Aplicando o procedimento descrito na seo 4.5 (para a equao linear no

homognea no exemplo 4.14) se obtm que
( s)2 s
P2 (s) = e .
2!
E assim, indutivamente, se obtm que
( s)k s
P (Xs = k) = Pk (s) = e .
k!
De qualquer forma, em resumo, o Processo de Poisson tem a matriz L como
gerador innitesimal.
J havamos mostrado antes (via exponencial) que, neste caso,
( t)k t
P (Xt = k) = e .
k!
Desta forma, para cada t xo, a funo caracterstica de Xt dada por

( t)k ei w k
t
= e t ( e 1 ) .
i w Xt iw
E[e ]= e
k=0
k!
i i
i i
i i

i i
Sendo assim, E(Xt ) = t e V ar(Xt ) = t.

Exerccio: Mostre que a derivada esquerda de Pk (s) dada pela mesma
expresso acima, utilizando a equao

k
Pk (s) = Pi (s t) Pki (t).
i=0
Ou seja, neste caso mostre que tambm vale o sistema de equaes diferen-
ciais {
Pk (t) = Pk1 (t) Pk (t), k 1
()
P0 (t) = P0 (t)
sujeito s condies iniciais
Pk (0) = 0 , k 1 e P0 (0) = 1.
Vamos denir agora os tempos de salto dos caminhos . Considere

um Processo de Poisson de parmetro .
Cada caminho = (Xt ())tR+ = (wt )tR+ , constante em conjuntos da
forma [a, b) e ainda montono no decrescente em t. Fixado , os tempos de
saltos de so aqueles t em que
lim wt = lim wh + 1.
ht, ht ht, ht
Denio 4.7. Seja T0 () = 0, e
T1 () = inf{t | Xt () = 1},
e de forma mais geral,
Tn () = inf{t | Xt = n}.
Note que Tn () < Tn+1 () para qualquer i. Dizemos que Tn () o tempo de
n-simo salto do caminho .
i i
i i
i i

i i
Para cada n, temos que Tn uma varivel aleatria sobre , ou seja, Tn :

R+ um funo F mensurvel.
Vamos denotar por Yn a varivel aleatria
Yn () = Tn () Tn1 ().
A funo mensurvel Yn mede o tempo entre saltos sucessivos.
Teorema 4.9. As variveis aleatrias Yn , n N, so independentes entre si
e cada uma delas tem distribuio exponencial com parmetro .
Demonstrao: Primeiro note que P (Y1 > t) = P (Xt = 0) = e t .

Logo, Y1 tem distribuio exponencial.
Ora, sejam t1 e t xos
P (Y2 > t | Y1 = t1 ) = P (Xt1 +t Xt1 = 0 | Y1 = t1 ) =
P (Xt1 +t Xt1 = 0 | {Xt1 X0 = 1} s<t1 {Xs X0 = 0 } ).
Ora, a hiptese 2 acima diz que o conjunto A0t1 , t independente da sigma

lgebra gerada por Xs Xz , s, z [0, t1 ], onde s > z.
Logo,
P (Y2 > t | Y1 = t1 ) = P (Xt1 +t Xt1 = 0) = P (Xt X0 = 0) = e t .
Assim, Y1 independente de Y0 e tem distribuio exponencial.

Na prxima etapa consideramos
P ( Y3 > t | Y1 = t1 , Y2 = t2 )
e procedemos de maneira similar.

O resultado segue por induo.
i i
i i
i i

i i
4.3 Processos de Nascimento e Morte

Uma outra forma de introduzir Cadeias de Markov a tempo contnuo a
seguinte: Suponha Xt , S=N, que dene uma probabilidade P sobre a -lgebra
F sobre .
Denote Pi,j (t) = P (X(t+s) = j | X(s) = i) para todo i, j {0, 1, 2, 3, 4, ...}.
A expresso acima independente de s pois assumimos que o processo ho-
mogneo no tempo.
Considere uma seqncia de nmeros reais positivos k , k N.
Suponha que o processo, por alguma razo natural, tal que para todo k ,
a probabilidade Pk,k+1 (h) aproximadamente linear em h com taxa k , para
tempos h muito pequenos, ou seja Pk,k+1 (h) k h.
Vamos formalizar isto de uma forma adequada.
Seja uma funo r(h), dizemos que r tem ordem de h se
r(h)
lim = 0.
h0 h
Em geral vamos pedir s convergncia pela direita de zero, ou seja no limite

acima basta considerar h 0.
Ou seja, no s r(h) vai a zero quando h 0, mas at dividido por h,
tambm vai a zero. Diremos neste caso que r(t) um o(h).
Ainda, r(h) s precisa estar denida para h num intervalo [0, ), onde > 0
pode ser pequeno.
Por exemplo, seja f uma funo real tal que que f (2) = 5, ento, se
chamamos de r(h), o erro na aproximao da funo por sua aproximao
linear, ou seja,
f (2 + h) f (2) 5 h = r(h),
ento,
r(h)
lim = 0.
h0 h
i i
i i
i i

i i
Logo, tal r(h) um o(h).

Diremos que Pk,k+1 (h) k h, se
r(h) = Pk,k+1 (h) k h, h 0,
um o(h).
Finalmente, descreveremos este fato da seguinte forma
Pk,k+1 (h) = k h + o (h).
Vamos assumir no presente exemplo que, da mesma forma como no processo

de Poisson, uma vez que ocorre k , com o decorrer do tempo, ou k se mantm
ou passa a k + 1. A seguir, atingido este valor, ele se mantm ou passa a k + 2,
e assim por diante...
Por exemplo, Xt poderia estar descrevendo o nmero de habitantes numa
certa cidade. A cada momento poderia nascer mais uma pessoa. Assumi-
mos tambm que no haveria mortes no modelo nem abandono da cidade por
nenhuma pessoa.
Desta forma, vamos assumir que Pk,k (h) + Pk,k+1 (h) = 1+ o(h). Note
que, pela homogeneidade no tempo segue que para todo s 0 tambm vale
Pk,k (h + s) + Pk,k+1 (h + s) = 1+ o(h).
Resumindo as hipteses acima, dizemos que os Pi,j (t) satisfazem
a)
Pk,k+1 (h) = k h + o(h), k N,
b)
Pk,k (h) = 1 k h + o(h), k N,
c)
Pi,j (h) = o(h), i, j N, j = i, j = i + 1.
Note que sempre verdade que Pk,k (0) = 1, para todo k , e ainda Pi,j (0) = 0
para i = j.
i i
i i
i i

i i
Neste caso ser vlido que

a)
Pk,k+1 (h) 0 d Pk,k+1 (t)
lim = |t=0 = k , k N.
h0 h dt
b)
Pk,k (h) 1 d Pk,k (t)
lim = |t=0 = k , k N.
h0 h dt
c)
Pi,j (h) 0 d Pi,j (t)
lim = |t=0 = 0, i, j N, j = i, j = i + 1.
h0 h dt
Desta forma, o gerador innitesimal do semigrupo P t associado ao Processo
de Markov Xt , t R+ , seria a matriz L dada por

0 0 0 0 0 0 ..... ... .. ...

0 1 1 0 0 0 ..... ... .. ...

0 0 2 2 0 0 ..... ... .. ...

L= 0 0 0 3 3 0 ..... ... .. ... .

. . . . . . . .... .. ...

0 ...... 0 0 k k 0 ...
0 0
. . . . . . . .... .. ...
Um processo com estas caractersticas denominado de Processo de Nasci-

mento.
Esta classe de Processos Estocsticos inclui como caso particular o Processo
de Poisson. Poderamos considerar, por exemplo no caso de uma central que
recebe telefonemas, que este modelo contempla a situao em que a probabili-
dade de novas futuras chamadas depende de quantas chamadas, no caso k , j
foram recebidas at o presente momento.
Como ilustrao vamos descrever o Processo de Yule. Assuma que numa
certa populao cada membro individual tem uma probabilidade h+ o(h) de
produzir um novo membro.
i i
i i
i i

i i
natural ento supor que para todo t 0 e k 0 vale
P (Xt+h Xt = 1 | Xt = k) = k h + o (h).
Ou seja,
Pk,k+1 (h) = k h + o (h).
Neste caso, k = k , k 0.
Note que P (Xt = 0 | X0 = 0) = 1. Ou seja, se a populao era zero,
ningum vai nascer.
Vamos supor primeiro que a populao inicial era igual a 1, ou seja, P (X0 =
1) = 1.
Note que neste modelo foi natural descrever o modelo pelas probabilidades
de transio para h pequeno. Para calcular P (Xt = k) = xk (t), devemos
resolver o sistema
x (t) = x(t) L,
onde
x(t) = (x0 (t), x1 (t), x2 (t), x3 (t), ..., xk (t), ...),
associado a matriz innitesimal L, ou seja, para todo k 0

xk (t) = ( k xk (t) (k 1) xk1 (t) ),
com x(0) = (0, 1, 0, ...).

Note que x0 (t) = 0 para todo t
Logo, x1 (t) = x1 (t), e assim x1 (t) = e t .
A segunda equao torna-se

x2 (t) = ( 2 x2 (t) e t ) = 2 x2 (t) + e t .
Temos ainda a condio inicial x2 (0) = 0.
i i
i i
i i

i i
Esta equao linear de primeira ordem no homognea (cuja soluo geral

aparece no exemplo 4.14 da seo 4.5). A soluo x2 (t) pode ser facilmente
calculada, e se obtem
x2 (t) = et (1 e t ).
A seguir se deve considerar

x3 (t) = ( 3 x3 (t) 2 x2 (t) ) = 3 x3 (t) + 2 x2 (t),
onde x2 (t) j conhecida.

De novo temos que x3 (t) satisfaz uma equao linear de primeira ordem no
homognea, e assim pode ser explicitamente obtida. Procedendo de maneira
indutiva se mostra que para k 1, vale que
P (Xt = k) = xk (t) = et (1 e t )k1 .
Vamos calcular, para t xo, a funo geradora de momentos

t
ft (s) = f (s) = k
P (Xt = k) s = s e [ (1 e t ) s]k1 =
k=1 k=1
s e t
= .
1 (1 e t ) s
Consideraremos agora o processo em que P (X0 = N ) = 1, ou seja, iremso
supor que no tempo t = 0, a populao igual a N .
Supondo ainda que no exista interao entre os membros da populao, e
que no tocante a gerao de descendentes, eles ajam de forma independente,
podemos supor que esta populo evolue como a soma de N processos inde-
pendentes tipo Yule em que N = 1.
Sendo assim, podemos facilmente calcular a nova funo geradora. De fato,
se
PN,k (t) = P (Xt (w) = k | X(0) = N ),
i i
i i
i i

i i
e denotamos por

fN,t (s) = fN (s) = PN,k (t) sk ,
k=N
ento, em funo da independncia (ver tambm Seo 3.4) temos que
s e t
fN (s) = f1 (s)N = f (s)N = ( )N =
1 (1 e t ) s

= k1
CkN (e t )N (1 e t )kN sk ,
k=N
onde CkN
k1
denota combinao de (n N ), de (k 1) a (k 1).
Obtemos assim que para cada valor t e k
P (Xt (w) = k | X(0) = N ) = CkN

k1
(e t )N (1 e t )kN ,
onde k N .
Para um t xo se quisssemos calcular a varincia bastaria derivar a funo
fN,t (s) no ponto um, etc... Ou seja, neste caso conseguimos calcular as infor-
maes mais importantes do modelo de maneira explcita.
Vamos agora considerar processos de nascimento e morte. Suponha xadas
as sequncias k 0 e k 0, onde k N. Assumimos que 0 = 0.
Considere um Processo Markoviano Xt , t N, sobre o conjunto de estados
S = N = {0, 1, 2, 3, ..., k, ...}, e denote Pi,j (t) = P (X(t + s) = j | X(s) = i)
para todo i, j {0, 1, 2, 3, 4, ...}
Assuma que os Pi,j (t) satisfazem
a)
Pk,k+1 (h) = k h + o(h), k N,
b)
Pk,k1 (h) = k h + o(h), k N,
i i
i i
i i

i i
c)
Pk,k (h) = 1 (k + k ) h + o(h), k N,
c)
Pi,j (h) = o(h), i, j N, j = i, j = i 1, j = i + 1.
Como sempre Pk,k (0) = 1 e Pi,j (0) = 0 se i = j .

Lembre que 0 = 0.
Ou seja, no presente modelo podemos pensar que Xt descreve o nmero de
habitantes de uma populao em que existe uma probabilidade k h, de nasci-
mento, para h pequeno, e uma probabilidade k h, de morte, para h pequeno,
dado que a populao no tempo 0 k .
O sistema de equaes associado seria: para todo t 0,
a)
d P0,k (t)
= 0 P0,k (t) + 0 P1,k (t), k N.
dt
b)
d Pi,k (t)
= i Pi1,k (t) (k + k ) Pi,k (t) + k Pi+1,k (t), k 1.
dt
Calculando a derivada acima em t = 0 podemos obter o gerador innitesi-
mal do semigrupo P t associado ao Processo de Markov Xt , t R+ , atravs da
matriz L dada por

0 0 0 0 0 0 ...

1 (1 + 1 ) 1 0 0 0 ....

0 2 (2 + 2 ) 2 0 0 ....
L=
0
.
0 3 (3 + 3 ) 3 0 ...

. . . . . . ...
. . . . . . ...
i i
i i
i i

i i
De fato, os elementos da matriz acima so obtidos como

d Pi,k (t)
ai,k = |t=0 = i Pi1,k (0) (k + k ) Pi,k (0) + k Pi+1,k (0), k 1.
dt
O resultado segue de que Pi1,k (0) = 0, a menos que k = i 1 e Pi+1,k (0) =
0, a menos que k = i + 1, etc...
Um processo com estas caractersticas denominado de Processo de Nasci-
mento e Morte. Ele generaliza o Processo de Nascimento.
O sistema de equaes acima traduz
d Pt
= P t L,
dt
onde (P t )i,j = (P (X(t) = j | X(0) = i).
Este sistema o sistema de equaes diferenciais para frente de Chapman-
Kolmogorov deste processo.
De maneira equivalente, os (P (X(t) = j | X(0) = i), poderiam tambm ser
obtidos resolvendo
d Pt
= L P t.
dt
Este o sistema de equaes diferenciais para trs de Kolmogorov associado
ao processo em considerao.
fcil ver que no presente caso, as equaes para trs se traduziriam como
a')
d Pi,0 (t)
= 0 Pi,0 (t) + 1 Pi,1 (t), k N.
dt
b')
d Pi,j (t)
= j1 Pi,j1 (t) (j + j ) Pi,j (t) + j+1 Pi,j+1 (t), j 1.
dt
Vamos analisar um exemplo particular interessante de um processo que
possui as seguintes caractersticas: seja > 0, > 0 e > 0, ento usando a
notao acima
k = k + , e k = k .
i i
i i
i i

i i
Ou seja, assuma que os Pi,j (t) satisfazem

a)
Pk,k+1 (h) = ( k + ) h + o(h), k N,
b)
Pk,k1 (h) = k h + o(h), k N,
c)
Pk,k (h) = 1 ( k + + k) h + o(h), k N,
c)
Pi,j (h) = o(h), i, j N, j = i, j = i 1, j = i + 1.
Este modelo descreveria uma situao semelhante ao Processo de Yule em

que cada indivduo poderia gerar um descendente (nos daria assim um termo
Pk,k+1 (h) k h) mas consideramos agora a possibilidade de uma taxa xa
de imigrao linear em h, o que nos d na verdade, a expresso Pk,k+1 (h)
( k + ) h.
Neste modelo assumimos ainda que cada indivduo tem uma probabilidade
de morrer com uma taxa linear em h, e assim aparece o termo Pk,k1 (h)
k h.
A maneira de calcular as probabilidades Pi,j (h) mais difcil que nos casos
anteriores. Vamos calcular, para cada t o valor esperado da varivel Xt de uma
forma interessante.
Considere i xo e o processo Xt , t 0, tal que P (X(0) = i) = 1. Denote
para cada valor t 0,

E(X(t)) = gi (t) = g(t) = j Pi,j (t).
j=1
Vamos usar a seguir as equaes diferenciais para trs, ou seja, a ) e b )

acima.
i i
i i
i i

i i
Ora,

d Pi,j (t)
g (t) = j =
j=1
dt

= j [ ( (j1)+ ) Pi,j1 (t) ( j + + j) Pi,j (t) + (j+1) Pi,j+1 (t) ] =
j=1
= ( ) g(t) + .
A razo pela preferncia da equao de Kolmogorov para trs que neste
caso, como pode ser visto acima, aparecem termos Pi,j1 , Pi,j Pi,j+1 sempre
com i esquerda.
A soluo g(t) da equao diferencial acima, quando =

g(t) = (et () 1) + i et () .

Ainda, g(t) (soluo) tal que, quando = , ento
g(t) = t + i.
Note que se ( ) > 0, ou seja, maior probabilidade de nascimento do

que de morte, por indivduo, ento
lim E[X(t)] = lim g(t) = +.

t t
Se () < 0, ou seja, maior probabilidade de morte do que de nascimento,

por indivduo, ento

lim E[X(t)] = lim g(t) = .
t t
Vamos calcular a funo geradora para Xt , t R+ do exemplo acima no
caso em que = 0, ou seja, sem imigrao.
Assuma que i est xo, P (X(0) = i) = 1, e desejamos calcular pj (t) =
P (X(t) = j), para todo j N.
i i
i i
i i

i i
Desta forma, pj (0) = 0, para j = i, e pi (0) = 1.

Seja p(t) = (p0 (t), p1 (t), p2 (t), ..., ).
A equao dos pj (t) dada a partir da equao p (t) = p(t) L e onde
p(0) o vetor de probabilidade que zero em todas as coordenadas menos na
coordenada i.
A partir disto obtemos que p(t) satisfaz

pj (t) = ( (j 1) + ) pj1 (t) ( + ) j pj (t) + (j + 1) pj+1 (t).
Considere

G(s, t) = sj pj (t).
j=0

Sendo assim, utilizando a expresso para pj (t) descrita acima
G(s, t) j

= s pj (t) =
t j=1

= s 2
(j 1)sj2
pj1 (t) ( + ) s j sj1 pj (t) +
j=0 j=0

+ (j + 1)sj pj+1 (t).
j=0
Note que
G(s, t)

= (j + 1)sj pj+1 (t).
s j=0
Logo, a equao acima pode ser descrita como

G(s, t) G(s, t) G(s, t) G(s, t)
= s2 ( + ) s + ,
t s s s
ou seja,
G(s, t) G(s, t)
= (s 1) ( s ) ,
t s
i i
i i
i i

i i
com a condio de fronteira G(s, 0) = si (pois, pj (0) = 0, para j = i, e

pi (0) = 1)
Esta equao diferencial parcial pode ser facilmente calculada (via o mtodo
descrito no m da Seo 3.5) e se obtm que
( t (1 s) + s )t
G(s, t) = , se = ,
t (1 s) + 1
( (1 s) ( s) e t () )t
G(s, t) = , se = ,
(1 s) ( s) e t ()
Desta forma podemos obter explicitamente todos os pj (t) = P (X(t) = j)
a partir de G(s, t) como descrito na Seo 4.5.
Note que G(0, t) = p0 (t), que no caso = no d
( t )t
p0 (t) = .
t + 1
Desta forma, quando t , temos que
lim p0 (t) = 1,
t
o que nos diz, neste caso que a probabilidade de que a populao se extinga
vai a 1 quando o tempo vai a .
A probabilidade de extino nos outros casos (em que = ) podem se
analisados de forma semelhante.
Em alguns casos as contas envolvidas na soluo dos sistemas de equaes
diferenciais de Kolomogorov so longas, mas muitas vezes encontrar o vetor de
probabilidade invariante no to difcil.
importante destacar que no existem vetores tal que L = 0, no caso
do processo de Poisson ou seus assemelhados (com os k 0), mas quando
consideramos processos de nascimento e morte (com k 0 e k 0), algumas
vezes este problema pode ser resolvido.
i i
i i
i i

i i
Heuristicamente falando, a razo desta dicotomia que quando s existe

nascimento, no existe um fator que impea a massa da probabilidade ir
embora para + . Os k , por sua vez, contrabalanam esta tendncia resta-
belecendo uma maior probabilidade de que Xt assuma valores menores.
Seja = (0 , 1 , 2 , 3 , ...), ento L = 0 signica
(0, 0, 0, ...) =

0 0 0 0 0 0 ...

1 (1 + 1 ) 1 0 0 0 ....

0 2 (2 + 2 ) 2 0 0 ....
= (0 1 2 ...)
0
,
0 3 (3 + 3 ) 3 0 ...

. . . . . . ...
. . . . . . ...
logo, a primeira linha nos d
0 0 + 1 1 = 0.
A segunda, nos d,
0 0 (1 + 1 ) 1 + 2 2 = 0,
e assim por diante, a k -sima linha nos d
k1 k1 (k + k ) k + k+1 k+1 .
Da equao da primeira linha resulta

0
1 = 0 .
1
Da segunda equao temos que
2 2 = 0 0 + 1 1 + 1 1 =
i i
i i
i i

i i
0 0
0 0 + 1 0 + 1 0 =
1 1
0 1 0 1
0 0 + 0 + 0 0 = 0 .
1 1
Portanto,
0 1
2 = 0 .
1 2
Procedendo de maneira indutiva, sempre substituindo a expresso obtida
numa certa etapa na seguinte, obtemos que para todo k 1 vale
0 1 ... k1
k = 0 .
1 2 .. k
O ponto agora que deve ser um vetor de probabilidade e assim natural
escolher 0 tal que

0 1 ... k1
1 = k = 0 (1 + ).
k=0 k=1
1 2 ... k
Logo, bastaria tomar

1
0 = 0 1 ... k1
.
1+ k=1 1 2 ... k
O procedimento faz completo sentido contanto que

0 1 ... k1
< .
k=1
1 2 ... k
Se a probabilidade cumulativa dada pela sequncia de j for maior do que

aquela dos j , esta serie diverge.
No caso do somatrio acima convergir ento existe vetor estacionrio
para o processo cujo gerador innitesimal L.
Um exemplo em que isto ocorre quando existe > 0 e > 0 tal que
todos os k = e todos os k = , e ainda > .
i i
i i
i i

i i
Neste caso,

0 1 ... k1
k
1+ = 1+ k
< ,
k=1
1 2 ... k
k=1

pois uma progresso geomtrica de razo

converge.
4.4 Estados Recorrentes e Cadeias Irredutveis

Nesta seo vamos descrever brevemente, sem apresentar as provas dos teo-
remas, algumas das propriedades bsicas de Cadeias de Markov Xt , t R+ ,
tomando valores em S . Vamos supor abaixo que S nito, embora muitos
resultados sejam verdadeiros para S enumervel. Algumas das demonstraes
dos teoremas abaixo so semelhantes ao do caso com tempo discreto, outras,
no entanto, so bem mais complexas.
Como sempre o subconjunto de S R que contm apenas os caminhos
+
contnuos a direita, etc... Vamos supor que Pi,j

t
indica a probabilidade de passar
de i a j em tempo t, e que este semigrupo descreva o Processo Estocstico.
Denio 4.8. Dizemos que i S conduz a j S , se existe t > 0 tal

que Pi,j i j . Dizemos que i e j se
t
> 0. Neste caso usamos a notao
comunicam, se ij e j i (os tempos t de passagem podem ser diferentes).

Denotamos tal fato por i j.
Teorema 4.10. Seja Xt Cadeia de Markov a tempo contnuo sobre S. Ento,
a) Se i j e j k , ento i k;
b) A relao i j uma relao de equivalncia e divide o espao S em
classes de equivalncia.
Os conceitos e resultados para tais tipos de cadeias Xt a tempo contnuo

so basicamente os mesmos que o do caso com tempo discreto. No entanto,
no faz sentido o conceito de periodicidade ou aperiodicidade.
i i
i i
i i

i i
4.4 Estados Recorrentes e Cadeias Irredutveis 347
Denio 4.9. Dizemos que a cadeia Xt , t R + , irredutvel se s existe
uma classe de equivalncia.
Note que se o gerador innitesimal L de um processo Xt for tal que a matriz

L possa ser escrita como ( )
L1 0
L= .
0 L2
Ento Xt , que descrito pelo semigrupo P t = etL , no irredutvel.
Denio 4.10. Um estado iS dito recorrente se
P (sup{t | Xt = i} = | X0 = i) = 1.
Denio 4.11. Um estado iS dito transiente se
P (sup{t | Xt = i} < | X0 = i) = 1.
Denio 4.12. Fixado i e = (wt )tR+ , tal que w0 = i, dizemos que o tempo
de salto do estado i, para o caminho , o nmero real
T0i () = inf{s > 0 | Xs () = i}.
Como os caminhos em que consideramos so sempre contnuos a direita,

temos que T0 () > 0 (sob a hiptese de w0 = i).
Denio 4.13. Fixado i e = (wt )tR+ , tal que w0 = i, dizemos que o tempo
de primeiro retorno ao estado i, para o caminho , o nmero real
T1i () = inf{t > T0i () | Xt () = i}.
O valor T1i () poderia ser innito mas sempre positivo.
i i
i i
i i

i i
Denio 4.14. Fixado i, a probabilidade de retorno em tempo nito a i,

comeando em i, o valor
i = P (Ti < | X0 = i).
Teorema 4.11. Seja Xt Cadeia de Markov a tempo contnuo sobre S. Ento,
a) i recorrente, se e s se, i = 1;
b) se i recorrente, e j i, ento, j recorrente.
Denio 4.15. Um estado iS dito positivo recorrente se,
E[ T1i | X0 = i] < .
Teorema 4.12. Suponha que a Cadeia de Markov Xt seja irredutvel e que
todo estado i seja recorrente positivo, ento, para qualquer i, j S , vale que
t
1 1
lim Pi,j
s
ds = .
t t 0 E[T1j | X0 = i]
Neste caso, se denotamos por i = 1

E[T1j | X0 =i]
, i S, ento
= (1 , 2 , ..., #S ),
um vetor de probabilidade invariante para o semigrupo Pt e nico vetor
invariante.
Para concluir, algumas consideraes de natureza geral.

Se todas as entradas da matriz L, da forma n por n, forem no nulas (assim,
estritamente negativas na diagonal e estritamente positivas fora da diagonal),
ento o estado estacionrio , ou seja, tal que satisfaz L = 0, nico [N].
Destacamos o fato que em pode ser denida uma mtrica d que torna
completo e separvel (ver [EK] Seo 3.5). Tal d faz com que todos os cilindros
i i
i i
i i

i i
4.5 Apndice - Breve Introduo s Equaes Diferenciais 349
sejam conjuntos abertos. no entanto no compacto mesmo quando S

nito. A mtrica d chamada de mtrica de Skhorohod.
A -lgebra natural para considerar o Processo de Markov Xt a tempo
contnuo a -lgebra de Borel B sobre , ou seja a -lgebra gerada pelos
abertos obtidos por tal mtrica d.
Para cada s R+ {0} podemos denir a transformao B -mensurvel
s : dada por s (wt ) = wt+s . Para s xo, s muda a contagem
do tempo do relgio do processo. De outra forma, cada caminho amostral
= (wt )tT levado por s num outro caminho s que comea a contar
tempo 0 no tempo que era s para . Esta famlia de tranformaes s
denominada de shift em R+ . Ela desempenha um papel anlogo ao shift do
caso de tempo discreto que foi considerado anteriormente.
Uma probabilidade P sobre dita invariante se, para qualquer s 0,
vale que P ( 1
s (A) ) = P (A), para qualquer A B . Da mesma forma como
antes, o Processo de Markov Xt estacionrio, se e s se, a P associada
invariante. Pode-se falar em Processo Ergdico, Teorema de Birkhof, etc. Se
todas as entradas da matriz L, da forma n por n, forem no nulas, ento o
processo estacionrio associado a tempo contnuo ser ergdico (ver [N]). Estes
tpicos esto acima do escopo do presente texto (ver [S], [ET], [N]).
4.5 Apndice - Breve Introduo s Equaes

Diferenciais
Vamos inicialmente tentar descrever da maneira mais simples possvel o que
uma equao diferencial. Para um estudo mais profundo do assunto recomen-
damos ao leitor o texto [DL].
Uma equao diferencial um expresso que envolve a derivada x (t) de
uma funo x(t), e o nosso objetivo tentar descobrir quem tal funo x(t).
i i
i i
i i

i i
Por exemplo, considere a expresso

x (t) = 5 x(t).
Perguntamos: quem a funo x(t) (onde x : R R) que satisfaz a

equao acima para todo t real? A resposta bem simples: seja x(t) = e5t ,
ento para todo valor real t,

x (t) = 5 e5t = 5 x(t).
Portanto, a resposta que buscvamos x(t) = e5t . Note que desejamos que a
equao seja verdadeira para todos os valores de t e no apenas para um valor
especco de t.

Exerccio: Mostre que x(t) = e 7t satisfaz a equao diferencial x (t) =
7 x(t). Neste caso, quem f (x)?
Denio 4.16. Mais geralmente, uma equao diferencial uma expresso

da forma
x (t) = f (x(t)),
onde f :RR est xada. A incgnita a funo x(t).
No caso x (t) = 5 x(t), temos que f (x) = 5 x.

No caso da equao x (t) = cos(x(t)) + x(t)2 , temos que f (x) = cos(x) + x2 .

Exerccio: Mostre que x(t) = 3 e7t satisfaz a equao diferencial x (t) = 7x(t).
Para determinar x(t) de maneira nica necessrio xar a condio inicial,
isto , estabelecer que x (t0 ) = x0 .
Exemplo 4.11. Vamos dar um exemplo, para qualquer constante k , fcil

ver que x(t) = k e7 t , satisfaz
x (t) = 7 x(t).
i i
i i
i i

i i
Diremos que x(t) = ke7 t a soluo geral de x (t) = 7 x(t).

Neste caso, a funo x(t) est determinada a menos da constante k .
Estabelecendo que x(0) = 10, ento
10 = x(0) = k e7 0 = k.
Logo, k = 10 e assim a funo x(t) = 10 e7 t , ca determinada de maneira

nica.

Diremos que tal x(t) = 10 e7 t , uma soluo particular de x (t) = 7 x(t).
Exemplo 4.12. Como vimos para qualquer constante k , temos que x(t) =
k e , satisfaz
7t
x (t) = 7 x(t).
Assumindo que x(1, 2) = 3, temos que
3 = x(1, 2) = k e7 1,2 .
Deste modo, k = 3
e8,4
e assim a funo x(t) = 3
e8,4
e7 t , ca determinada de
maneira nica.

Exerccio: Mostre que x(t) = 3 e7t satisfaz a equao diferencial x (t) = 7x(t).
Exemplo 4.13. Considere xada uma constante a, ento a soluo geral de
x (t) = a x(t)

x(t) = ea t k.
Fixada a condio inicial, x(0) = x0 R, a soluo x(t) nica e dada por
x(t) = ea t x0 .
i i
i i
i i

i i
Exerccio: Mostre que x(t) = t + s, onde s constante, satisfaz a equao

diferencial x (t) = 1, com a condio inicial x(0) = s.
Exemplo 4.14. Para a e b xos, seja x(t) = c eb t ab , onde c denota uma

constante. Ento, tal x(t) a soluo geral da equao x (t) = b x(t) + a. Isto
porque para tal x(t)
a
x (t) = c b eb t = b (ceb t ) + a = b x(t) + a.
b
Neste caso f (x) = b x + a, onde a constante.
Em resumo, a soluo geral x(t) de
x (t) b x(t) = a
x(t) = c eb t ab .
Exemplo 4.15. Vamos considerar agora uma caso bem distinto dos anteriores.
Suponha que dada uma funo a(t), perguntamos: quem a funo x(t) tal
que
x (t) = a(t) x(t)?
t
A resposta fcil, x(t) = k e 0 a(s) ds . De fato, pela regra da cadeia
sabemos que
d b(t)
e = b (t) eb(t) .
dt
Logo,
d d t t
x(t) = k e 0 a(s) ds = a(t) k e 0 a(s) ds = a(t) x(t).
dt dt

i i
i i
i i

i i
Exemplo 4.16. A partir do que vimos acima tomando a(t) = t3 , podemos

considerar a equao x (t) = t3 x(t). A soluo de x(t) de x (t) = t3 x(t)
t
s3 ds 4 /4
x(t) = k e 0 = k et .
Se considerarmos a condio inicial x(0) = 2 teremos que

4 /4
2 = x(0) = k e0 = k.
Assim, ca determinado k = 2 e nalmente obtemos de maneira nica a

4
incgnita x(t) que 2 et /4 .
Motivados pelos exemplos acima introduzimos a seguinte generalizao:
Denio 4.17. Generalizando a denio inicial, seja f (x, t), onde f : R2

R. Denominamos de equao diferencial a expresso
x (t) = f (x(t), t).
A incgnita a funo x(t).
O ltimo exemplo ilustra tal situao. Neste caso, f (x, t) = a(t) x = t3 x.

Vamos analisar agora o caso
x (t) + a x(t) = b(t)
(que corresponde ao caso da equao linear de primeira ordem no homognea)

com a condio inicial
x(t0 ) = x0 .
Acima a constante e b(t) uma funo de t.
Pode-se mostrar que a soluo x(t) da equao linear de primeira ordem
no homognea
x (t) + a x(t) = b(t),
i i
i i
i i

i i
t
a (tt0 )
x(t) = e ( ea (r t0 ) b(r) dr + x0 ),
t0
onde k constante.
Exemplo 4.17. Para encontrar x(t) tal que
x (t) x(t) = 1,
e
x(0) = s
podemos utilizar a expresso acima e obter

t t
a (tt0 ) a (r t0 )
x(t) = e ( e t
b(r) dr + x0 ) = e ( e1 r 1 dr + s ) =
t0 0
= e t ( (e t + 1) + s ) = 1 + et (1 + s).
Acima a = 1, t0 = 0, x0 = s, e b(t) a funo constante igual a 1.
Exemplo 4.18. Para encontrar x(t) tal que
x (t) + a x(t) = a ea t ,
e
x(0) = x0
podemos utilizar a expresso acima e obter

t
a t
x(t) = e ( ea r a ea r dr + x0 ) = ea t (a t + x0 ).
0
i i
i i
i i

i i
Vamos considerar agora um caso mais geral e complexo de equaes diferen-

ciais. Desejamos obter agora x1 (t) e x2 (t) que satisfazem certo tipo de equaes
que envolvem x1 (t) e x2 (t).
Denio 4.18. Um sistema linear de equaes diferenciais em R2 uma
expresso do tipo

d x1
dt
= a x1 (t) + b x2 (t)
,

d x2
dt
= c x1 (t) + d x2 (t)
onde a,b,c,d so constantes reais
As incgnitas no caso so as funes x1 (t) e x2 (t). til as vezes considerar

tempo t sobre o plano R .
2
o par (x1 (t), x2 (t)) evoluindo com o
x(t) = (x1 (t), x2 (t)) denominada de soluo do sistema linear de equaoes
diferenciais.
x1 (t) descreve a taxa de variao de x1 (t) no tempo t e x2 (t) descreve a

taxa de variao de x2 (t) no tempo t.
Exemplo 4.19. Por exemplo se a = 2, b = 0, c = 0 e d = 5 obtemos o

sistema

d x1
dt
= 2 x1 (t) + 0 x2 (t) = 2 x1 (t)
.

d x2
dt
= 0 x1 (t) 5 x2 (t) = 5 x2 (t)
Neste caso, podemos resolver individualmente primeiro a equao em x1 (t)
e depois em x2 (t).
Obtemos x1 (t) = x0 e2 t e x2 (t) = y0 e5 t .
Deste modo, (x1 (t), x2 (t)) = (6 e2 t , 7 e5 t ) uma curva soluo evoluindo
com o tempo t em R2 . Por exemplo, para t = 9 a soluo vai estar em
(x1 (9), x2 (9)) = (6 e2 9 , 7 e5 9 ) = (6 e18 , 7 e45 )
i i
i i
i i

i i
Figura 4.7: Evoluo temporal da populao de coelhos e lobos. Esta descrita

pela soluo de um sistema de equaes diferenciais.
Faa voc mesmo as contas e comprove que tal x1 (t) e x2 (t) satisfazem a
equao
dx1
dt = 2 x1 (t)

dx2
dt
= 5 x2 (t)

No caso do exemplo acima foi muito simples encontrar a soluo (x1 (t), x2 (t)),
pois a evoluo de x1 (t) no sofre interferncia da evoluo de x2 (t) e vice versa.
O caso mais interessante quando existe interferncia. Isto acontece quando
b = 0 e c = 0. Esta anlise ser o objeto do que segue.
Pode-se mostrar que para a, b, c, d, x0 , y0 R xos, s existe uma nica
funo (x1 (t), x2 (t)) com t R, tal que satisfaz ao mesmo tempo
x1 (0) = x0 , x2 (0) = y0 ,
i i
i i
i i

i i
e a equao

dx
dt
= a x(t) + b y(t)
.

dy
dt
= c x(t) + d y(t)
O problema, claro, como obter (x(t), y(t)) a partir dos dados acima.
Podemos expressar o sistema de equaes diferenciais acima da seguinte
forma: seja ( )
a b
M= .
c d
Denote z(t) = (x(t), y(t)), ento, o sistema acima equivale a
z (t) = M z(t).
O z(t) soluo denominado de soluo da equao diferencial linear obtida

a partir de M . Note que z(t) = (x(t), y(t)) tambm soluo do sistema linear
associado.
A matriz M est agindo no vetor z(t) direita.
A anlise do sistema
z (t) = z(t) M ,
ou seja, a matriz M est agindo agora no vetor z(t) esquerda, em tudo
semelhante ao outro caso.
A situao que nos interessa exatamente o sistema
p (t) = p(t) L,
no caso em que L uma matriz linha soma zero.
Exemplo 4.20. Considere o sistema linear

{
x = 7x 4y
.
y = 9x + 7y
i i
i i
i i

i i
Vamos assumir que a condio inicial x(0) = 4 e y(0) = 1.

Pergunta: quem so x(t) e y(t)?
A soluo dada por
{ {
x(t) = 37 e13t + 53 et x(0) = 4
, que naturalmente satisfaz .
y(t) = 2 e + 2 e
7 13t 5 t
y(0) = 1
De fato,
7 5 91 13t 5
x (t) =13 e13t + et = e + et =
3 3 3 3
7 7 5 5
= (7 + 4 ) e13t + (7 4 ) et =
3 2 3 2
7 5 7 5
= 7 ( e13t + et ) 4 ( e13t + et ) = 7 x(t) 4 y(t).
3 3 2 2
Para mostrar que
7 5
y(t) = e13t + et
2 2
satisfaz
y (t) = 9 x (t) + 7 y(t),
devemos seguir um procedimento semelhante ao que foi feito acima.
Note que, neste caso,
7 5
lim x(t) = lim ( e13t + et ) = +
t+ t+ 3 3
e
7 5
lim y(t) = lim ( e13t + et ) = .
t+ t+ 2 2
A anlise se x(t) satisfaz
lim x(t) = 0,
t+
ou,
lim x(t) = ,
t+
i i
i i
i i

i i
ou,
lim x(t) = a R,
t+
ou, se no vale nenhuma dessas propriedades, de grande importncia na

teoria. Naturalmente, a mesma pergunta se pode fazer para y(t).
Em alguns casos interessantes, distintos do presente exemplo, ocorre que
lim (x(t), y(t)) = (a, b) R2 .

t+
Neste caso, estamos obtendo uma informao importante sobre o compor-

tamento assinttico (quando o tempo t ca arbitrariamente grande) da soluo
(x(t), y(t)).
Exerccio: Mostre que (x(t), y(t)) = (2e7 t , e7 t ) satisfaz (x(0), y(0)) = (2, 1) e
a equao

dx
dt
= x(t) + 12 y(t)
.

dy
dt
= 3 x(t) + 1 y(t)
Exerccio: Mostre que (x(t), y(t)) = (2e5 t , e5 t ) satisfaz (x(0), y(0)) =

(2, 1) e a equao
dx
dt = x(t) + 12 y(t)
.

dy
dt
= 3 x(t) + 1 y(t)
Vamos dar agora um exemplo aplicado a uma situao real.
Exemplo 4.21. Suponha que estamos analisando uma populao de N1 lo-

bos e N2 coelhos e nosso objetivo analisar como estas duas populaes se
propagam numa disputa natural. Assim, podemos supor (simplicando o mo-
delo) que um sistema linear de equaes diferenciais dado por
i i
i i
i i

i i

dN1
N1 (t) = dt
= aN1 (t) + bN2 (t)

N2 (t) = dN2
dt
= cN1 (t) + dN2 (t)
onde aqui b > 0, c 0, a > 0 e d > 0, descreve a evoluo do sistema.
N1 (t) descreve a taxa de variao da populao N1 (t) e N2 (t) descreve a
taxa de variao da populaco N2 (t).
Neste caso, estamos supondo que a taxa de variao do nmero de lobos

N1 (t) no decorrer do tempo uma combinao linear do nmero de coelhos e o
nmero de lobos. N1 (t)) vai crescer (b > 0) quanto mais coelhos existirem. Os
lobos (o predador) tem alimento. O coeciente a > 0 da conta do crescimento
populacional de lobos por cruzamento dentro da espcie.
A taxa de variao do nmero de coelhos N2 (t) no decorrer do tempo
combinao linear do nmero de lobos e do nmero de coelhos. N2 (t) vai
decrescer muito (c 0) se o nmero de lobos for grande. Os coelhos (a
presa) so comidos pelos lobos. O coeciente d > 0 da conta do crescimento
populacional de coelhos por cruzamento.
Os valores a, b, c, d podem ser estimados em funo de dados reais.
O que desejamos determinar quem (N1 (t), N2 (t)).
Na Figura 4.7, mostramos a gura que descreve no plano R2 a evoluo
temporal de (N1 (t), N2 (t)) para distintos valores de t.
Na situao em que a = 0, 1, b = 0 = c, e d = 0, 3 com N1 (0) = x0 e
N2 (0) = y0 , temos que
dN1
= 0, 1 N1 (t)
dt
e
dN2
= 0, 3 N2 (t),
dt
ou seja,
N1 (t) = x0 e0,1 t
i i
i i
i i

i i
N2 (t) = y0 e0,3 t .
Se x0 = 100 lobos e y0 = 110 coelhos, ento, h(t) = (100 e0,1t , 110 e0,3t ).
Voltemos ao caso geral. Vamos supor interferncia entre as populaes N1
e N2 da seguinte forma.

dN1
dt = a N1 (t) + b N2 (t) = N1 (t)

dN2
dt
= c N1 (t) + d N2 (t) = N2 (t)
onde N1 (0) = x0 e N2 (0) = y0 .

Gostaramos de saber quem a curva soluo (N1 (t), N2 (t)) no plano.
Pode-se mostrar que se a matriz
( )
a b
M=
c d
tem autovalores reais distintos 1 e 2 ento a soluo do sistema linear de

equaes diferenciais mencionado acima da forma
N1 (t) = A1 e1 t + A2 e2 t
N2 (t) = B1 e1 t + B2 e2 t
onde A1 , A2 , B1 , B2 so constantes reais (a serem determinadas). Estas con-

stantes devem ser escolhidas de forma que N1 (t) e N2 (t) satisfaam as condies
iniciais N1 (0) = x0 e N2 (0) = y0 .
Se ocorresse (no presente exemplo no o caso) de existir o limite
lim (N1 (t), N2 (t)) = (150, 450) R2 ,

t+
ento porque a populao de lobos, a longo prazo, iria para o total de 150 e
a de coelhos para o total de 450.
i i
i i
i i

i i
O exemplo que estamos descrevendo ilustrativo, de fato, um pouco sim-

plista demais (para capturar a complexidade de problema real). Acreditamos,
que, de qualquer forma, ele auxilia no entedimento do interesse prtico da
teoria dos sistemas lineares de equaos diferencias. Um modelo mais realista
existe, mas isto requer a introduo do estudo de sistemas no lineares de
equaes diferenciais [DL]. No vamos tratar deste caso aqui.
Vamos utilizar o que foi explicado acima para calcular a soluo em um

exemplo numrico.
{
N1 = 3N1 2N2
Exemplo 4.22. Suponha que .
N2 = 2N1 2N2
Neste exemplo N1 e N2 no representam de fato populaes pois a equao

no se enquadra no modelo populacional descrito acima; no presente caso
a = 3, b = 2; c = 2; d = 2. Note que no vale c < 0. De qualquer modo, o
exemplo instrutivo, e vamos calcular a soluo (N1 (t), N2 (t)) explicitamente.
Ainda, assumimos que N1 (0) = 100, N2 (0) = 300.
Determinemos inicialmente os valores de 1 , 2 , A1 , A2 , B1 e B2 .
Queremos resolver o sistema det(I M ) = 0, onde R, e
( )
3 2
M= ,
2 2
isto ,
( )
3 2
det = 0 ( 3)( + 2) + 4 = 0 2 6 + 4 = 0
2 + 2
2 2 = 0,
i i
i i
i i

i i
e desta forma,
+
1 1 4(2)
= .
2
Portanto, obtemos, 1 = 2 e 2 = 1. Logo,
N1 (t) = A1 e2t + A2 et ,
N2 (t) = B1 e2t + B2 et ,
onde, N1 (0) = 100 e N2 (0) = 300.
Note que M no satisfaz a propriedade de ser linha soma zero.
Devemos agora determinar A1 , A2 , B1 , e B2 .
Sabemos que
100 = A1 + A2 ,
300 = B1 + B2 ,
considerando os valores acima em t = 0.
Pelas equaes que envolvem a derivada de N1 temos que vale
2 A1 e2 t A2 et = N1 (t) = 3 N1 (t) 2N2 (t) =

= 3 (A1 e2t + A2 et ) 2 (B1 e2t + B2 et ).
Coletando os termos que multiplicam respectivamente e2 t e et , obtemos
da expresso acima
2 A1 = 3 A1 2 B1 ,
e
A2 = 3 A2 2 B2 .
Obtemos ento o conjunto de equaes
A1 + A2 = 100,
i i
i i
i i

i i
B1 + B2 = 300,
A1 (1) = 2B1 ,
A2 (4) = 2B2 .
Este ltimo par signica resolver
A1 = 2B1 ,
2A2 = B2 ,
o que equivale a
A1
B1 = ,
2
B2 = 2A2 .
Obtemos assim, olhando apenas as equaes que envolvem A1 , A2 , que vale

{
A1 + A2 = 100
A1

2
+ 2A2 = 300
{
A1 = 100 A2

50 2 +2A2 = 300
A2
{
A1 = 100 A2
3

A =
2 2
250
A1 = 200
3
500
A2 = 3
i i
i i
i i

i i
Como B1 = A1
2
e B2 = 2A2 , obtemos, nalmente, a partir de
200 500
A1 = , A2 = ,
3 3
que
100 1000
B1 = , B2 = .
3 3
Portanto, a soluo que buscvamos (N1 (t), N2 (t)) dada por
500 t
N1 (t) = 200
3
e2t + 3
e
1000 t
N2 (t) = 100
3
e2t + 3
e
Supondo que todos os coecientes A1 , A2 , B1 , B2 , 1 , 2 so diferentes de

zero, natural perguntar sobre os limites, quando t , de N1 (t) e N2 (t).
Note que lim N1 (t) = lim A1 e1 t + A2 e2 t = lim A1 e2t + A2 et =
t+ t+ t+
A1 lim e2t = .
t+
Ainda, lim N2 (t) = lim B1 e1 t + B2 e2 t = lim B1 e2t + B2 et =

t+ t+ t+
B1 lim e2t = .
t+
Observao : Note que (x(t), y(t)) constante e igual a (0, 0), para todo t real,
sempre satisfaz
dx
dt = a x(t) + b y(t)
,

dy
dt
= c x(t) + d y(t)
e, naturalmente, tambm satisfaz a condio inicial (x(0), y(0)) = (0, 0).
i i
i i
i i

i i
Exerccio: Determine a soluo (x(t), y(t)) satisfazendo a condio inicial

(x(0), y(0)) = (2, 3) do sistema de equaes diferenciais

dx
dt
= x(t) + 12 y(t)
.

dy
dt
= 3 x(t) + 1 y(t)
Sugesto: Calcule primeiro as solues em do polinmio do segundo grau
det( I M ) = 0,
onde ( )
1 12
M= .
3 1
Estes valores so = 7 e = 5. A seguir proceda como acima resolvendo
um sistema linear e usando o fato que (x(0), y(0)) = (2, 3).
A resposta (x(t), y(t)) = (4 e7 t 2 e5 t , 2 e7 t + e5 t ).
Exerccio: Determine a soluo geral (x(t), y(t)) satisfazendo a condio ini-
cial (x(0), y(0)) = (x0 , y0 ) do sistema de equaes diferenciais

dx
dt
= x(t) + 12 y(t)
.

dy
dt
= 3 x(t) + 1 y(t)
Denio 4.19. O caso mais geral de equao diferencial em R2 seria

{
dx
dt
= f (x(t), y(t))
dy ,
dt
= g(x(t), y(t))
onde f : R2 R e g : R2 R.
A incgnita o caminho (x(t), y(t)) que satisfaz tal equao.
i i
i i
i i

i i
Quando
f (x, y) = a x + b y
e
g(x, y) = c x + d y
obtemos um sistema linear de equaes diferenciais (como anteriormente de-
scrito).
No caso em que f (x, y) e g(x, y) no so lineares se obtem maior exibili-
dade para descrever interferncias complexas entre duas populaes.
O Teorema de existncia e unicidade de equaes diferenciais (ver por ex-
emplo [DL]) assegura que, dada uma condio inicial (x(0), y(0)) = (c, d),
ento, a soluo (x(t), y(t)) de (x (t), y (t)) = ( f (x(t), y(t)), g(x(t), y(t)) ),
nica, se f e g forem de classe C 1 .
Tais equaes so denominadas de no lineares. Elas no vo ocorrer na
teoria desenvolvida no presente volume que cobre questes menos complexas
da Teoria do Processos Estocticos. Com o m de dar um breve panorama
mais amplo sobre o assunto vamos sucintamente fazer algumas consideraes
simples, antes de voltar a analisar sistemas lineares na sua formulao mais
geral.
Note que no caso geral, se (a, b) tal que f (a, b) = 0 e g(a, b) = 0, ento , se
a curva (x(t), y(t)), t R, for constante e igual a (a, b) ento (x(t), y(t)), t R
soluo ou seja satisfaz a equao acima. Dizemos neste caso que (x(t), y(t))
uma soluo em equilbrio (ca parada sobre (a, b)). Em muitos problemas
reais, o que se deseja saber quem (a, b), tal que as duas populaes x(t) e
y(t) cam em equilbrio nestes valores. Para tanto, basta descobrir os (a, b)
tal que (f (a, b), g(a, b)) = (0, 0). Neste caso, a soluo (x(t), y(t) ca parada
na posio (a, b), independente da variao de t.
Isto porque se x(t) e y(t) so constantes, ento para todo t real
(x (t), y (t)) = (0, 0) = (f (a, b), g(a, b)) = (f (x(t), y(t)), g(x(t), y(t)).
i i
i i
i i

i i
Considere uma condio inicial (x0 , y0 ) (distinta de (a, b)) e ento (x(t), y(t))
vai denotar a soluo de
x (t) = f (x(t), y(t),
y (t) = g(x(t), y(t),
que satisfaz a condio inicial (x(0), y(0)) = (x0 , y0 ).
Em muitos problemas reais, vale ainda que para grandes conjuntos de
condies iniciais (x0 , y0 ), existe o limite
lim (x(t), y(t)) = (a, b) R2 .

t+
Estamos assumindo acima, claro, que (a, b) ponto de equilbrio.

Se x(t) = N1 (t) e y(t) = N2 (t) descrevem duas populaes, ento no caso
da ocorrncia do que descrevemos acima, se poderia dizer, que independente
das populaes iniciais (x0 , y0 ), se observaria no modelo, que as populaes N1
e N2 , a longo prazo, se aproximariam respectivamente dos valores a e b.
Neste caso, o ponto de equilbrio (a, b) seria dito estvel.
Comportamento semelhante ocorre em (certos) Processos de Markov em
tempo contnuo com dois estados, em que (a, b) denota o estado de equilbrio
R2 . Deve-se, supor no entanto, que as condies iniciais (x0 , y0 ) estejam
no conjunto dos elementos que satisfazem x0 + y0 = 1.
O leitor deve encarar as consideraes acima como uma discusso heurstica
envolvendo assuntos completamente distintos.
Vamos voltar agora aos sistemas lineares e analisar a questo de maneira
bastante geral.
Denio 4.20. Seja uma matriz real

a11 a12 a13 ... a1n
a ... a2n
21 a22 a23
A = ,
. . . ... .
an1 an2 an3 ... ann
i i
i i
i i

i i
do tipo n por n.
Um sistema linear de equaes diferenciais em Rn um sistema do tipo

d x1
= a11 x1 (t) + a12 x2 (t) + a13 x3 (t) + ... + a1n xn (t)

dt

d x2
= a21 x1 (t) + a22 x2 (t) + a23 x3 (t) + ... + a2n xn (t)
dt
d x3
= a31 x1 (t) + a32 x2 (t) + a33 x3 (t) + ... + a3n xn (t) .

dt

...........................................................................

d xn
= an1 x1 (t) + an2 x2 (t) + an3 x3 (t) + ... + ann xn (t)
dt
A incgnita a funo x(t) = (x1 (t), x2 (t), ..., xn (t)).

A equao acima pode ser escrita da seguinte forma:

x1 (t) a11 a12 a13 ... a1n x1 (t) x1 (t)
x (t) a ... a2n x (t)
2 21 a22 a23 x2 (t) 2
= = A .
. . . . ... . . .

xn (t) an1 an2 an3 ... ann xn (t) xn (t)
A soluo x(t) = (x1 (t), x2 (t), ..., xn (t)) do sistema acima sempre existe.
Fixada uma condio inicial x(0) = (x10 , x20 , ..., xn0 ) Rn , a funo x(t) soluo
do sistema acima nica.
Vamos descrever brevemente como, dado a matriz A e a condio inicial
x(0) = (x10 , x20 , ..., xn0 ) Rn , se encontra a soluo x(t) = (x1 (t), x2 (t), ..., xn (t)).
Para a matriz A xada e t real xado, denote por
1 1 1 1 1
tA
e = I +t A+ (t A)2 + (t A)3 + (t A)4 +...+ (t A)n +... = (t A)n .
2! 3! 4! n! n=0
n!
Acima (t A)n signica que multiplicamos a matriz t A por si mesma n vezes.

A expresso acima conhecida como exponencial de uma matriz (no caso
da matriz t A).
Podemos tambm escrever
1 2 2 1 3 3 1 4 4 1
et A = I + t A + t A + t A + t A + ... + tn An + ...
2! 3! 4! n!
i i
i i
i i

i i
Fixado A e variando t obtemos uma familia et A a um parmetro t de

matrizes da forma n por n.
Seja

x10
2
x0

x(t) = et A . .

.
xn0
Pode-se mostrar (ver [DL]) que xada a matriz A e a condio inicial

x(0) = (x10 , x20 , ..., xn0 ) Rn , a soluo x(t) = (x1 (t), x2 (t), ..., xn (t)) dada
pela expresso acima. Desta forma a expresso et A desempenha um papel
fundamental.
A expresso acima

x10
2
x0

x(t) = et A . ,

.
xn0
resolve o caso geral de qualquer sistema linear de equaes diferenciais x =

A x.
Exemplo 4.23. Podemos, por exemplo, calcular para qualquer t real a expo-
nencial e tA
de uma matriz diagonal

a1 0 0

A = 0 a2 0 .
0 0 a3
i i
i i
i i

i i
fcil ver que neste caso

et a 1 0 0

et A = 0 et a2 0 .
0 0 et a 3
Exemplo 4.24. Pode-se mostrar (ver [DL]) que

a b
( )
t
b a cos(b t) sen (b t)
e = et a .
sen (b t) cos(b t)
Exemplo 4.25. Note que no caso unidimensional, xada a matriz a da forma

1 por 1 (um nmero real) e a condio inicial x0 , a soluo de x (t) = a x(t),
dada por

1
x(t) = et a x0 = [ (t a)n ] x0 .
n=0
n!
Exemplo 4.26. Fixada a matriz

2, 3 4, 5 1

1, 2 5 3
10, 3 7 8
e a condio inicial x(0) = (1, 0, 0), temos que a soluo x(t) de
x (t) = A x(t)
i i
i i
i i

i i
dada por
x1 (t) 1
tA
x(t) = x2 (t) = e 0 =
x3 (t) 0
n
2, 3 t 4, 5 t t 1
1
[ 1, 2 t 5t 3 t ] 0 =
n!
n=0
10, 3 t 7 t 8t 0
2
1 0 0 2.3 t 4.5 t t 2.3 t 4.5 t t 1
[ 1 ]
0 1 0 + 1.2 t 5 t 3 t + 1.2 t 5 t 3 t + ... 0
2
0 0 1 10.3 t 7 t 8 t 10.3 t 7 t 8 t 0

De maneira anloga, a partir de uma matriz A, podemos considerar o

sistema de equaes diferenciais
( )
x1 (t) x2 (t) ... xn (t) =

a11 a12 a13 ... a1n
( ) a ... a2n
21 a22 a23
x1 (t) x2 (t) ... xn (t) =
. . . ... .
an1 an2 an3 ... ann
( )
x1 (t) x2 (t) ... xn (t) A.
Fixada uma condio inicial x(0) = (x10 , x20 , ..., xn0 ) Rn , desejamos saber
quem a soluo x(t) = (x1 (t), x2 (t), ..., xn (t)) do sistema acima. A resposta
( )
x(t) = x10 x20 ... xn0 et A .
Os resultados correspondentes para a ao da matriz A agindo a direita

ou a esquerda so os mesmos. No caso da Teoria dos Processos Estocsticos
i i
i i
i i

i i
(matrizes A = L tipo linha soma zero) mais natural considerar a ao

esquerda.
Exemplo 4.27. Fixada a matriz

2, 3 4, 5 1

1, 2 5 3
10, 3 7 8
e a condio inicial x(0) = (1, 0, 0), temos que a soluo x(t) de
x (t) = x(t) A
dada por
( ) ( )
x(t) = x1 (t) x2 (t) x3 (t) = 1 0 0 et A =
n
( )
2, 3 4, 5 1
1 n
1 0 0 [ t 1, 2 5 3 ].
n!
n=0
10, 3 7 8

Finalmente vamos analisar a equao
X (t) A = X(t), X(0) = I,
com t real, onde X(t) matriz da forma n por n que depende de t e A matriz
xa da forma n por n.
Acima X (t), para cada t xo, a matriz em que tomamos a derivada de
cada um de suas entradas. Por exemplo, se

x11 (t) x12 (t) x13 (t)

X(t) = x21 (t) x22 (t) x23 (t)
x31 (t) x32 (t) x33 (t)
i i
i i
i i

i i
ento
x11 (t) x12 (t) x13 (t)

X (t) = x21 (t) x22 (t) x23 (t) .
x31 (t) x32 (t) x33 (t)
Dado A desejamos encontrar quem X(t).
A resposta fcil, a famlia de matrizes indexada por t dada por
X(t) = et A ,
onde
1 1 1 1 1
tA
e = I +t A+ (t A)2 + (t A)3 + (t A)4 +...+ (t A)n +... = (t A)n .
2! 3! 4! n! n=0
n!
Exemplo 4.28. A razo para a ltima armao bem simples. Vamos

mostrar este fato no caso em que A da forma dois por dois. O caso geral
semelhante. Ora,
X (t) A = X(t),
com ( )
x11 (t) x12 (t)
X(t) = ,
x21 (t) x22 (t)
e ( )
a b
A= ,
c d
signica
( )( ) ( )

x11 (t) x12 (t) a b x11 (t) x12 (t)

= .
x21 (t) x22 (t) c d x21 (t) x22 (t)
A igualdade acima pode ser decomposta em duas como
( )
( ) a b ( )
= x11 (t) x12 (t) ,
x11 (t) x12 (t)
c d
i i
i i
i i

i i
e
( )
( ) a b ( )
= x21 (t) x22 (t) .
x21 (t) x22 (t)
c d
Por outro lado a igualdade X(0) = I signica
( ) ( )
1 0 x11 (0) x12 (0)
= .
0 1 x21 (0) x22 (0)
Esta, por sua vez, pode ser decomposta em duas

( ) ( )
1 0 = x11 (0) x12 (0) ,
e ( ) ( )
0 1 = x21 (0) x22 (0) .
Recamos assim nos dois pares de equaes
( )
( ) a b ( ) ( ) ( )
= , e =
x11 (t) x12 (t) x11 (t) x12 (t) 1 0 x11 (0) x12 (0) ,
c d
e, ainda
( )
( )
a b ( ) ( ) ( )
= x21 (t) x22 (t) , e 0 1 = x21 (0) x22 (0) .
x21 (t) x22 (t)
c d
( )
Vamos denominar de x(t) = x11 (t) x12 (t) , a soluo do primeiro pro-
( )
blema e y(t) = x21 (t) x22 (t) , a do segundo.
Sabemos que a soluo do primeiro problema
x(t) = (1 0) et A
e do segundo
y(t) = (0 1) et A .
i i
i i
i i

i i
Logo, ( ) ( )
x(t) 1 0
= et A = et A .
y(t) 0 1
Sendo assim X(t), soluo de X (t) = X(t) A e X(0) = I , satisfaz X(t) =
et A .
Vamos agora analisar um outro tipo de problema: considere
P : R R+ R,
da forma P (s, t) tal que satisfaa a equao
P P
+ (s + a) = 1,
t s
com a condio de fronteira P (s, 0) = h(s), onde a uma constante e h(s)
uma funo real xada.
A equao acima diferencial parcial: ela envolve derivao parcial, dife-
rentemente dos casos anteriormente considerados acima nesta seo.
Um dos procedimentos mais usuais em equaes diferenciais parciais ten-
tar fazer a equao recair em um problema em que existe separao de variveis.
Por exemplo, o ideal seria que P (s, t) fosse da forma
P (s, t) = g(t) + h(s).
Para simplicar mais a questo, da forma
P (s, t) = t + h(s).
Desta forma teramos

P
= 1.
t
i i
i i
i i

i i
Reciprocamente, se P (s, t) satisfaz a equao acima, ento por integrao

P (s, t)
dt = 1 dt = t + z(s).
t
Como em geral tal no acontece, ou seja, no ocorre P t
= 1, ento nosso
objetivo ser fazer uma mudana de coordenadas para P de tal forma que isto
ocorra.
Seja B(v, ) = (s(v, ), t(v, )), onde B : R R+ R R+ .
v e sero as novas coordenadas que substituiro s e t.
Nas novas coordenadas denotamos
P (v, ) = P (s(v, ), t(v, )).
Gostaramos que B fosse tal que
P (v, )
= 1.

fundamental supor abaixo que P (s, t), embora desconhecida, satisfaz a
equao desejada. Descobrir a B(v, ) conveniente ser nosso objetivo.
Vamos ver qual a equao satisfeita por P (v, ).
Ora, pela regra da cadeia
P P s P t
= + .
s t
Ora, se ocorrer
s
= (s + a),

e
t
= 1,

a equao acima se torna
P P P
= (s + a) + = 1.
s t
i i
i i
i i

i i
Desta forma, obteremos o resultado desejado, ou seja P

= 1, e ser fcil
determinar P (v, ).
Vamos ento determinar s(v, ) e t(v, ). As equaes que necessitamos
resolver so ordinrias. Para tanto necessitamos de condies iniciais.
Para
t
= 1,

a condio natural (para cada v xo) t(v, ) = 0 em = 0.
Logo,
t(v, ) = .
Ainda, para a equao ordinria (dependendo de um parmetro v )
s
s = a,

a condio inicial natural (para cada xo) s(v, ) = v ,
Logo,
s(v, ) = (v + a) e a,
conforme vimos no exemplo 4.14 no comeo desta seo. O resultado segue

de considerar para cada v xo, a expresso obtida no exemplo 4.14, para a
varivel s.
Desta forma determinamos B(v, ).
Para determinar P (v, ), usamos a equao ordinria
P (v, )
= 1,

com a condio inicial P (v, 0) = h(v).
Logo,
P (v, ) = + h(v).
Finalmente, vamos recuperar P (s, t).
i i
i i
i i

i i
4.6 Apndice - Distribuio Geomtrica e Exponencial 379
Invertendo B , obtemos = t e
v = e (s + a) a = e t (s + a) a.
Logo,
P (s, t) = P (v(s, t), (s, t)) = t + h( e t (s + a) a ).
Por exemplo, se a condio de fronteira for h(s) = si , ento
P (s, t) = t + ( e t (s + a) a )i .
O mtodo descrito acima pode ser aplicado em diversos tipos de equaes

diferenciais parciais. Em essncia, ele se vale de equaes diferenciais ordinrias
para resolver o problema. conhecido como o mtodo das caractersticas.
4.6 Apndice - Distribuio Geomtrica e Expo-

nencial
Denio 4.21. Dada uma varivel aleatria X : R+ , dizemos que ela
tem distribuio exponencial de parmetro , se
P ( X > x ) = 1 e x , x 0.
Segundo nossa notao X ().

Nosso objetivo nesta seo descrever o fenmeno da perda de memria
associado a Processo de Poisson Xt , t R+ , com parmetro . Considere
a varivel X que descreve o tempo de primeiro salto de um certo caminho
amostral S R . Ora, sabemos que X , que toma valores em R+ , governado
+
pela distribuio exponencial de parmetro .

Inicialmente, como motivao, vamos considerar uma verso em que X
toma valores discretos deste fenmeno, o que ser obtido atravs da anlise da
distribuio geomtrica.
i i
i i
i i

i i
Considere uma moeda que tem probabilidade p de sair cara e tem proba-
bilidade q = (1 p) de sair coroa.
Vamos jogar a moeda sucessivamente vrias vezes e varivel aleatria X
vai descrever a probabilidade do tempo em que acontece pela primeira vez o
evento sair coroa.
Desta forma X toma valores em {1, 2, 3, ...} e
P ( X = n ) = pn1 q, n 1.
Denio 4.22. Dizemos, neste caso, que X tem distribuio geomtrica.
Segundo nossa notao X G(p), 0 p 1

Vamos descrever o que entendemos por falta de memria da distribuio:
vamos calcular
P (X = n + m , X > n)
P (X = n + m| X > n) = =
P (X > n)
P (X = n + m) pn+m1 q
= = j1 q
=
P (X > n) j= n+1 p
pn+m1
= pn = pm1 q = P (X = m).
1p
Portanto, condicionando em [X > n] (isto , ainda no saiu coroa no tempo

n), o nmero de tentativas restantes at que pela primeira vez aparea coroa no
tempo m + n, tem funo de distribuio de probabilidade igual a P (X = m)
(ou seja, como supor que o processo tivesse comeado a contar as tentativas
considerando o tempo m como se fosse o tempo 0).
Esta propriedade o que entendemos de falta de memria. Num certo
sentido, a cada momento, o processo esquece o que aconteceu antes.
A recproca verdadeira no seguinte sentido: Seja X uma varivel aleatria
discreta tomando valores em {1, 2, 3, ...}, e denote pn = P (X = n). Assuma a
i i
i i
i i

i i
4.6 Apndice - Distribuio Geomtrica e Exponencial 381
propriedade da falta de memria. Vamos mostrar que ento X tem distribuio

geomtrica. De fato, por hiptese,
P (X = n + i)
P (X = i) = P (X = n + i | X > n) = =
P (X > n)
P (X = n + i) p n+i
= = .
j n+1 P (X = j) j n+1 pj
Desta forma, pi = p n+i pj .

j n+1
Sendo assim, considerando acima n = 1, temos
p i+1 pi+1
pi = pj = = 1 p1 .
j2 pj j2
p i
Denote p = (1 p1 ).
Logo,
p i+1 = p pi pi = p p i1 ... pi = p i1 p1 .
Denote q = p1 = 1 p, e obtemos assim que X possui distribuio ge-
omtrica, pois P (X = i) = pi = pi1 q .
Vamos agora considerar agora o caso em que a varivel aleatria X toma
valores sobre os reais.
Suponha que X tenha distribuio exponencial com parmetro , ou seja,
{ {
ex , x 0 1 ex , x 0
fX (x) = , P (X > x) = FX (x) =
0, c.c. 0, c.c.
A distribuio exponencial ocorre como:
densidade de variveis aleatrias que representam tempos de vida de

determinados equipamentos.
intervalo de tempo entre eventos que ocorrem em seqencia aleatria,

como encomendas a um atacadista, chamadas telefnicas em um centro
telefnico, demandas de servio de computador, etc...
i i
i i
i i

i i
Vamos analisar se ocorre aqui tambm o fenmeno de falta de memria da

distribuio da varivel X .
Seja s > 0 xo e G a funo de distribuio condicional de X = X s
dado que X > s. Assim, para x 0, temos:
G(x) = P (X x, |X > s) = P (X s x|X > s) = P (X x + s|X > s) =
P (X x + s, X > s) P (s < X x + s) 1 e(x+s) 1 + es

= = = =
P (X > s) P (X > s) es
ex es + es
= = 1 ex .
es
Logo, G(x) = FX (x). Isto signica, no caso dos exemplos de aplicaes
acima, que a distribuio da vida restante do equipamento no depende do
tempo em que o mesmo estava em funcionamento.
Reciprocamente, a densidade exponencial a nica que tem esta pro-
priedade. De fato, suponha que X seja uma v.a. no negativa contnua para
qual a funo de distribuio condicional de X = X s, dado que X > s,
igual a funo de distribuio inicial FX (x).
Sendo assim,
s+x
f (t)dt F (x + s) F (s)
G(x) = s+ = F (x) = F (x).
s
f (t)dt 1 F (s)
Ora F (0) = 0, pois a varivel assume apenas valores no-negativos, logo

[ ]
F (x + s) F (s) F (x) F (0)
= [1 F (s)] .
x x
Vamos fazer aqui a hiptese que F diferencivel (resultados mais gerais,

sem supor que valha tal propriedade so verdadeiros, ver [KT1])
Fazendo x 0+ temos que
F (s) = [1 F (s)]F (0)
i i
i i
i i

i i
4.7 Exerccios 383
Seja U (s) = 1 F (s) e denote por = F (0). Ento,
U (s) = F (s) = U (s) .
Sabe-se, da Teoria das Equaes Diferenciais, que a soluo U (s) da equao

acima
U (s) = ce s .
Como U (0) = 1 F (0) = 1 0 = 1 conclumos que c = 1, e assim,
U (s) = e s = 1 F (s) = 1 FX (s), para todo s > 0.
Logo, X tem distribuio exponencial com parmetro .
Finalmente, voltando ao Processo de Poisson, se X descreve o tempo do
primeiro salto, ento, tal varivel X tem distribuio exponencial.
Condicionando em que ainda no houve um salto no tempo s xo, X =
X s, vai descrever o tempo do primeiro salto aps o tempo s. Acima,
mostramos que a varivel descrita por X perde memria.
4.7 Exerccios
1. Seja (Xt )t0 um processo de Poisson com parmetro contnuo. Usando
a frmula { ji
exp{t} (t)
(ji)!
, se j i
Pij (t) =
0 , c.c.
a. Mostre que Pij (t) = o(t), sempre que |j i| > 1.

j
b. Mostre que k=i Pik (t)Pkj (s) = Pij (t + s), sempre que i < j , t 0,
s 0.
2. Seja (Xt )t0 uma Cadeia de Markov com espao de estados {0, 1} e pro-
babilidades de transio
1 + (1)i+j e2t
Pij (t) = , para i, j = 0, 1.
2
i i
i i
i i

i i
Mostre que
a. 0 Pij (t) 1.

b. j Pij (t) = 1.
c. {
1 , se i = j
Pij (0) = .
j
0 , se i =

d. Pij (t + ) = k Pik (t)Pkj ( ).
3. Determine a matriz de proporo para o processo do Exerccio 2 acima

e mostre que:

Pij (t) =
dPij (t)
a. dt
= k Pik (t)kj .
dPij ( )
b. d
= k ik Pkj ( ).
4. Dois satlites de comunicao so colocados em rbita. O tempo de vida

de um satlite exponencial com mdia 1 . Se h falha, efetua-se uma
substituio. O tempo necessrio para preparo e envio de uma substi-
tuio exponencial com mdia 1 . Seja Xt = o nmero de satlites em
rbita no tempo t. Suponha que (Xt )t0 seja um processo markoviano.
a. Obtenha o gerador innitesimal do processo.

b. Estabelea as equaes de Kolmogorov.
c. Resolva o sistema em (b) para encontrar as probabilidades de tran-
sio Pij (t).
5. No modelo de la simples suponha que a la de espera seja no mximo

de k indivduos (incluindo aquele que estiver em servio).
a. Escreva as equaes de Kolmogorov.
i i
i i
i i

i i
4.7 Exerccios 385
6. Em determinados modelos de las, pode-se aproximar o comportamento

do sistema supondo-se que um modelo de nascimento e morte esteja
correto, com i,i+1 = , i,i1 = i, 00 = e ij = 0 para qualquer
outro valor de j .
a. Escreva as equaes de Kolmogorov.

b. Observe que uma interpretao deste modelo que o processo de
chegada um processo de Poisson. A unidade de servio contm
um nmero ilimitado de servidores idnticos, onde cada um tem um
tempo de servio com distribuio exponencial com mdia 1 .
7. Seja Xt um processo de Poisson com parmetro . Determine para t1 e

t2 xados, com t2 > t1 , a covarincia associada a estes dois tempos, ou
seja, calcule
E( [Xt1 E(Xt1 ) ] [ Xt2 E(Xt2 ) ] ).
8. Seja Xt um processo de Poisson com parmetro que descreve o nmero

de chamadas telefnicas recebidas por uma central telefnica. Qual a
probabilidade que que nenhuma chamada seja recebida entre o tempo t1
e t2 , com t1 < t2 ? Qual a probabilidade que que nenhuma chamada seja
recebida entre o tempo t1 e t2 , e duas sejam recebidas entre o tempo t3
e t4 , onde t1 < t2 < t3 < t4 ?
i i
i i
i i

i i
i i
i i
i i

i i
5
Reviso de Teoria da Medida e
Propriedades Gerais de Processos
5.1 Introduo
Vamos iniciar esta seo mencionando os resultados de Teoria da Medida que
necessitaremos para formalizar rigorosamente a Teoria dos Processos Estocs-
ticos. Aps esta parte preliminar, iremos nos dedicar a utilizar tais resultados
no contexto especco que necessitamos no texto.
timas referncias gerais sobre Teoria da Medida que complementam o que
apresentamos aqui so [BA] e [Fe].
Em particular, o exemplo 5.8 vai descrever, de forma matematicamente,

precisa o que um processo Markoviano tomando valores num conjunto de
estados S obtido a partir de uma matriz de transio P e uma probabilidade
inicial .
Denio 5.1. Uma famlia A p (X) de subconjuntos de um conjunto xo
X denominada de uma -lgebra sobre X se:
a) X est em A,
b) se A pertence a A, ento seu complemento X A tambm est em A,
c) Se (An )nN uma seqncia enumervel de conjuntos em A, ento sua
unio nN An tambm est A.
387
i i
i i
i i

i i
388 Reviso de Teoria da Medida e Propriedades Gerais de Processos Cap. 5
Denio 5.2. Os conjuntos A em A so denominados de conjuntos A-

mensurveis ou, abreviadamente, mensurveis.
No nosso contexto o conjunto X ser em geral o espao amostral .

O conjunto p(X) das partes de X sempre uma -lgebra. O conjunto dos
conjuntos {, X} tambm uma -lgebra. Estes dois exemplos so os casos
extremos das possibilidades. Em geral vamos nos interessar em colees de
conjuntos que so casos intermedirios. No entanto, todas vez que o conjunto
X for enumervel a nica -lgebra que vamos considerar o conjunto das
partes de X , ou seja, p(X).
O conjunto X que prioritariamente estaremos interessados aqui X = S T ,
onde T = N e S o conjunto de estados. A anlise do conjunto X = S R
+
tambm de grande importncia, mas sua anlise muito mais delicada (ver
[EK]) e no vamos aqui aprofundar muito tal questo.
Observao: Na observao feita aps o exemplo 5.10 car bem claro o
sentido e a pertinncia das exigncias requeridas na denio de sigma-algebra.
Denio 5.3. Dada uma famlia A p(X) de -lgebras sobre o mesmo

conjunto X indexadas por , denominamos A a interseo de todas as -
lgebras A . Neste caso, se chamarmos de F = A , ento um subconjunto
A de X est em F , se e s se, A A para todo .
Teorema 5.1. Dado A p(X), uma famlia de -lgebras sobre o conjunto
X indexadas por , ento F = A uma -lgebra.
Demonstrao: Ora, os conjuntos e X esto, cada um deles, em todos os A ,

logo, , X F, portanto a) na denio 5.1 verdadeiro.
Se A F , ento para todo xo, temos que A A . Logo, como A
uma -lgebra, ento Ac = X A A , para todo assim Ac F. Isto
mostra b).
i i
i i
i i

i i
5.1 Introduo 389
Para provar c), considere uma seqncia de conjuntos An F com n N,

ento para cada n, temos que An A , para todo . Logo, como A uma
-lgebra, n An A , para , e assim segue que n An F .
Denio 5.4. Seja C p(X), uma coleo de subconjuntos de X (no nec-
essariamente uma -lgebra). A a coleo de todas as -lgebras que

Seja
contm a coleo de conjuntos C. A -lgebra F gerada por C a interseo
de todas as -lgebras A contendo a coleo C . Denotamos por (C) esta
interseo.
Como C est contido em p(X), sempre existe uma -lgebra contendo C .

Sendo assim o conceito acima sempre faz sentido.
Esta -lgebra (C) a menor -lgebra que contm o conjunto C . Em
outras palavras, se G uma -lgebra e contm C , ento (C) G .
Denio 5.5. Seja X = Rn , ento a -lgebra de Borel aquela gerada

pelas bolas abertas de R , isto , a -lgebra gerada pelos conjuntos da forma
n
B(x, r) = {y Rn | x y < r}, onde x Rn e r > 0. Existem subconjuntos

A Rn que no esto na -lgebra de Borel de Rn (ver [Fe] ou [Ba]). Ou
n
seja, a -lgebra de Borel no o conjunto p(R ).
Usaremos a notao Rn para a -lgebra de Borel em Rn .

A nica -lgebra que iremos considerar sobre R ou sobre Rn a -lgebra
de Borel.
No caso de X = R, pode-se mostrar que a -lgebra de Borel tambm pode
ser obtida como a -lgebra gerada por todos os intervalos da reta da forma
(a, ), com a real (ver [F], [Fe]).
Alternativamente, pode-se mostrar tambm que a -lgebra de Borel sobre
R pode ser obtida como a -lgebra gerada por todos os intervalos da reta da
forma (a, b), com a, b reais e a < b (ver [Fe]).
i i
i i
i i

i i
Ainda, pode-se mostrar tambm que a -lgebra de Borel sobre Rn pode

ser obtida como a -lgebra gerada por todos os produtos de intervalos da
forma (a1 , b1 ) (a2 , b2 ) ... (an , bn )), com ai < bi reais, e i = 1, 2, ..., n (ver
[Fe]).
Seja X um espao mtrico com mtrica d. A bola aberta de centro x X
e raio o conjunto B(x, ) = {y x | d(x, y) < }.
Um subconjunto A X dito um conjunto aberto se para qualquer x A
existe tal que B(x, ) A.
Neste caso a -lgebra de Borel aquela gerada pelos conjuntos abertos de
X.
Ainda, dado um subconjunto xo X Rn , a nica -lgebra que iremos

considerar sobre tal conjunto X a -lgebra
F = {A X | A um elemento da -lgebra de Borel de Rn }.
Esta -lgebra denominada de -lgebra induzida em X pela -lgebra de

Borel.
Dado um subconjunto B de Rn , usaremos tambm a notao Rn para a
-lgebra de Borel induzida em B pela -lgebra de Borel em Rn .
Desta forma, R denotar tanto a -lgebra de Borel em R como a -lgebra
de Borel induzida em [0, 1]. Acreditamos que isto no causar confuso ao
leitor.
Considere um Processo Markoviano Xt , t N, tomando valores em S =
{1, 2, ..., d}. Seja C o conjunto de todos os cilindros de todos os possveis taman-
hos (nitos) n N. O principal objeto de estudo deste texto a -lgebra
(C).
Denio 5.6. Uma lei que associa nmeros no negativos em R {+}

aos subconjuntos B em uma -lgebra F (isto , (B) 0) chamada de uma
medida se satisfaz a propriedade:
i i
i i
i i

i i
5.1 Introduo 391
a) () = 0,
b) Para qualquer coleo En , n N, de conjuntos em F tais que En Em =

com m = n, ento vale que (n=1 En ) = n=1 (En ).
Se (X) = 1 dizemos que uma probabilidade.
Um medida com sinal uma lei que associa nmeros em R{+}{}

(aos subconjuntos B em uma -lgebra F ) que satisfaz as propriedades a) e
b) (mas no se exige que (B) 0). O conjunto das medidas com sinal um
espao vetorial para a estrutura natural de soma e multiplicao por escalar.
Note que o conjunto das medidas no um espao vetorial.
A partir de agora vamos considerar prioritariamente medidas que so

probabilidades.
Exemplo 5.1. Se X = {a1 , a2 , ..., an } nito e F a -lgebra das partes

de X , ento escolhendo nmeros pj 0, j {1, 2, ..., n} tal que nj=1 pn = 1,
podemos denir (B) como a soma dos pj tal que aj B . fcil ver que tal
uma probabilidade sobre a -lgebra das partes de X .
Exemplo 5.2. Seja X um conjunto qualquer e seja F = p(X). Fixado um

ponto x de X , podemos denir de forma que (B) = 1 se x B e (B) = 0
se x no est em B . fcil ver tal dene uma probabilidade sobre X .
Denominamos tal probabilidade de delta-Dirac em X e denotamos = x .
Observamos que se medida e A B , ento (A) (B). Isto porque
(B) = ( (B Ac ) A ) = (B Ac ) + (A) (A).
i i
i i
i i

i i
Considere um Processo Markoviano Xt , t N, tomando valores em S =

{1, 2, ..., d}. Seja C o conjunto de todos os cilindros de todos os possveis taman-
hos (nitos) n N. O principal objeto de estudo deste texto a probabilidade
P que se obtem de forma natural em (C).
Denio 5.7. Fixada uma medida (ou probabilidade) sobre uma -lgebra
A em um certo conjunto X , dizemos que uma determinada propriedade vlida
-quase toda parte, se existe um conjunto A-mensurvel K , com (K) = 0,
tal que a propriedade vlida para todos os pontos x em X K .
O principal objetivo da Teoria das Probabilidades fazer armaes que

so vlidas P -quase toda parte para uma probabilidade P .
Denio 5.8. Ns denominamos de uma lgebra sobre X uma coleo F

p(X) de subconjuntos de X, tal que F satisfaz as seguintes propriedades:
a) Se B e A esto em F, ento BA tambm pertence a F,

b) X F.
c) Se (An )n{1,2,...,r} uma coleo de conjuntos de F, ento a unio nita
n{1,2,...,r} An tambm um elemento de F .
Qualquer -lgebra uma lgebra.
Exemplo 5.3. Um exemplo de lgebra sobre X = [0, 1] R a a coleo F

das unies nitas
n{1,2,...,r} In ,
onde r N, e In so intervalos In contidos em [0, 1] R. Os intervalos In

podem ser da forma (an , bn ) , [an , bn ), (an , bn ] ou [an , bn ] (onde an < bn so
nmeros reais).
i i
i i
i i

i i
5.1 Introduo 393
Exemplo 5.4. Um exemplo que ter grande importncia no que segue o

seguinte: considere S um conjunto enumervel e X = S N . Quando X = S N ,
consideramos na introduo os conjuntos cilindros C (com nitas restries
temporais), ou seja os conjuntos da forma
C = { w = S N tais que Xt1 (w) = a1 , Xt2 (w) = a2 , ..., Xtn (w) = an } =
= {w | w = (w1 , w2 , ..., wn , wn+1 , wn+2 , ...), wti = ai , i {1, 2, ..., n}},

onde n N, t1 < t2 < ... < tn N, a1 , a2 , ..., an S .
Acima j estamos fazendo a simplicao cannica (descrita na seo 0) de
modo que Xt tal que Xt (w) = wt .
Quando ti = i, i {1, 2, ..., n}, ento se denota
C = a1 , a2 , ..., an .
Vamos considerar a seguir C o conjunto de todos os cilindros C de todos os

tamanhos n.
Vamos estender um pouco mais o conceito de cilindro.
Denio 5.9. Seja k nito xo, um cilindro de ordem k um subconjunto

N
C de S tal que exista BS k
tal que
C = { S N | (X1 (), X2 (), ..., Xk ()) B} =
{ = (w1 , w2 , .., wk , ...) S N | (w1 , w2 , ..., wk ) B}.

Denotamos por Fk a sigma algebra gerada pelos cilindros de ordem k.
Por exemplo se S = {1, 2}, = {1, 2}N , os cilindros de ordem 3 so
1, 1, 1, 1, 1, 2, 1, 2, 1, 1, 2, 2, 2, 1, 1, 2, 1, 2, 2, 2, 1, 2, 2, 2.
i i
i i
i i

i i
A sigma algebra F3 a gerada por tais cilindros. Ela descreve a "infor-

mao"que obtemos a partir de X1 , X2 , X3 . Ou seja, se 1 e 2 esto associados
a cara e coroa, a sigma-algebra F3 a informao do jogo denido por lanar
a moeda trs vezes.
A sigma-algebra F3 a coleo de todas as unies nitas de cilindros da
forma a1 , a2 , a3 , a1 , a2 , a3 {1, 2}.
Da mesma forma, a sigma-algebra Fk sobre = S N , a coleo de todas
as unies nitas de cilindros da forma a1 , a2 , a3 , ..., ak , a1 , a2 , a3 , ..., ak S .
Note que em geral (quando a sigma algebra no gerada por uma coleo
nita) no verdade que a sigma algebra gerada seja constituida apenas por
unies nitas (ou, mesmo enumerveis) dos geradores.
O conceito de cilindro anteriormente considerado est contemplado na ver-
so acima, por exemplo,
C = {X1 () = a1 , X3 () = a3 } = {X1 () = a1 , X2 () S, X3 () = a3 },
onde a1 , a3 S . Ou seja, neste caso o cilindro tem rank 3 (depende de trs

coordenadas) e B pode ser tomado como B = {a1 } S {a2 }, e assim
C = {X1 () = a1 , X3 () = a3 } =
{(X1 (), X2 (), X3 ()) B}.

Naturalmente, existem algumas ambiguidades, por exemplo, podemos tomar

B = {a1 } S {a2 } S e obteramos da mesma forma
C = {X1 () = a1 , X3 () = a3 } =
{(X1 (), X2 (), X3 (), X4 ()) B }.

Neste caso poderamos tambm dizer que C tem rank 4.
Vamos denotar no que segue por C , o conjunto de todos cilindros C com
todos os ranks possveis, ou seja, k N, conforme a ltima denio. Note que
i i
i i
i i

i i
5.1 Introduo 395
o conjunto X = S N est em C , bastando tomar para isto k qualquer e B = S k

na notao acima. Se B = ento o resultante cilindro C = .
Sejam C1 e C2 dois cilindros de rank k , dados respectivamente por
C1 = { S N | (X1 (), X2 (), ..., Xk ()) B}
e
C2 = { S N | (X1 (), X2 (), ..., Xk ()) B },
onde B, B S k .
fcil ver que
C1 C2 = { S N | (X1 (), X2 (), ..., Xk ()) B B }.
Da mesma forma,
C1 C2 = { S N | (X1 (), X2 (), ..., Xk ()) B B }.
Estamos muito prximos de mostrar que C de fato uma lgebra. Considere

agora C1 um cilindro de rank k e C2 um cilindro de rank m. Sem perda de
generalidade suponha que k m
Podemos considerar que C2 tambm de rank k , basta substituir o corre-
spondente B por B = B S km .
Aplicando o que foi dito acima conclumos que, neste caso, tambm vale
que C1 C2 e tambm C1 C2 so cilindros.
Podemos passar por induo a somas do tipo C1 C2 C3 e assim por diante.
Logo, as unies nitas de cilindros so cilindros. Ficam assim comprovados os
itens a), b) e c) da denio 5. 8 de lgebra para a coleo dos cilindros C.
Vamos denominar de C a lgebra dos cilindros de S N . A principal -lgebra
F sobre X = S N que iremos considerar aqui F = (C).
Para evitar tecnicalidades desnecessrias, neste texto, vamos formalizar
matematicamente apenas o caso X = S N ou X = S Z , e onde S nito ou
enumervel (ver [EK] para a anlise do caso X = S R ).
+
i i
i i
i i

i i
Denio 5.10. Uma lei que associa a cada subconjunto B em uma lgebra
F (sobre um conjunto X) um nmero no negativo em R, (isto , (B) 0)

chamada de uma lei aditiva se satisfaz a propriedade:
Bn , n {1, 2, 3, ..., k}, com k N, de conjuntos em

para qualquer coleo
F tais que Bn Bm = com m = n, sabemos que kn=1 Bn F , e assumimos

k
k
que vale (n=1 Bn ) = n=1 (Bn ).
Denio 5.11. Uma lei que associa a cada subconjunto B em uma lgebra
F (sobre um conjunto X ) um nmero no negativo em R, (isto , (B) 0)

chamada de uma lei -aditiva se satisfaz a propriedade:
para qualquer coleo Bn , n N, de conjuntos em F tais que Bn Bm =

com m = n, se n=1 Bn F , ento vale que (n=1 Bn ) = n=1 (Bn ).
Note que, em geral, se En est na lgebra F , nem sempre n=1 En est

em F . Lembre que F fechado apenas para unies nitas de elementos En .
Acima, armamos que se n=1 En F , ento vale algo.
Observamos que, em princpio, nem toda a lei -aditiva , tal que (X) = 1,
uma probabilidade, pois a primeira est denida sobre lgebras e a segunda
sobre -lgebras.
Note que na denio 5.11 acima, se no existir elemento na lgebra F
que possa ser escrito como unio innita de elementos da lgebra, ento est
satisfeita a hiptese por vacuidade. Ou seja, vale a lei -aditiva.
usual a denominao de propriedade aditiva a relativa a validade de

k
(kn=1 Bn ) = (Bn ),
n=1
e de propriedade -aditiva relativa a validade

(
n=1 Bn ) = (Bn ),
n=1
ou seja, a relativa a soma de innitos elementos.
i i
i i
i i

i i
5.1 Introduo 397
Exemplo 5.5. O exemplo mais simples de lei aditiva sobre a lgebra das
unies nitas dos intervalos I contidos em X = [0, 1] R, onde
([a, b]) = b a = comprimento de [a, b]

r
e onde (n{1,2,...,r} In ) = n=1 comprimento de (In ), r N , quando os
intervalos In acima so disjuntos. Referimos o leitor a [Fe] para a prova de tal
armao.
Note que (0, 12 ] = n2 ( n+1
1
, n1 ].
Exemplo 5.6. Um exemplo de lei aditiva sobre a lgebra das unies nitas
dos intervalos nitos I contidos em X = R a seguinte: dena
([a, b]) = b a = comprimento de [a, b],

e (n{1,2,...,r} In ) = rn=1 comprimento de (In ), r N , quando os intervalos
In acima so disjuntos. Referimos o leitor a [Fe] para a prova de tal armao.
Denio 5.12. Dizemos que uma lei aditiva (ou -aditiva) sobre uma
F -nita se existe uma coleo enumervel de conjuntos mensurveis

lgebra
En F, n N, tal que X = nN En e (En ) < .
O tpico exemplo a reta real (munida da algebra das unies nitas de

intervalos) que pode ser expressa como unio de intervalos da forma En =
[n, n], n N, em que cada En tal que (En ) = 2 n < .
No caso da medida do espao X ser igual a um (o caso de interesse aqui)
ento vale a -nitude, claro.
i i
i i
i i

i i
Teorema 5.2 (Teorema da Extenso de Caratheodori-Kolmogorov).

Dada uma lei -aditiva em X sobre uma lgebra -nita F p(X), tal
que (X) = 1, existe um e apenas um meio de denir uma medida sobre
A = (F), a - lgebra gerada por F , tal que (B) e (B) coincidem sobre
todo B F . Se (X) = 1 ento uma probabilidade.
(Ver [Fe] para a demonstrao).

Chamamos a probabilidade de extenso da pr-probabilidade sobre a
-lgebra A gerada pela lgebra F .
O teorema anlogo considerando uma lei -aditiva -nita e resultando
assim um uma nica medida com sua extenso tambm verdadeiro.
Em resumo, o teorema acima permite denir uma probabilidade agindo
em subconjuntos complicados" do espao X a partir da informao dada por
uma lei -aditiva agindo em subconjuntos de X com natureza mais simples".
Esta extenso nica no sentido acima.
O Observao 1 apresentada na introduo do livro e o exemplo analisado
antes do Teorema 3.9 mostra a necessidade e a importncia de se calcular a
probabilidade de conjuntos que no so cilindros. Note que esta informao
(sobre conjuntos no cilindros) depende, de qualquer forma, da "probabili-
dade" que provem dos cilindros.
O teorema acima extremamente geral e a nica restrio na sua aplicao
(a um dado exemplo especco) aparece ao se tentar mostrar a propriedade
da -aditividade na lgebra, o que muitas vez no to fcil. Felizmente, nos
exemplos em que estamos prioritariamente interessados aqui, ou seja S N , este
problema pode ser contornado como veremos em breve.
Exemplo 5.7. A medida usualmente considerada sobre a -lgebra de Borel

em R (a -lgebra gerada pelos subintervalos da forma (a, b) de R) a extenso
da pr-medida que denida como ( [a, b] ) = b a = comprimento de
(a, b) R. Ns chamamos tal medida de Lebesgue sobre R e denotamos ela
i i
i i
i i

i i
5.1 Introduo 399
por dx ou d e guardamos a expresso (A) para o conjunto de Borel A contido

em R.
O conjunto com um nico elemento {p}, onde p um ponto em R, um
conjunto da -lgebra de Borel (mencionada no ltimo pargrafo), ou seja,
{p} um conjunto mensurvel Borel. Isto porque,
{p} = nN (p 1/n, p + 1/n).
Note que a medida de Lebesgue do conjunto {p} neste caso zero. Desta
forma ( {p} ) = 0.
Isto porque: ( (p 1/n, p + 1/n) ) = 2/n, para todo n N.
Note que nem sempre a medida de um conjunto da forma {p} nula (para
uma probabilidade em geral).
Segue ento da denio de medida (ou probabilidade) que qualquer con-
junto A com um nmero enumervel de elementos tem medida de Lebesgue
zero.
Segue tambm do fato que ({a}) = 0, ({b}) = 0 que vale
( (a, b) ) = ( [a, b] ).
A -lgebra de Borel B sobre R, denotada por R, no igual a coleo das

partes de R (ver [Fe], Cor. 2.5.1).
Exemplo 5.8. Associado a um processo estocstico Xn , n N, tomando

valores em S , podemos considerar a sigma algebra F sobre = S N , gerada
pela unio de todos cilindros de tamanho k (conforme denimos antes). Esta
sigma algebra a mais importante que vamos considerar.
Considere xada uma certa lei P (obtida de maneira natural, como nos
exemplos descritos na seo 0 para processos independentes ou markovianos)
i i
i i
i i

i i
que associa nmeros reais (no negativos) a cilindros em S N . Desempenhar

um papel muito importante aqui esta lei P que inicialmente sabemos ser apenas
aditiva sobre a lgebra C dos cilindros de S N . Tal lei ser denominada de lei
N
aditiva P agindo sobre a lgebra C dos cilindros de S . Um fato fundamental
ser mostrar (ver Teorema 4.5) que, de fato, vale a -aditividade da lei P em

C , ou seja que, se
n=1 En C , ento vale que (n=1 En ) = n=1 (En ).
Assim pelo Teorema de Caratheodori-Kolmogorov obteremos uma proba-
bildiade sobre F . Por exemplo, uma matriz estocstica P e uma prob-
abilidade inicial permitem denir a probabilidade dos cilindros
a1 , a2 , ..., ak , para todo k . Desta forma o Teorema de Caratheodori-
Kolomogorov nos permite falar da probabilidade de conjuntos quais-
quer na sigma algebra F gerada pelos cilindros. Esta sigma-algebra
ser chamada de sigma-algebra de Borel sobre S N.

Como veremos em breve a necessidade de se poder atribuir probabilidade
a conjuntos que no so cilindros ser de importncia fundamental. Isto car
claro quando enunciarmos o Teorema Ergdico.
Considere, por exemplo, S = {1, 2, ..., d}, uma matriz estocstica P
do tipo d por d e um vetor de probabilidade incial Rd . Ficam as-
sim denidas as probabilidades dos cilindros a1 , a2 , ..., ak de tamanho k
e por extenso uma probabilidade P sobre a sigma algebra F gerada
pelos cilindros. Denotamos por Xn , n N, Xn : ({1, 2, ..., d}N , F, P )
(S, p(S)) o processo estocstico Markoviano associado. Mais precisa-
mente X(w) = X(w1 , w2 , w3 , ..., wn , ...) = wn .
Lembre que o shift age em = S N da seguinte forma (x1 , x2 , x3 , ..) =

(x2 , x3 , ..).
Dizemos que um probabilidade sobre invariante para o shift :
se para qualquer A mensurvel Borel vale que (A) = ( 1 (A)).
i i
i i
i i

i i
5.1 Introduo 401
Mais geralmente uma probabilidade sobre X invariante para T :

(, F) (, F) se para qualquer A F mensurvel Borel vale que (A) =
(T 1 (A)).
Para que seja invariante para o shift basta mostrar que para conjuntos A
que so unies nitas de cilindros (a algebra que gera a sigma-algebra) vale que
(A) = (T 1 (A)). Isto segue do fato que a probabilidade e a probabilidade
tal que (A) = T 1 (A) coincidem na algebra conjuntos A que so unies
nitas de cilindros.
Denio 5.13. Como vimos antes, dado um subconjunto H de X e uma

-lgebra F em X podemos associar uma outra -lgebra G = FH induzida
em H , como aquela obtida tomando a interseo de todos os conjuntos da
-lgebra F com H .
Denio 5.14. Se H tambm F -mensurvel e xamos uma medida (ou
probabilidade) denida em F podemos considerar a medida induzida em G ,

denotada por = H denida por (B) = (B) para B = H A G , onde
A A. fcil ver que tal de fato uma medida. Se (H) < , ento
denida por
(B)
(B) = ,
(H)
para B G , dene uma probabilidade sobre G . Esta probabilidade ser denom-
inada de probabilidade induzida por sobre H .
Quando consideramos a -lgebra de Borel em [0, 1] e a medida de Lebesgue

induzida em [0, 1], estamos nos referindo ao que descrevemos acima.
Denio 5.15. Vamos denotar por (X, F) um conjunto geral X munido de
uma -lgebra F xada. Este par ser denominado de um Espao Mensurvel.
Denio 5.16. Vamos denotar por (X, F, P ) um conjunto geral X munido
de uma -lgebra F xada e tambm uma probabilidade P xada. Chamaremos
esta tripla de Espao de Probabilidade.
i i
i i
i i

i i
Denio 5.17. Seja o espao mensurvel (, F). Uma classe de conjuntos
B F denominada de um sistema- se pra qualquer A, B B vale que
A B B.
Teorema 5.3. Considere duas probabilidades P1 e P2 sobre (, F), e uma
classe de conjuntos BF que seja um sistema- . Suponha que para qualquer
elemento BB vale que
P1 (B) = P2 (B),
ento, para qualquer elemento B (B) vale que
P1 (B) = P2 (B).
A demonstrao deste teorema pode ser encontrada em [B] seo 3. O

resultado em si muito til, mas o conhecimento da sua prova no de fun-
damental importncia para o que segue. No vamos usar tal teorema nesta
seo mas sim na prxima.
Quando consideramos um Processo Estocstico Xn , n N, com valores

num conjunto enumervel S , natural, como vimos antes, que a correspondente
lei P seja denida a partir das distribuies nito-dimensionais (ou dito, de
outra forma, sobre os cilindros). Aps algumas consideraes e resultados que
seguem, utilizando basicamente o Teorema de Caratheodori-Kolmogorov, tal
P se estender a uma probabilidade sobre -lgebra de Borel F = (C) gerada
pelos cilindros C sobre = S N . Para simplicar, quando no ocorrer confuso,
denotaremos tambm por P tal probabilidade.
Como se pode assegurar que uma dada lei aditiva numa algebra na ver-
dade sigma-aditiva? Isto necessrio para utilizar o teorema de extenso
sigma-algebra gerada.
Para nos auxiliar na anlise da questo acima, necessitamos dos seguintes
resultados:
i i
i i
i i

i i
5.1 Introduo 403
Teorema 5.4. Suponha que seja uma lei aditiva em uma lgebra F (sobre
um conjunto X) e que vale a propriedade:
para toda seqncia Cn , n N de conjuntos em F tal que Cn+1 Cn para
todo n, se = nN Cn , ento limn (Cn ) = 0.

Ento -aditiva sobre a lgebra F.
Demonstrao: Temos que mostrar que vale a -aditividade. Seja uma coleo
Bn , n N, de conjuntos em F tais que Bn Bm = com m = n, e suponha
que n=1 Bn = A F .
Seja, Cn = A j<n Bj , ento Cn est em F e Cn satisfaz a propriedade
descrita acima (na hiptese do presente teorema).
Logo, (Cn ) 0, quando n .
Note que para todo n xo vale A = Cn (j<n Bj ), logo

(A) = (Cn ) + (Bj ),
j<n
pois Cn disjunto de j<n Bj .

Tomando limite, quando n vai a innito, na expresso acima mostramos
que

(A) = (Bj ).
jN
Desejamos utilizar o resultado acima quando a lgebra F a das unies

nitas de cilindros.
O resultado acima nos d um critrio muito til que nos permite obter a
propriedade da -aditividade sobre uma lgebra, requisito para se aplicar o
Teorema de Caratheodori-Kolmogorov.
N
| {z } {(11111111111111...)}, em {1, 2} , tal que Cn
Note que Cn = 111...11
n
decresce ao , quando n . Esta propriedade explica de maneira apropriada
i i
i i
i i

i i
a questo brevemente discutida na seo inicial sobre o caso em que se lana

sucessivamente uma moeda honesta e associamos 1 cara e 2 coroa. Sair
apenas cara sucessivamente innitas vezes um evento que tem probabilidade
zero.
Teorema 5.5. Seja S nito, C a lgebra dos cilindros em SN e uma lei
nitamente aditiva sobre C. Ento -aditiva sobre C.
Antes de demonstrar tal proposio necessitamos do seguinte lema.
Lema 5.1. Seja S nito. Suponha que An , n N, seja uma seqncia decres-
cente de unies nitas de cilindros (no vazios) em S N, tais que nN An = A.

Ento A no vazio.
Demonstrao: Este resultado pode ser obtido do seguinte resultado geral bem
conhecido em espaos mtricos: Uma sequencia decrescente de compactos no
vazios tal que a interceo innita deles um conjunto no vazio (ver [Li3]).
De fato, = S N compacto e cada cilindro um conjunto fechado (assim
compacto). Ainda, a unio nita de compactos compacto. Logo, a unio
nita de cilindros um conjunto compacto.
Para o leitor que no conhece este resultado vamos apresentar abaixo uma
prova ao caso particular que tratamos aqui.
A demonstrao na se altera se consideramos que An , n N, uma seqn-
cia decrescente cilindros e no uma seqncia decrescente de unies nitas de
cilindros
Vamos denotar, sem perda de generalidade, o cilindro An por
An = {X1 V1n , X2 V2n , ..., Xtn Vtnn }
com tn N, e Vjn S.
Note que como por hiptese An+1 An , temos que para todo n xo vale
que tn tn+1 , e Vjn+1 Vjn .
i i
i i
i i

i i
5.1 Introduo 405
Observe que (como cada cilindro no vazio) tn converge a innito quando

n , seno o resultado seria trivial, ou seja A = .
Escolha um elemento n em cada An . Denotamos
n = (w1n , w2n , w3n , ..., wm

n
, ...)
para n xo em N. Logo, wjn Vjn para j tn

Considere agora a seqncia w1n , n N, de elementos em S . Como S
nito existe um elemento s1 tal que existem innitos ndices n N tais que
w1n = s1 . Denote em ordem crescente estes tais ndices n atravs de nk1 , com
k N. Observe que por construo nk1 k .
nk nk nk
Considere agora os elementos n1 = (w1 1 , w2 1 , w3 1 , ...), k N, e os corre-
k
nk
spondentes w2 1 com k N. Como S nito existe um elemento s2 tal que
nk
existem innitos ndices k N tais que w2 1 = s2 . Denote em ordem crescente
nr
estes ndices nk1 atravs de nr2 , com r N. Logo, w2 2 = s2 . Note que por
construo nr2 r.
r
O procedimento agora se repete: considere agora os elementos n2 =
nr nr nr nr
(w1 2 , w2 2 , w3 2 , ...), r N, e os correspondentes w3 2 com r N. Como S
nv
nito existe um elemento s3 e uma seqncia nv3 com v N, tal que w3 3 = s3
e os nv3 so obtidos do conjunto dos nr2 .
Note que
r r
X1 ( n2 ) = s1 , X2 ( n2 ) = s2 ,
para todo r N. Ainda,
v v v
X1 ( n3 ) = s1 , X2 ( n3 ) = s2 , X3 ( n3 ) = s3
para todo v N.
Dito de outra forma
nr nr
w1 2 = s1 , w2 2 = s2 ,
para todo r N. Ainda,
nv nv nv
w1 3 = s1 , w2 3 = s2 , w3 3 = s3
i i
i i
i i

i i
para todo v N.
Em particular,
n3 n3 n3
w1 3 = s1 , w2 3 = s2 , w3 3 = s3 .
Desta forma, procedendo de forma indutiva, obtemos uma seqncia de

elementos sb S para todo b N, e uma famlia de ndices nju com j, u N,
j
tal que wbnu = sb para todo b u, com u N. Pela mesma razo como acima
vale que nju j .
Considere agora = (s1 , s2 , s3 , ...). Armamos que mN Am . De fato,
xando m vamos mostrar que est em Am . Escolha u tal que u > tm e u > m.
nu nu nu
Note que como nuu u, temos que (s1 , s2 , ..., stm ) = (w1 u , w2 u , ..., wtmu ). De fato,
{nju , j N} est contido no conjunto {nk1 , k N}, e no conjunto {nr2 , r N},
e assim por diante at u 1.
nu
Assim, como Vj u
Vjm , ento
X1 () = s1 V1m , X2 () = s2 V2m , ..., Xtm () = stm Vtm

m
,
para todo v N.
Agora que demonstramos o lema vamos demonstrar o Teorema 5.5

Demonstrao: A idia mostrar agora que dada uma seqncia Cn , n N
de conjuntos cilindros em C , a lgebra gerada pelos cilindros em S N , tal que
Cn+1 Cn para todo n, se = nN Cn , ento limn (Cn ) = 0.
O ltimo teorema seguir ento do penltimo.
A demonstrao por contradio. Considere uma seqncia decrescente
de conjuntos Cn , tal que existe a > 0 satisfazendo (Cn ) a. Logo, cada Cn
no vazio. Ento, pelo Lema acima, A = nN Cn no vazio.
A partir do resultado acima, uma grande classe de probabilidades ( -

aditivas, naturalmente) cam denidas na -lgebra gerada por C (os cilindros
i i
i i
i i

i i
5.1 Introduo 407
de S N ), a partir de leis nitamente aditivas sobre C . Entre estes se encon-

tram os processos independentes, os Markovianos, etc... Em geral no difcil
mostrar a aditividade nita sobre C . Vamos mostrar alguns exemplos agora.
O primeiro exemplo que vamos considerar a construo de processos in-
dependentes (e identicamente distribudos).
Suponha S nito com n elementos (o caso de S innito similar) e p1 , p2 , ..., pn ,
nmeros reais tais que 0 pi 1 e que satisfazem
p1 + p2 + ... + pn = 1.
Dado um cilindro C da forma
C = { | (X1 (), X2 (), ..., Xm ()) = (a1 , a2 , ..., am )},
onde a1 , a2 , ..., am S esto xados, denimos
P (C) = pa1 pa2 ...pam .
O cilindro geral de rank m pode ser escrito como
C = { | (X1 (), X2 (), ..., Xm ()) B},
onde B S m .
Neste caso denimos

P (C) = pa1 pa2 ...pam .
(a1 ,a2 ,...,am )B
Novamente, algumas ambiguidades podem aparecer, e isto, em princpio,

poderia tornar esta P no bem denida. Armamos, no entanto, que a P est
bem denida. De fato, suponha que C possa tambm ser denida por
C = { | (X1 (), X2 (), ..., Xk ()) B },
i i
i i
i i

i i
onde B S k .
Sem perda de generalidade suponha que k > m. Logo, B = B S km .
Logo,

P (C) = pa1 pa2 ...pak =
(a1 ,a2 ,...,ak )B

pa1 pa2 ...pam pam+1 pam+2 ...pak =
(a1 ,a2 ,...,am )B (am+1 ,am+2 ,...,ak )S km

pa1 pa2 ...pam pam+2 ...pak =
(a1 ,a2 ,...,am )B (am+2 ,...,ak )S km1

pa1 pa2 ...pam .
(a1 ,a2 ,...,am )B
Assim, P est bem denida. Armamos que aditiva.

De fato, dados dois cilindros C1 e C2 , C1 C2 = , podemos supor sem perda
de generalidade que eles tem o mesmo rank m e so dados respectivamente por
C1 = { | (X1 (), X2 (), ..., Xm ()) B},
C2 = { | (X1 (), X2 (), ..., Xm ()) B },
onde B, B S m .
Logo,

P (C1 C2 ) = pa1 pa2 ...pam =
(a1 ,a2 ,...,am )BB

pa1 pa2 ...pam + pa1 pa2 ...pam =
(a1 ,a2 ,...,am )B (a1 ,a2 ,...,am )B
P (C1 ) + P (C2 ).
Por induo vale a aditividade nita na lgebra C . Podemos agora usar os

Teoremas 5.3, 5.4 e 5.5 para concluir que a lei aditiva P acima denida tem
uma extenso nica -lgebra (C).
i i
i i
i i

i i
5.1 Introduo 409
Esta probabilidade P sobre a -lgebra (C) denida sobre subconjuntos de

N
S o que entendemos por Processo Estocstico Independente obtido a partir
de p1 , p2 , ..., pn como acima. Algumas vezes denominado de Probabilidade de
Bernouli associada a p1 , p2 , ..., pn .
Neste caso, temos as seguintes verses da mesma informao
P ({ | (X1 (), X2 (), ..., Xm ()) = (a1 , a2 , ..., am )}) =
P (X1 () = a1 , X2 () = a2 , ..., Xm () = am ) =
P ({a1 } {a2 } ... {am } S N ) =
pa1 pa2 ...pam .
Fica assim denido sobre S N o conceito de Processo Independente e iden-

ticamente distribudo.
O conceito de Processo Independente (mas no identicamente distribudo)
pode ser entendido da seguinte forma.
Seja S nito com n elementos (o caso de S innito similar) e para cada
t N xo, considere pt1 , pt2 , ..., ptn , nmeros reais tais que, 0 pti 1, e que
satisfazem
pt1 + pt2 + .. + ptn = 1.
Dado um cilindro C da forma
C = { | (X1 (), X2 (), ..., Xm ()) = (a1 , a2 , ..., am )},
onde a1 , a2 , ..., am S esto xados, denimos
P (C) = p1a1 p2a2 ...pm

am .
O cilindro geral de rank m pode ser escrito como
C = { | (X1 (), X2 (), ..., Xm ()) B},
i i
i i
i i

i i
onde B S m .
Neste caso denimos

P (C) = p1a1 p2a2 ...pm
am .
(a1 ,a2 ,...,am )B
Tal P est bem denida e pode ser estendida -lgebra (C) gerada pelos
cilindros de maneira nica.
O caso anterior um caso particular deste.
Note que em ambos os casos
P (Xt1 () = a1 , Xt2 () = a2 , ..., Xtm () = am ) =
P (Xt1 () = a1 ) P (Xt2 () = a2 )...P (Xtm () = am ).

No caso de processo independente e identicamente distribudo temos ainda
que
P (Xt1 () = a1 , Xt2 () = a2 , ..., Xtm () = am ) =
P (X1 () = a1 ) P (X1 () = a2 )...P (X1 () = am ).
Note que o processo independente e identicamente distribudo estacionrio,
mas o caso apenas independente no, pois, por exemplo, podemos ter que
P (X1 = a1 ) = P (X2 = a1 ).
No caso de Processos de Markov podemos proceder de forma semelhante.

Considere um vetor de probabilidade sobre S dado por = (i )iS e uma
matriz estocstica P = (Pij )i,jS .
Sobre a lgebra dos cilindros, dena primeiro P para C C da forma
C = {X1 () = a1 , X2 () = a2 , ..., Xm () = am }, ai S, i {1, 2, 3, .., m},
como
P (C) = a1 Pa1 a2 Pa2 a3 ...Pam2 am1 Pam1 am .
i i
i i
i i

i i
5.1 Introduo 411
Finalmente, para o cilindro geral de rank m
C = { | (X1 (), X2 (), ..., Xm ()) B},
onde B S m , denimos

P (C) = a1 Pa1 a2 Pa2 a3 ...Pam2 am1 Pam1 am .
(a1 ,a2 ,...,am )B
Dados dois cilindros que no se interceptam C1 e C2 denimos P (C1 C2 )

como P (C1 ) + P (C2 ).
Pode-se mostrar via Teorema 5.5, da mesma forma como no caso anterior,
que tal lei aditiva P (sobre o conjunto das unies nitas de cilindros disjuntos)
est bem denida e que -aditiva sobre a lgebra C . Sendo assim podemos
estender de maneira nica P a uma probabilidade sobre a -lgebra gerada
pelos cilindros.
Este procedimento descreve Processos Estocstico Markovianos Xn , n N
tomando valores em S = {1, 2, ..., d}. Em resumo dado uma matriz estocastica
P , com entradas Pi j , e um vetor inicial de probabilidade (que no precisa
ser invariante para P ) obtemos uma probabilidade na sigma algebra de Borel
em {1, 2, ..., d}N
P (X1 () = a1 , X2 () = a2 , ..., Xm () = am ) =
a1 Pa1 a2 Pa2 a3 ...Pam2 am1 Pam1 am .

O processo Xn , n N, um processo estacionrio se P = .
Lembre que o shift agindo em {1, 2, ..., d}N no bijetivo.
Por denio o shift age em {1, 2, ..., d}Z da seguinte forma: se
w = (...x3 , x2 , x1 | x1 , x2 , x3 , ..)
ento
(w) = (...x3 , x2 , x1 , x1 | x2 , x3 , ..).
i i
i i
i i

i i
Esta aplicao shift agindo em {1, 2, ..., d}Z por sua vez bijetiva.
Como exemplo observamos que
(X2 () = a2 , X1 () = a1 , X1 () = a1 , X2 () = a2 , X3 () = a3 ) =
(X3 () = a2 , X2 () = a1 , X1 () = a1 , X1 () = a2 , X2 () = a3 ).
Podemos denir um Processo Estocstico Markoviano Xn , n Z, tomando
valores em S = {1, 2, ..., d} da seguinte forma: seja P uma matriz estocastica,
com entradas Pi j , e tal que P = , ento
P (Xn () = an , Xn+1 () = an+1 , ..., X1 () = a1 , ..., Xm () = am ) =
an Pan an+1 ... Pa1 a2 ...Pam2 am1 Pam1 am .

Esta lei aditiva P pode ser extendida a uma probabilidade sobre a sigma
algebra gerada pelos cilindros em S Z .
O shift age em S Z da seguinte forma
(..., x2 , x1 | x1 , x2 , ..) = (..., x2 , x1 , x1 | x2 , x3 ..).
O processo Xn , n Z, assim obtido estacionrio (a medida P sobre S Z

invariante pelo shift em S Z ).
Neste caso para se ter uma probabilidade P em S Z no se pode tomar um
qualquer (sem satisfazer P = ). De fato, necessitamos a aditividade nita
nos cilindros. Observe que se S = {1, 2}, ento
(X1 = 1) = P (X0 = 1, X1 = 1) + P (X0 = 2, X1 = 1)
a no ser que P =
Denio 5.18. Dado dois conjuntos A e B contidos em X, a diferena
simtrica de A e B, denotada por AB , o conjunto
A B A B = AB.
i i
i i
i i

i i
5.1 Introduo 413
Podemos imaginar que a armao A quase igual B , em termos da

medida , deveria signicar que (AB) um nmero pequeno.
Por outro lado, podemos imaginar que a armao A igual B , em

termos da medida , deveria signicar que (AB) = 0.
Como exemplo, note que se a medida de Lebesgue em R, ento vale

((a, b)[a, b]) = ({a, b}) = 0.
Duas propriedades importantes de uma medida (ou probabilidade) , denida
sobre a -lgebra A, obtida como extenso de uma pr-medida sobre a lge-
bra F (de acordo com o Teorema da Extenso de Caratheodori-Kolmogorov)
so descritas abaixo.
Um conjunto A da -lgebra A gerada pela coleo de conjuntos F , ou seja,
A A = (F), no necessariamente uma unio enumervel de conjuntos em
F , mas existem verses aproximadas deste idia:
Teorema 5.6. Considere uma medida -nita sobre uma -lgebra A que
foi obtida como extenso de uma lei -aditiva sobre a lgebra F . Seja A
mensurvel com respeito (F) = A e suponha que (A) nito. Seja > 0,
ento existe C em F tal que (AC) .
Esta uma maneira de aproximar em medida elementos de (F) por ele-

mentos de F.
Seja = {1, 2}N e a probabilidade resultante em associada a um processo
independente dado por p1 , p2 tal que p1 + p2 = 1. Ento
A = 1 {1, 2} 1 {1, 2} 1 {1, 2} ...
pode ser aproximado por cilindros da forma
Cn = 1 {1, 2} 1 {1, 2} 1 ... {1, 2},

| {z }
n
no sentido de que dado um existe um n tal que (ACn ) .
i i
i i
i i

i i
Teorema 5.7. Considere uma medida -nita sobre uma -lgebra A que
foi obtida como extenso de uma lei -aditiva sobre a lgebra F . Seja A
mensurvel com respeito a (F) = A. Dado > 0, ento existe uma coleo
enumervel de conjuntos Ci F , tal que

(Ci ) = (Ci ) (A) + ,
i=1 i=1
A
i=1 Ci .
Assim, se (A) = 0, dado > 0, existe uma coleo enumervel de conjun-

tos Ci F , tal que

(Ci ) = (Ci ) ,
i=1 i=1
e
A
i=1 Ci .
Esta uma maneira de aproximar (por cima, pois A

i=1 Ci ) em medida
elementos de (F) por uma unio enumervel de elementos de F.
Os dois teoremas acima permitem obter informao sobre (A) a partir da

informao dada pela lei -aditiva sobre conjuntos em F .
Denio 5.19. Considere um conjunto X equipado com uma -lgebra A e
Y outro conjunto equipado com uma -lgebra G . Uma funo : X Y

1
dita mensurvel se (A) A para todo A G .
usual a notao : (X, A) (Y, G) para descrever o fato acima.

fcil ver que composio de funes mensurveis mensurvel.
Quando Y = R (e assim, G a -lgebra de Borel, gerada pelos intervalos),
se considerarmos funes mensurveis 1 : (X, A) (Y, G) e 2 : (X, A)
i i
i i
i i

i i
5.1 Introduo 415
(Y, G), ento 1 + 2 , 1 2 , e o produto cartesiano 1 2 so tambm funes

mensurveis ([Fe] e [B]).
Por g = 1 2 deve se entender a funo g(x) = (1 (x), 2 (x)) R2 ,
g : X R2 .
Se 1 , 2 , ..., k so mensurveis ento 1 + 2 + ... + k mensurvel bem
como o produto cartesianoo 1 2 ... k : X Rk .
Quando a funo X : (, A) (R, R) mensurvel, ento usual chamar

X de Varivel Aleatria.
Quando consideramos uma transformao mensurvel T denida sobre o

espao mensurvel (X, A) tomando valores neste mesmo espao, isto , T :
(X, A) (X, A) chamamos tal T de endomorsmo sobre (X, A).
fcil ver que se f : X Y uma funo qualquer, ento dado uma
-lgebra G sobre o conjunto Y , temos que a coleo de conjuntos da forma
f 1 (A) X , onde A G , dene uma -lgebra A sobre X . Ns chamamos
a -lgebra A de -lgebra induzida em X por f e G . Neste caso, ns de-
notamos A = f 1 G. Desta forma se pode encontrar facilmente exemplos de
transformaes f : (X, A) (Y, G).
Dada uma coleo Z de subconjuntos de Y considere (Z), a menor -
lgebra contendo Z .
Observao: Considere S = {1, 2}, = {1, 2}N . Ento, os cilindros de

ordem 3 so
1, 1, 1, 1, 1, 2, 1, 2, 1, 1, 2, 2, 2, 1, 1, 2, 1, 2, 2, 2, 1, 2, 2, 2.
A sigma-algebra F3 o conjunto das unies nitas de cilindros de tamanho

3. Armamos que uma funo F : ({1, 2}N , F3 ) (R, R) mensurvel, se e s
se, F constante em cilindros de tamanho 3. De fato, por exemplo, suponha
que F assuma dois valores distintos e sobre o cilindro a1 , a2 , a3 . Seja um
i i
i i
i i

i i
nmero entre e . Ento F 1 ( (, ) ) a1 , a2 , a3 , dene um subconjunto J

no vazio e estritamente contido em a1 , a2 , a3 . O conjunto J claramente no
est na sigma-algebra F3 .
A armao anloga vlida para Fk . Ou seja, F : ({1, 2}N , Fk )
(R, R) mensurvel, se e s se, F constante em cilindros de tamanho
k.
Teorema 5.8. Se f :X Y uma funo, ento f 1 ((Z)) = (f 1 (Z)),

onde f 1 (Z) a coleo de conjuntos f 1 (B), onde B Z.
Demonstrao: fcil ver que se Z1 Z2 ento (Z1 ) (Z2 ). Logo,

como f (Z) f 1 ((Z)), ento (f 1 (Z)) (f 1 ((Z))). A coleo de
1
conjuntos f 1 ((Z)) uma -lgebra, portanto
(f 1 (Z)) f 1 ((Z)).
Considere a coleo
D = {A Y ; f 1 (A) (f 1 (Z))}.
fcil ver que D uma -lgebra e contm Z . Logo, contm (Z). A

concluso que f 1 (A) (f 1 (Z)) para todo conjunto A (Z) e isto
signica que
f 1 ((Z)) (f 1 (Z)).
Teorema 5.9. Considere um conjunto X equipado com uma -lgebra A e Y

outro conjunto equipado com uma -lgebra G . Suponha que o conjunto E gera
a -lgebra G , isto , G = (E) . Ento, f : X Y mensurvel, se e s se,
f 1 (B) A para todo conjunto B E .
i i
i i
i i

i i
5.1 Introduo 417
Demonstrao: Se f mensurvel ento claro que f 1 (B) A para todo

B E.
Suponha agora que, f 1 (B) A para todo conjunto B E .
Ento, (f 1 (E)) A. Como f 1 ((E)) = (f 1 (E)), ento, f 1 G A.
Acima usamos o Teorema 5.8.
Exerccio: Mostre que a transformao T (x) = 2x (mod 1) sobre o conjunto

[0, 1), com a -lgebra de Borel B , mensurvel,
T : ([0, 1), B) ([0, 1), B).
(Use o fato que imagem inversa de um intervalo I [0, 1], ou seja, o conjunto
T 1 (I), a unio de dois intervalos e os intervalos geram a -lgebra de Borel).
Exemplo 5.9. Suponha que esteja munido de uma mtrica d. Considere a

lgebra dos abertos C e seja A = (C). Tal -lgebra denominada de Borel
sobre (, d). Considere uma funo contnua f : R. Como vale que a
imagem inversa f 1 (A) de um intervalo A R um aberto em X , temos
pela proposio acima que qualquer funo contnua mensurvel f (X, A)
(R, R).
Da mesma forma, dados 1 com um distncia d1 e 2 com um distncia
d2 , se f : X1 X2 for contnua tambm vale que f : (1 , A1 ) (2 , A2 )
mensurvel, onde A1 a -lgebra de Borel de 1 e A2 a -lgebra de Borel
de 2 .
O espao de Bernoulli = S N pode ser equipado com um distncia natural
d : R da seguinte forma: para um valor xado com 0 < < 1,
denimos para x = (x1 , x2 , ..., xn , ...) e y = (y1 , y2 , ..., yn , ...) o valor d (x, y) =
N , onde N o menor nmero natural tal que xi = yi e xN = yN , se x
diferente de y . Quando x igual y ento declare que d(x, y) = 0.
i i
i i
i i

i i
Neste caso, temos que d(x, y) < k , se e s se,
(x1 , x2 , ..., xk ) = (y1 , y2 , ..., yk ).
A sigma algebra sobre S N gerada pelos cilindros igual a sigma algebra

gerada pelos abertos com a mtrica D acima denida.
Se S nito compacto.
O espao de Bernoulli = S Z tambm pode ser equipado com um dis-
tncia natural d : R da seguinte forma: para um valor xado
com 0 < < 1, denimos para x = (..., x2 , x1 | x1 , x2 , ..., xn , ...) e y =
(..., y2 , y1 | y1 , y2 , ..., yn , ...) o valor d (x, y) = N , onde N o menor nmero
natural tal que xi = yi para i {N + 1, ..., 1, 1, 2, ..., N 1} and xN = yN ,
or xN = yN .
Se S nito compacto.
Exemplo 5.10. Seja = 0.3, x = (1, 1, 0, 1, 0, 0, 1, ...) e = 0, 0081 = (0, 3)4 ,

ento B(x, ) (a bola aberta de centro x e raio ) igual a {X1 = 1, X2 =
1, X3 = 0, X4 = 1}.
fcil ver que todo cilindro C em C um conjunto aberto. Por exemplo,
se tem rank k , ento, se x C , temos que a bola aberta de centro x e raio k
est contida em C .
Como todo cilindro um aberto, pode-se mostrar que a -lgebra de Borel
associada a tal mtrica coincide com a -lgebra gerada pelos cilindros.
Cada cilindro tambm fechado, ou seja o complementar de um aberto.
Quando S nito, o espao S N , com a mtrica d acima denida um

espao mtrico compacto.
i i
i i
i i

i i
5.1 Introduo 419
Observao: Considere S = {1, 2}, = {1, 2}N . Ento mesurvel a

funo I1,1,2 que a funo indicador do cilindro 1, 2, 1. Mais geralmente, se
S = {1, 2, ..., d}, = {1, 2, ...d}N a funo indicador de qualquer cilindro
mensurvel.
Ainda, note que dado um processo estocstico Xn , n N, R, e > 0,
o conjunto
{w | | (X1 + X2 + ... + Xn )(w) | < },
mesuravel em relao a sigma-algebra de Borel sobre = S N .
Em muitos casos podemos estar interessados em dizer que existe tal que
para todo P -quase todo w vale que
lim (X1 + X2 + ... + Xn ) (w) = .

nto
Por exemplo no caso da moeda honesta natural pensar que = 1/2.

Para fazer sentido a armao necessrio que seja mensurvel o conjunto
de tais w.
Observe ento que mensurvel o conjunto
kN N N n>N {w | |(X1 + X2 + ... + Xn )(w) | < 1/k }.
Fica bem claro neste momento que as exigencias feitas na denio de sigma
algebra so sucientemente adequadas para a formalizao das questes mais
importantes que podemos estar interessados.
Vamos agora denir a integral de uma funo mensurvel f : (X, A, )

(R, B), onde B denota a -lgebra de Borel sobre R e uma medida sobre
A, -lgebra de subconjuntos de X . Gostaramos de dar sentido expresso

f (x)d(x). Vamos assim generalizar a conhecida integral f (x)dx denida
para funes f : R R.
Primeiro vamos denir a integral para funes f : X R de uma certa
forma bem simples. Por denio, dado um subconjunto A de X , a funo
i i
i i
i i

i i
indicador de A a funo IA : X R tal que, IA (x) = 0, se x est em X A,

e, IA (x) = 1, se x est em A.
Se A um conjunto A mensurvel, ento IA uma funo A-mensurvel.

Inicialmente, vamos denir f (x)d(x) quando f = IA e A Amensurvel
Por denio,
IA (x)d(x) = (A).
Considere uma coleo nita de conjuntos Aj em A, j {1, 2, ..., n}, e uma

seqncia aj de nmeros reais, j {1, 2, ..., n}.
Quando f da forma
n
f= aj IAj ,
j=1
ento ns denimos que

n
f (x)d(x) = aj (Aj ).
j=1

As funes da forma nj=1 aj IAj so chamadas de funes simples.
Seja = {1, 2}N e a probabilidade resultante em associada a um processo
independente dado por p1 , p2 tal que p1 + p2 = 1. Ento f = 2 I1 + 3, 5 I12

simples e sua integral f dP = 2p1 + 3.5 p1 p2 .
Seja
A = 1 {1, 2} 1 {1, 2} 1 {1, 2} ...

Ento f = 2 IA + 1.4 I12 simples e sua integral f dP = 2P (A) + 1.4 p1 p2 .
Pode ser mostrado (ver [Fe]) que qualquer funo mensurvel no negativa
f (x) limite pontual de uma seqncia montona crescente de funes simples
fi . Isto , existem fi , i N tal que para todo x X , temos que 0 fi (x)
fi+1 (x) e limi fi (x) = f (x).
Por denio
f (x)d(x) = lim fi (x)d(x).
i
i i
i i
i i

i i
5.1 Introduo 421
Pode-se mostrar que o valor acima obtido independe da escolha da seqn-

cia fi de funes simples (poderia haver mais de uma seqncia).
O valor limite acima poderia ser igual a ; no caso em que o valor

| f (x) | d(x) nito dizemos que a funo f -integrvel e denotamos
tal fato por f L1 (, A, ).
Se uma probabilidade e f mensurvel e limitada, ento ela -
integrvel (ver [Fe]).
Se f : R mensurvel e atinge valores positivos e negativos, en-
to f pode ser expressa como f = f+ f onde f+ e f so ambas no-
negativas. No caso em que, ambas, f+ e f esto em L1 (, A, ), ento

denimos f (x)d(x) = f+ (x)d(x) f (x)d(x). Para denotar tal fato
escrevemos f L1 (, A, ).
Fica assim descrito o conceito de integral de uma funo f em relao
uma medida .

Nos chamamos f (x)d(x) de integral de Lebesgue de f em relao
. Na denio acima estamos assumindo que uma medida.

Assim, dada f : R mensurvel, denimos f d = P f d N f d ,
onde nos valemos da expresso anterior para integral de uma funo segundo
uma medida.

No caso em que f 2 (x)d(x) nito dizemos que f de quadrado inte-
grvel e denotamos tal fato por f L2 (, A, ).
Note que se = S N e depende das n primeiras coordenadas, isto ,

= (1,2,...,n) Ia1 ,a2 ,...,an ,
a1 ,a2 ,...,an S

onde 1,2,...,n R so constantes xadas, ento dP , ser dada por

E() = dP = (1,2,...,n) P (a1 , a2 , ..., an ).
a1 ,a2 ,...,an S
i i
i i
i i

i i
Dada uma varivel aleatria integrvel X : (, A, P ) (R, R), usual

denotar
E[X] = X()dP (),
e dizer que E[X] o valor esperado de X .

Um conceito extremamente importante na teoria :
Denio 5.20. A varincia de X L2 (, A, P ) o valor
Var (X) = E[ (X E[X])2 ] = E[X 2 ] (E[X])2 .
A varincia de X mede a disperso dos valores X() em torno da mdia

E[X]. Quanto menor a varincia, mais os valores X() esto agrupados e
concentrados em volta de E[X].
Voltaremos a analisar tal conceito com mais cuidado em breve.
Denio 5.21. Dados (, A, ) e (, A, ) duas medidas sobre a mesma -

lgebra dizemos que absolutamente contnua com respeito a , se para todo
AA tal que (A) = 0 ento (A) = 0. Denotamos tal fato por << .
Exemplo 5.11. Considere uma funo no negativa A-mensurvel (x) que

seja -integrvel.

Dena a medida sobre a -lgebra A por (A) = A (x)d(x), para cada
A A. fcil ver que est bem denida e de fato satisfaz as propriedades
requeridas para ser uma medida. No dicil ver que tal absolutamente
contnua com relao a .
O prximo teorema arma que a classe de exemplos acima descreve todos

os casos possveis.
i i
i i
i i

i i
5.1 Introduo 423
Teorema 5.10 (Teorema de Radon-Nykodin). Sejam (, A, ) e (, A, )

duas medidas na mesma -lgebra, onde assumimos que -nita . Ento
absolutamente contnua com respeito a , se e s se, existe uma funo
no negativa : R, -integrvel, tal que, para todo A A, vale

(A) = (x)d(x).
A
d
A funo nica -quase toda parte e denotamos = d
.
O prximo teorema de grande importncia na teoria.
Teorema 5.11 (Teorema da Convergncia Montona). Sejam X, (Xn )n>1

variveis aleatrias em (, A, P). Se 0 6 Xn X , isto , Xn (w) > 0 e
Xn (w) X(w), para todo w , ento E(Xn ) E(X).
Demostrao: :Pela propriedade da esperana, como 0 6 Xn X temos que

0 6 E(Xn ) 6 E(X) e E(Xn ) . Logo, lim E(Xn ) 6 E(X). Portanto, basta
n
provar que lim E(Xn ) > E(X) , para todo > 0.
n
Para isso, vamos aproximar X por meio de uma varivel aleatria discreta
Y tal que |X Y | 6 , onde > 0 est xo.
Denimos o evento Bn = [n < X 6 (n + 1)], n N e a varivel aleatria

Y = n IBn . Note que os conjuntos Bn so disjuntos. Portanto, para cada
n=0
w temos que
{ {

n, se w Bn n, se n < X(w) 6 (n + 1)
Y (w) = n IBn (w) = =
n=0
0, se w / Bn 0, se X(w) = 0.
Logo, X 6 Y 6 X . De fato: Y (w) 6 X(w) e ainda X(w) 6 n + =

Y (w) + o que implica em X(w) 6 Y (w).
Ento, EX 6 E(Y ) 6 E(X) (o que vale tambm no caso em que
EX = ).
i i
i i
i i

i i
Vamos provar que E(Y ) 6 lim E(Xn ), isto , lim E(Xn ) > EY > EX ,
n n
o que conclui a prova.
Para isso, considere Ak = [Xk > Y ]. Observamos que Ak . De fato:
Xk (w) > Y (w) Xk+1 (w) > Xk (w) > Y (w), pois Xn . Portanto, Ak .
Mas a convergncia de Xk para X implica que Xk (w) > Y (w) para k sucien-
temente grande. Notemos que Y (w) < X(w) a menos que X(w) = 0. Logo,

= Ak = lim Ak . Portanto, Bn Ak Bn = Bn , quando k (e n
xo). Observamos que a varivel aleatria Y IAk discreta e
{ {
Y (w), se w Ak Y (w) 6 Xk (w), se w Ak
Y (w)IAk (w) = =
0, se w
/ Ak 0 6 Xk (w), se w
/ Ak .
Logo, 0 6 Y IAk 6 Xk e 0 6 E(Y IAk ) 6 E(Xk ). Para calcular E(Y IAk )
preciso notar que
{
n, se w Bn Ak , n N
Y (w)IAk (w) =
0, se w / (Bn Ak ).
n>0
Portanto,

m
E(Xk ) > E(Y IAk ) = nP (Bn Ak ) > nP (Bn Ak ), m.
n>0 n=0
Mas P (Bn Ak ) P (Bn ) quando k +. Logo,

m
m
lim E(Xk ) > lim nP (Bn Ak ) = nP (Bn ), para todo m.
k k
n=0 n=0
Portanto,

lim E(Xk ) > nP (Bn ) = EY > E(X) , para todo > 0.
k
n=0
Conclumos que E(Xn ) E(X).
Outro resultado importante o seguinte:
i i
i i
i i

i i
5.1 Introduo 425
Teorema 5.12 (Teorema da Convergncia Dominada). Sejam Y, X, (Xn )n>1

variveis aleatrias em (, A, P ) tais que Y integrvel, |Xn | 6 Y, n e
Xn X q.t.p. Ento, X e Xn so integrveis e E(Xn ) E(X).
A demonstrao de tal armao pode ser encontrada em [Fe].

Um resultado interessante diz o seguinte: dados duas probabilidades P1 e

P2 na reta real, se para todo funo contnua f vale que f dP1 = f dP2 ,
ento P1 = P2 , no sentido de que P1 (B) = P2 (B) para qualquer boreleano B .
Isto segue do Teorema de Riesz (ver [Fe]) que vamos descrever abaixo.
Os resultados mencionados abaixo at o m desta seo pode (devem ?) ser

evitados numa primeira leitura. O leitor pode se dirigir diretamente a seo
5.2 sem maiores prejuzos ao entendimento do que seguir.
Denotamos por C0 () o conjunto das funes continuas sobre , onde

usamos a distancia d anteriomente descrita sobre = {1, 2, .., d}N .
Lembre que a sigma-algebra de Borel, neste caso, coincide com a sigma-
algebra gerada pelos cilindros.
Considere a seguinte norma sobre as funes continuas f : R,
|f | = sup{|f (w)|}.
w
Este valor sempre nito pois compacto.

Dada uma funo linear L : C0 () R, dizemos que ela limitada se
sup |L(f )| < .

f tais que | f |1
Dada uma funo linear L : C0 () R, dizemos que uma funo linear

L : C0 () R positiva se L(f ) 0, toda vez que f 0.
O Teorema de Riesz arma o seguinte: seja um funo linear L : C0 () R
tal que limitada e positiva, e ainda que vale que L(1) = 1, ento existe uma
i i
i i
i i

i i
probabilidade P sobre a sigma-algebra de Borel de tal que para qualquer f

continua vale
L(f ) = f d P.
Ainda, a lei que associa L a P uma bijeo. Isto pode ser entendido da
seguinte forma: uma probabilidade P determinada de forma nica apenas

pela informao das integrais f dP de todas as funes continuas.
Dizemos que a sequencia de probabilidades Pn sobre o espao mensurvel

(, F) converge fracamente a probabilidade P , se para toda funo continua
f : R, vale que

lim f dPn = f dP.
n
Note que isto no signica que para todo elemento A F vale que Pn (A)
converge P (A), quando n .
Um teorema importante em probabilidade arma que se = {1, 2, , ...d},
ento dada uma sequencia de probabilidades Pn , sobre a sigma-algebra de
Borel, sempre existe uma subsequencia Pnk , k N, e uma probabilidade P ,
tal que, Pnk converge fracamente a P , quando k , no sentido fraco.
O conjunto das probabilidade P sobre o conjunto (, F) ser denotado por
PW . A propriedade acima faz com que PW seja denominado sequencialmente
compacto. Na verdade existe uma metrica d sobre PW de tal forma que
limn Pn = P no sentido fraco (como denido acima), se e s se , , existe
N tal que para n > N , vale d(Pn , P ) < (o sentido usual de convergencia num
espao mtrico).
Se uma medida com sinal tambem se pode considerar o conceito de

f d. Primeiro observamos que o Teorema de decomposio de Hahn-Jordan
(ver seo 6.2 em [Fe]) arma que dada uma medida sobre uma sigma-algebra
F , ento existem dois conjuntos mensurveis N e P tais que N P = ,
i i
i i
i i

i i
5.1 Introduo 427
N P = , e que vale ainda para qualquer A P temos (A) 0, e para

qualquer A N temos (A) 0. Desta maneira, se pode denir uma medida
de forma que (A) = (A N ) para todo A F.
O conjunto das medidas com sinal tais que (P ) + (N ) < ser de-
notado por SM. O conjunto SM um espao vetorial normado quando se
considera a norma da variao total
||V T = (P ) + (N ).
Um subconjunto G de um espao vetorial com norma | | dito convexo se

toda vez que x, y G, ento a combinao convexa
x + (1 )y G, para todo 0 1.
fcil ver que o conjunto PW um conjunto convexo dentro do espao

vetorial das medidas com sinal SM.
O Teorema de Schauder-Thychonov arma que toda funo continua F :
G G, onde G convexo e sequencialmente compacto, possui um ponto xo,
isto , existe x G tal que F (x) = x.
Este teorema pode portanto ser aplicado quando G = PW , no caso em que
= {1, 2, .., d}N . A funo continua considerada acima em relao a mtrica
d (compativel com a convergencia fraca) que mencionamos antes, ou seja,
vlida para F : PW PW.
Seja T : (, A) (, A) continua, lembre que o conjunto das probabil-
idades P invariantes para T (isto , tal que P (T 1 (A)) = P (A), A A)
denotado por M(T ).
Este conjunto M(T ) nao vazio por que a funo F : PW PW que leva
P em F (P ) = Q, tal que Q(A) = P (T 1 (A)), A A, uma funo continua.
Assim, quando = {1, 2, .., d}N , ento pelo Teorema de Schauder-Thychonov
existe um ponto xo P . Tal P claramente pertence a M(T ). Este resultado
vale em particular para o shift, isto , quando T = .
i i
i i
i i

i i
5.2 Propriedades Gerais de Processos Estocs-

ticos
Lembre que dizemos que o processo Xt tomando valores em S (enumervel)
com parmetro t T = N estacionrio se para cada n e cada sequncia
t1 < t2 < ... < tn , onde ti T , t > 0 e para cada sequncia de conjuntos
A1 , A2 , ..., An , onde Ai S vale que
P (Xt1 A1 , Xt2 A2 , ..., Xtn An ) =
Uma transformao
T : (S N , A) (S N , A),
onde A a -lgebra gerada pelos cilindros, que possui grande importncia

a seguinte:
T (w1 , w2 , w3 , w4 , ...) = (w2 , w3 , w4 , ...).
Esta transformao T denominada de shift sobre S N e muitas vezes de-

notada por .
A transformao mensurvel pela ltima proposio. De fato, note que
se
C = {X1 = a1 , X2 = a2 , X3 = a3 , ..., Xk = ak },
ento
T 1 (C) = sS {X1 = s, X2 = a1 , X3 = a2 , ..., Xk = ak1 , Xk+1 = ak }.
Outra forma de obter este resultado segue de mostrar que T contnua, na

verdade d(T (1 ), T (2 )) d(1 , 2 ).
i i
i i
i i

i i
5.2 Propriedades Gerais de Processos Estocsticos 429
Denio 5.22. Considere um conjunto X -lgebra A e uma prob-

com uma
abilidade (ou medida) P denida sobre esta -lgebra e ainda um conjunto Y
equipado com uma -lgebra G e uma probabilidade (ou medida) Q nesta -
lgebra. Diremos que a funo mensurvel f : X Y preserva probabilidade

1
(ou medida) se P (f (A)) = Q(A), para todo A G .
Neste caso, usaremos a notao f : (X, A, P ) (Y, G, Q), para descrever
tal fato
Estaremos interessados aqui principalmente no caso do endomorsmo shift
acima denido
T : (X, A) (X, A),
onde X = S N .
Um Processo Estocstico com valores em S e com conjunto de valores
temporais N uma probabilidade P sobre a -lgebra gerada pelos cilindros
de S N .
Anteriormente explicamos como o Teorema de extenso de Kolo-

mogorov permite denir uma probabildade P sobre a sigma algebra
gerada pelos cilindros no caso em um processo Markoviano obtido a
partir de uma matriz estocstica P e uma probabilidade inicial .
natural perguntar quando que P invariante para T : (S N , A) (S N , A),

onde T o shift denido acima.
Teorema 5.13. Seja Xn , n N, um Processo Estocstico com valores em S

e sua correspondente probabilidade P sobre S N .
P invariante para T : (S N , A) (S N , A), se e s se, Xn , n N, um
Processo Estocstico Estacionrio.
Demonstrao: Considere um Processo Estocstico Estacionrio, ento vale

que
P ( {X1 = a1 , X2 = a2 , X3 = a3 , ..., Xk = ak } ) =
i i
i i
i i

i i
P ( {Xt+1 = a1 , Xt+2 = a2 , Xt+3 = a3 , ..., Xt+k = ak } ).

Seja
C = {X1 = a1 , X2 = a2 , X3 = a3 , ..., Xk = ak },
ento devemos analisar se
P (T 1 (C)) = P ( sS {X1 = s, X2 = a1 , X3 = a2 , ..., Xk = ak1 , Xk+1 = ak } )
igual a P (C).
Ora, como
sS {X1 = s, X2 = a1 , X3 = a2 , ..., Xk = ak1 , Xk+1 = ak } =
{X2 = a1 , X3 = a2 , ..., Xk = ak1 , Xk+1 = ak },

a armao de que tal P satisfaz P (C) = P (T 1 (C)) segue de
P ( {X2 = a1 , X3 = a2 , ..., Xk = ak1 , Xk+1 = ak } ) =
P ( {X1 = a1 , X2 = a2 , ..., Xk1 = ak1 , Xk = ak } ).

A armao correspondente para o cilindro geral de rank k se demonstra
de forma semelhante.
Sabemos que duas probabilidades que coincidem nos geradores de uma -
lgebra coincidem na -lgebra pelo Teorema de Caratheodori-Kolmogorov.
Logo P invariante para o shift T se o processo Xn estacionrio.
Vamos considerar a recproca, suponha que o Processo Estocstico Xn , n
N no seja estacionrio, logo existe t tal que
P ( {Xi1 A1 , Xi2 A2 , Xi3 A3 , ..., Xik = ak } ) =
P ( {Xt+i1 A1 , Xt+i2 A2 , Xt+i3 A3 , ..., Xt+ik = ak } ).

Note que por induo, se P (T 1 (A)) = P (A) para todo A A, ento
P (T n (A)) = P (A), para qualquer n 0 e para todo A A.
i i
i i
i i

i i
Ora, se
C = {Xi1 A1 , Xi2 A2 , Xi3 A3 , ..., Xik Ak },

ento T t (C) igual a
s1 S,s2 S,...,st1 S {X1 = s1 , ..., Xt1 = st1 , Xt+i1 A1 , ..., Xt+ik Ak } =

{Xt+i1 A1 , ..., Xt+ik Ak }.
Logo,
P (T t (C)) = P ({Xt+i1 A1 , ..., Xt+ik Ak }) =
P ( {Xi1 A1 , Xi2 A2 , Xi3 A3 , ..., Xik Ak } ) = P (C).
Conclumos que se o Processo Estocstico Xn no estacionrio, ento a
probabilidade P associada no invariante para o shift T .
Nem sempre um processo markoviano, como denido anteriormente, ser

estacionrio. Como se v na seo 1, necessrio e suciente que esteja satis-
feita a seguinte propriedade: o vetor de probabilidade (sobre S ) inicial p deve
ser tal que
p P = p,
onde P a matriz estocstica que dene as transies no processo. Somente
neste caso que a P sobre S N ser invariante para o shift T .
Dada F : (X, A) (Y, G) uma funo mensurvel e uma medida em
(X, A), podemos denir em (Y, G) atravs de (A) = (F 1 )(A), A G .
Denotamos tal medida por = F () (que age sobre conjuntos de G ). Desta
maneira a partir de foramos de forma trivial que a transformao F preserve
medida, ou seja, F : (X, A, ) (Y, G, ).
usual a terminologia: o push-forward da medida via F .
Um caso particular (de grande importncia) da situao acima o seguinte:
seja X uma varivel aleatria, ou seja, uma funo A mensurvel X : (, A)
(R, R), onde R a -lgebra de Borel sobre R.
i i
i i
i i

i i
Denio 5.23. Fixada uma probabilidade P sobre , podemos denir (A) =

1
P (X (A)) = P ({y | X(y) A} ), A B . Fica assim denida uma probabil-
idade = X sobre a -lgebra de Borel R R. Tal X denominada de

sobre

distribuio de probabilidade da varivel aleatria X . Neste caso, X = X (P )
uma probabilidade sobre R.
Dizemos que FX a distribuio da varivel aleatria X se para qualquer

xR
FX (x) = P ({w | X(w) x}).
Se denotarmos a integral de Stieltjes (ver Cap. 4.2 em [Li2] ou [Ba2]) de

uma funo g : R R por g(x)d FX (x), ento, para qualquer g integrvel

g(x) d FX (x) = g(x) dX (x).
Se X for absolutamente contnua em relao a medida de Lebesgue em R

(nem sempre acontece), ento pelo Teorema de Radon-Nykodin, existe uma
funo mensurvel fX : (R, R) (R, R), denominada densidade, que no-
negativa e que satisfaz para qualquer intervalo [a, b]
b
fX (x) dx = X ([a, b]).
a
Neste caso, x
FX (x) = fX (y) dy.

Note que para qualquer a e b, a < b, temos

b
F (b) F (a) = fX (x) dx.
a
Denio 5.24. X tem distribuio exponencial de parmetro , se para qual-

quer x0
P (X < x) = F (x) = 1 e x ,
i i
i i
i i

i i
e P (X < x) = 0 para x < 0.

Na nossa notao X ().
Denio 5.25. Dizemos que X tem distribuio Normal, ou Gaussiana, com
mdia a e varincia >0 se

x
1 (ya)2
P (X < x) = F (x) = e 2 2 dy.
2
Na nossa notao X N (a, ).
Exemplo 5.12. Considerando a X geral e a correspondente fX como acima,

note que
2 X
E[X + 5 e ] = (x2 + 5 ex ) fX (x) dx
(quando existir E[X 2 + 5 eX ], claro).
Se f : R R densidade de X , isto , se para qualquer intervalo (a, b)

vale que b
P (w : X(w) (a, b)) = f (x) dx.
a
ento, esta propriedade se estende a qualquer conjunto borelano B R:

P (w : X(w) B) = f (x) dx.
B
Dito de outra forma, o pushforward de X pela medida na reta denida por

f a probabilidade P . Para enfatizar a dependencia em X se denota tal f por
fX .
De fato, mais geralmente, para qualquer funo mensurvel e X -integrvel
g : R R, vale que

E[g(X)] = g(x) fX (x) dx.
i i
i i
i i

i i
A demonstrao da armao acima para uma g qualquer segue o proced-

imento cannico em Teoria da Medida. Primeiro considere g da forma funo
indicador de um Boreleano A em R, ou seja g = IA . Neste caso,
E[g(X)] = P ({ | X() A}) = X (A) =

fX (x) dx = IA (x) fX (x) dx = g(x) fX (x)dx.
A
k
A seguir, se considera g da forma g = i=1 i IAi , onde i R e Ai
elemento em R. Finalmente, para uma funo mesurvel g qualquer se
considera aproximaes por funes simples, limites, etc... Deixamos a cargo
do leitor completar a argumentao nal at obter a armao correspondente
para g qualquer X -integrvel.
No caso em que a varivel X assume valores discretos, digamos sobre G Z
(G poderia ser nito ou no), denotamos por fX , onde fX : G R, a funo
tal que P (X = g) = fX (g). Chamamos tal fX , neste caso, de funo massa de
X.

Desta forma E(X) = X(w) dP (w) = x fX (x)dx. No caso geral

g(X)dP = g(x)fX (x)dx.

Ainda, cos(X) D P = cos(X(w)) dP (w) = cos(x) fX (x)dx.
Sejam agora X e Y variveis aleatrias sobre (, A), ou seja,
X : (, A) (R, R),
Y : (, A) (R, R).
Estamos interessados em analisar o par (X, Y ) : (, A) (R2 , R2 )
Denio 5.26. Fixada uma probabilidade P sobre , podemos denir
(A) = P ( { | (X(w), Y ()) A} ),
i i
i i
i i

i i
A R2 . Fica assim denida uma probabilidade = X,Y sobre a -lgebra

de Borel R sobre R .
2 2
Tal X,Y denominada de distribuio de probabilidade
conjunta do par ordenado de variveis aleatrias (X, Y ). Neste caso, X,Y
uma probabilidade sobre R2 .
Denio 5.27. Da mesma forma como antes, se X,Y for absolutamente
contnua com respeito a medida de Lebesgue em R 2

, chamaremos de funo
de densidade conjunta do par (X, Y ), a funo fX,Y tal que fX,Y : (R2 , R2 )
(R, R), e

fX,Y (x, y)dx dy = X,Y (A),
A
para todo boreleano A sobre R2 .
Denio 5.28. Fixado T : (, A) (, A) mensurvel, o conjunto das
probabilidades P sobre A tal que P (T 1 (A)) = P (A), A A, denotado por
M(T ).
Vamos estar particularmente interessados no caso em que = S N e T = .
Teorema 5.14. Considere um conjunto com uma -lgebra A e uma prob-

abilidade P . Suponha que o conjunto E P() gera a -lgebra A e um
sistema , isto , (E) = A. Ento, T : mensurvel preserva P , se e

1
s se, P (T (B)) = P (B), para todo B E .
Demonstrao: Suponha primeiro que P (T 1 (B)) = P (B), para todo B E .

Dena a probabilidade = T (P ), isto , (A) = P (T 1 (A) para todo A A.
Pela denio de , segue que e P coincidem nos conjuntos da forma B E .
Segue da unicidade da extenso no Teorema de Caratheodori-Kolmogorov que
para todo A A, temos que
P (T 1 (A)) = (A) = P (A).
i i
i i
i i

i i
A armao na outra direo trivial.
As duas ltimas armaes sero usadas extensivamente no texto.

Exemplo 5.13. Seja uma constante real. A transformao mensurvel
T (x) = x + (mod 1) sobre o conjunto = [0, 1) preserva a medida de
Lebesgue = P sobre a -lgebra de Borel. Para isto note que xado um
intervalo (a, b) [0, 1) (lembre que os intervalos geram a -lgebra de Borel),
como a inclinao do grco de T igual a 1, ento T 1 (a, b) ser constitudo
por um ou dois intervalos, mas a soma do comprimento destes intervalos (no
caso em que tivermos dois intervalos) igual a b a.
Portanto, pra todo intervalo (a, b), temos que P (T 1 (a, b)) = (b a) =
P ((a, b)). Como os intervalos da forma (a, b) geram a -lgebra de Borel sobre
[0, 1], ento T preserva a probabilidade P , onde P ((a, b)) = (b a).

Exerccio: Mostre que a transformao T (x) = 2x (mod 1) sobre o conjunto

[0, 1) preserva a probabilidade P = de Lebesgue sobre a -lgebra de Borel.
Note que a pr-imagem de um intervalo (a, b) por T a unio de dois intervalos,
cada um com metade do comprimento de (a, b).
Muitas vezes uma -lgebra pode ser encarada como um certo tipo de
informao que dispomos. Por exemplo em {0, 1}N , podemos considerar a -
lgebra B gerada pelos cilindros. Uma -lgebra F contida em B teria menos
informaes (certos conjuntos A em B no fazem sentido para quem olha a
informao dada pelos conjuntos de F ).
Exemplo 5.14. Por exemplo, assuma que 0 est associado a cara e 1 a coroa.
Quando jogamos a moeda trs vezes, os conjuntos que cam determinados por
este evento seriam os conjuntos da forma
V1 V2 V3 S N ,
i i
i i
i i

i i
onde Vi {0, 1}. O conjunto de todos os conjuntos da forma acima determina

uma -lgebra F que traz informao apenas do que acontece quando se joga
a moeda trs vezes. Esta -lgebra F descreve o desconhecimento do que vai
ocorrer aps o tempo 3.
Pode se mostrar que uma probabilidade P denida nos boreleanos de [0, 1]

invariante para T : [0, 1] [0, 1] continua, se e so se, f dp = (f T ) dP para
toda f continua [PY]. Esta propriedade pode ser obtida a partir do Teorema
da representao de Riesz que sera enunciado ao m desta seo.
Considere agora xada um funo mensurvel f : (, B) ( , A), e a -
lgebra F = f 1 (A) = {f 1 (A) | A A}. Considerando o conjunto acima,
tnhamos uma certa informao atravs dos conjuntos de B . A -lgebra F
acima, que est contida em B , traduz um desconhecimento de qualquer coisa
que no seja atravs da funo f , ou seja, s conhecemos os conjuntos da forma
f 1 (A).
Dada uma funo g : (, B) (R, R), podemos perguntar se ela f 1 (A)-
mensurvel.
Teorema 5.15. A funo g : (, B) (R, R) f 1 (A) mensurvel, se e s

se, existe h : ( , A) R mensurvel tal que
g = h f.
A demonstrao deste fato pode ser encontrada em [Fe] prop. 3.22.
Denio 5.29. Dada uma varivel aleatria X : R, sobre (, F, P ), o
nmero
E( (X E(X))2 ) =

[ (X() E(X)) (X() E(X)) ] dP () =
i i
i i
i i

i i
f(x)
Figura 5.1: Densidade f (x) com dados que possuem forte concentrao em
torno da mdia.

[ (X() X dP ) (X() X dP ) ] dP () ,
2
denominado de varincia de X e e denotado por var(X ) ou X . Este nmero
descreve como esto dispersos os valores X() em torno de E(X).
Imagine duas variveis aleatrias Y e Y tais que possuem o mesmo valor

mdio E(X) = E(Y ). Suponha que existe grande probabilidade de encontrar
X() tal que |X() E(X)| > 2, e, por outro lado, no existe tal que
Y () satisfaz |Y () Y (X)| > 2. Desta forma, se pode armar que os dados
esto mais dispersos (em torno da mdia) para X do que para Y , neste caso,
naturalmente, a varincia de X maior que a varincia de Y .
Por exemplo, suponha que X descreve a altura mdia dos habitantes do
pas A e Y descreve a altura mdia dos habitantes do pas B . Neste caso, por
exemplo,
P ( X() (1.60 , 1.70) ) =
nmero de pessoas do pas A que tem altura entre 1.60 e 1.70
= .
populao total do pas A
Suponhamos que o valor mdio da altura dos dois pases seja igual, ou seja,
E(X) = E(Y ). Este nmero, em si, no captura a distribuio das alturas nas
i i
i i
i i

i i
f(x)
Figura 5.2: Densidade f (x) com dados que possuem grande disperso em torno
da mdia. Alta probabilidade de encontrar valores bem distantes da mdia x0 .
duas populaes em torno da mdia. As varincias de X e de Y vo descrever

esta informao.
Por exemplo, suponha que X toma valores reais e seja descrita por uma
b
densidade f (x). Ou seja, P (X (a, b)) = a f (x)dx, para todo intervalo (a, b).

Vamos denotar a valor mdio de X por x0 . Isto , f (x)dx = x0 .
Nas duas guras 5.1 e 5.2 o leitor pode perceber em que situao ocorre o
caso com pequena varincia e o caso com grande varincia.
Denio 5.30. Dadas duas variveis aleatrias X : R, X : R e
xado (, F, P ), o nmero
E( (X E(X)) (Y E(Y )) ) =

[ (X() E(X)) (Y () E(Y )) ] dP () ,

[ (X() X dP ) (Y () Y dP ) ] dP () ,
denominado de covarincia de X e Y e denotado por Cov(X, Y ).
Este nmero descreve a existncia de relao (maior ou menor) entre as var-

iveis X e Y . Dizemos que as variveis no esto correlacionadas se Cov(X, Y ) =
0
i i
i i
i i

i i
Por exemplo, suponha que X descreve a altura dos habitantes do pas A e

Y descreve a renda mensal da famlia do habitante do pas A.
Em geral, se a renda familiar for maior, o indivduo esteve sujeito a alimen-
tao mais rica e a melhores condies de sade durante sua infncia, e assim,
provavelmente ter altura maior do que aqueles oriundos de famlias de menor
renda.
Note ento que se X() E(X) for positivo (algum com altura maior
que a mdia) ento Y () E(Y ) dever ser (provavelmente) positivo, logo
(X() E(X)) (Y () E(Y )) > 0. Por outro lado, se X() E(X) for neg-
ativo (algum com altura menor que a mdia) ento Y () E(Y ) dever ser
(provavelmente) negativo tambm, logo (X() E(X)) (Y () E(Y )) > 0.
Desta forma, deveremos ter Cov(X, Y ) positiva, e to maior quando maior
forem as diferenas |X() E(X)| e |Y () E(Y )| e suas respectivas proba-
bilidades disto acontecer.
Dadas duas variveis aleatrias quaisquer X e Y , se Cov(X, Y ) for um
nmero real muito negativo, tambm existe indicao de que X inuncia
muito a Y e vice-versa. Esta inuencia pode se dar de forma inversa a ante-
riormente descrita: por exemplo, pode acontecer que X() E(X) negativo
ento Y () E(Y ) positivo e X() E(X) positivo ento Y () E(Y ) nega-
tivo. Desta forma, (X() E(X)) (Y () E(Y )) < 0. Neste caso as variveis
esto negativamente correlacionadas.
Por exemplo, considerando o universo das pessoas de mais de cinquenta
anos; a idade esta correlacionada com a capacidade correr longas distncias.
A correlao inversa (negativa portanto): em termos estatsticos, quanto
maior a idade da pessoa, ento, menor ser a quantidade de quilmetros que
ela capaz de correr a uma velocidade xada de, digamos, k quilmetros por
hora.
Teorema 5.16. Se X e Y so independentes tomando valores em um conjunto
i i
i i
i i

i i
nito S R, ento

[ X() Y () ] dP () = E( X Y ) = E(X) E(Y ).
Demonstrao: Ora,

E(X Y ) = x y P (X = x, Y = y).
x,yS
Ora, para cada par x, y , temos que
P (X = x, Y = y) = P (X = x) P (Y = y),
logo,

E(X Y ) = x y P (X = x) P (Y = y) =
x,yS

[ x P (X = x)] [ y P (Y = y)] = E(X) E(Y ).
xS yS
Teorema 5.17. Se X Y so independentes tomando valores em um conjunto

e
nito S R, ento Cov(X, Y ) = 0.
Demonstrao: De fato,
E( (X E(X)) (Y E(Y )) ) =

[ (X() E(X)) (Y () E(Y )) ] dP () =

[ X() Y () ] dP () E(X) E(Y ) E(X) E(Y ) + E(X) E(Y ) =
E(X) E(Y ) E(X) E(Y ) E(X) E(Y ) + E(X) E(Y ) = 0,

onde na ltima igualdade usamos o Teorema 5.16.
Segue do Teorema 5.17 que se X e Y forem independentes, elas no esto

correlacionadas.
i i
i i
i i

i i
Denio 5.31. Dados duas variveis aleatrias X : R, X : R e
xado (, F, P ), o nmero
Cov(X, Y )
,
X Y
2
(onde X e Y2 so, respectivamente, as varincias de X e Y) denominado
de coeciente de correlao entre X e Y e denotado por X,Y .
Este nmero mede a covarincia normalizada das duas variveis X e Y .

Isto natural de se considerar, pois se X e Y tomam valores muito grandes,
ento Cov(X, Y ) seria certamente um nmero grande. Quando tomamos o
nmero X,Y , j expurgamos tal fato atravs da normalizao obtida ao dividir
por X Y . Assim, podemos comparar X1 ,Y1 e X2 ,Y2 , para pares de variveis
X1 , Y1 e X2 , Y2 , de maneira absoluta.
Um valor X,Y prximo de zero indica que X e Y no exercem muita
inuncia um sobre o outro. Por outro lado, um valor X,Y prximo de 1
indica que X inuencia de forma intensa a Y e vice versa.
Por exemplo, suponha que X descreve uma pessoa genrica e sua proba-
bilidade de ir a farmcia, e, Y a probabilidade da pessoa estar com alguma
molstia no muito grave. Ento X e Y esto correlacionados: pessoas doentes
tendem a ir a farmcia para poder comprar medicamentos. Neste caso, X,Y
deve ser grande e prximo de 1.
Um tpico de grande importncia na Teoria dos Processos Estocsticos a
anlise da questo: supondo que Xn , n N, descreve um processo estocstico
estacionrio, para cada n N, denote por cn a correlao de X0 , Xn . Se o
processo fosse independente ento cn = 0 para todo n. Se existisse c, > 0,
tais que cn c en , para todo n, dizemos que o processo Xn , n N, possui
decaimento exponencial de correlao. Esta propriedade corresponde a um
processo Xn , que no independente, mas que a evoluo temporal de Xn
tal que a longo prazo se parece com ele. Ou seja, se n grande, Xn quase no
inuenciado por X0 . Neste caso se diz, de forma heurstica, que o processo
i i
i i
i i

i i
5.3 Processos Estocsticos Independentes 443
Xn comea a perder rapidamente memria com o decorrer do tempo.

Se existisse 0 < c, 0 < < 1, tais que cn c n , para todo n, dizemos
que o processo Xn , n N, possui decaimento polinomial (ou, hiperblico) de
correlao. Neste caso, se n grande, Xn quase no inuenciado por X0 ,
mas a velocidade com que isto ocorre bem mais lenta do que no caso de
decaimento exponencial de correlao.
Muitas propriedade importantes, como o Teorema Central do Limite (em
casos mais gerais de processos estacionrios no independentes), podem ser
obtidas a partir de propriedades oriundas da velocidade do decaimento de
correlao [B] [S] [Du].
5.3 Processos Estocsticos Independentes

O Teorema do Limite Central para variveis independentes foi obtido atravs
da convergncia de Sn no sentido de distribuio para a varivel Xn . A Lei
Fraca dos Grandes Nmeros considera apenas a probabilidade de Xn , quando
n vai a innito. Desejamos analisar outros resultados para processos inde-
pendentes que considerem convergncia em P -quase todo ponto. Para isto,
necessitaremos de vrios resultados que sero abordados a seguir.
O leitor poder encontrar uma verso mais abrangente e completa dos
tpicos decritos aqui em [B].
Denio 5.32. Uma sequncia de conjuntos B1 , B2 , ..., Bn F so ditos
independentes em relao (, F, P ) se
P (B1 B2 ... Bn ) = P (B1 ) P (B2 ) ... P (Bn ).
Denio 5.33. Uma sequncia de classes de conjuntos B1 , B2 , ..., Bn F

so ditos independentes em relao (, P, F) se
P (B1 B2 ... Bn ) = P (B1 ) P (B2 ) ... P (Bn ),
i i
i i
i i

i i
para toda seqncia de conjuntos
B1 B1 , B2 B2 , ..., Bn Bn .
Na denio acima as classes de conjuntos Bi no so necessariamente

-lgebras.
Uma pequena sutileza, no que segue, iremos sempre considerar que
um dos elementos de cada um dos Bi , i {1, 2, ..., n}. Sendo assim, se, por
exemplo, temos trs colees de conjuntos independentes, B1 , B2 , B3 , ento
para B1 B1 e B3 B3 , vale que
P (B1 B3 ) = P (B1 ) P (B3 ).
Teorema 5.18. Suponha que as classes de conjuntos B1 , B2 , ..., Bn F so

independentes para (, P, F), que Bi para todo i {1, 2, ..., n} e ainda
que cada Bi seja um sistema- , ento
(B1 ), (B2 ), ..., (Bn )
so -lgebras independentes.
Demonstrao: Podemos supor que cada Bi tem probabilidade positiva.

Fixados B2 B2 , B3 B3 , ..., Bn Bn , a lei induzida P1 sobre conjuntos
B F por
P ( B B2 B3 ... Bn )
P1 (B) =
P (B2 ) P (B3 ) ... P (Bn )
uma probabilidade sobre F .
Ainda, para conjuntos B em B1 temos a igualdade P (B) = P1 (B). Logo,
como assumimos que B1 um sistema- , s existe uma extenso de P1 a (B1 )
e esta deve coincidir com P . Logo, para todo B1 (B1 ) temos que
P ( B1 B2 B3 ... Bn )
P (B1 ) = .
P (B2 ) P (B3 ) ... P (Bn )
i i
i i
i i

i i
Logo,
(B1 ), B2 , B3 , ..., Bn ,
so independentes.
Fixados B1 (B1 ), B2 B2 , ..., Bn Bn , a lei induzida P2 sobre conjuntos
B F por
P ( B1 B B3 ..., Bn )
P2 (B) =
P (B1 ) P (B3 ) ... P (Bn )
uma probabilidade sobre F .
Ainda, para conjuntos B em B2 temos a igualdade P (B) = P2 (B). Logo,
como B2 um sistema , s existe uma extenso de P2 a (B2 ) e esta deve
coincidir com P . Logo, para todo B2 (B2 ) temos que
P ( B1 B2 B3 ..., Bn )
P (B2 ) = .
P (B1 ) P (B3 ) ... P (Bn )
Logo,
(B1 ), (B2 ), B3 , ..., Bn ,
so independentes.
O resultado segue de aplicar o processo indutivo descrito acima.
Denio 5.34. Seja uma coleo de ndices . Os conjuntos B F , com

, so ditos independentes em relao (, P, F), se para qualquer escolha
de nitos ndices 1 , 2 , ..., n , vale
P (B1 B2 ... Bn ) = P (B1 ) P (B2 ) ... P (Bn ).
O conjunto acima no precisa ser enumervel.
Denio 5.35. Seja uma coleo de ndices . As classes de conjuntos
B F , com , so ditas independentes em relao (, P, F), se para
i i
i i
i i

i i
qualquer escolha de nitos ndices distintos 1 , 2 , ..., n , e de conjuntos
B1 B1 , B2 B2 , ..., Bn Bn , vale
P (B1 B2 ... Bn ) = P (B1 ) P (B2 ) ... P (Bn ).
Dizemos que a varivel aleatria X : (, A, P ) (R, R), indepen-

dente da -lgebra G , se a -lgebra F = {X 1 (B) | B Borel set em R}
independente da -lgebra G .
Isto implica que se G G mensurvel, ento

IG X dP = IG dP X dP.
De fato, P (G X 1 (B)) = P (G) P (X 1 (B)). Assim,

IG IX 1 (B) dP = IG dP IX 1 (B) dP.
n
Desta forma se Yn = j=1 aj IX 1 (Bj ) temos que

IG Yn dP = IG dP Yn dP.
Tomando agora Yn sequncia montona convergindo a X o resultado segue.
Teorema 5.19. Seja um conjunto de ndices e B , , classes de con-
juntos independentes, e suponha que cada B seja um sistema- , ento
(B ), ,
so independentes.
No apresentaremos a prova do resultado acima, pois segue raciocnio igual

aos casos anteriores.
Usaremos a notao (A1 , A2 , ..., An , ...), onde Ai , i N, so classes de
conjuntos em uma -lgebra F , para denotar a -lgebra
(A1 A2 ... An ...).
i i
i i
i i

i i
Fixada uma seqncia de classes Ai , i N, gostaramos de considerar

para um n xo o conjunto (An , An+1 , An+2 , ...). Esta -lgebra s contm
informao dos conjuntos em Aj para j n.
Exemplo 5.15. Por exemplo, considere S = {1, 2}, F a -lgebra gerada

pelos cilindros em S N , e
Ai = { , S N , { | Xi (w) = 1}, { | Xi (w) = 2} }.
Associe 1 cara e 2 coroa. O conjunto Ai uma -lgebra e descreve

a informao obtida pelo que acontece apenas na i-sima vez que jogamos a
moeda.
Fixando n = 4, a -lgebra (A4 , A5 , ..., An , ...) descreve a informao total
obtida ao jogar a moeda todas as vezes aps o tempo n = 3. Esta -lgebra,
por outro lado, no traz informao do que ocorre antes do tempo n = 4.
Denio 5.36. Seja o espao mensurvel (, F) e a seqncia de classes de
conjuntos
A1 , A2 , ..., An , ..., F.
A -lgebra cauda
T =
n=1 (An , An+1 , ...).
Seja = {1, 2}N , F a -lgebra gerada pelos cilindros (de todos os ranks)
e An a -lgebra gerada pelos conjuntos {1, 2}n1 {1} {1, 2}N e {1, 2}n1
{2} {1, 2}N .
O conjunto {1, 2} {1, 2} {1}N est em (A3 , A4 , ...)
Exemplo 5.16. Seja uma seqncia Ai de elementos de F e tome Ai = {Ai }.

Seja
A = lim sup Am =
m jm Aj ,
m
i i
i i
i i

i i
e
B = lim inf Am =
m jn Aj .
m
Armamos que neste caso, A T . De fato, para cada m xo A
(Am , Am+1 , ...).
Da mesma forma, B T .
Neste exemplo ca bem claro que determinar se um certo conjunto C est
ou no na -lgebra cauda, algo que no pode ser determinado por um
nmero nito de informaes.
Denio 5.37. Os conjuntos em T so chamados de eventos cauda e um
qualquer destes conjuntos no pode depender do que acontece em nitos An .
Exemplo 5.17. Vamos exemplicar atravs de um problema interessante

nossa armao: considere S = {1, 2}, F a -lgebra gerada pelos cilindros
em S N , e
Ai = { , S N , { | Xi (w) = 1}, { | Xi (w) = 0} }.
Associe 1 cara e 0 coroa. Vamos supor que P sobre a -lgebra gerada
pelos cilindros advm de supor que temos um processo independente e que
P (X1 (w) = 1) = 1/2 e P (X1 () = 0) = 1/2.
Uma pergunta natural saber se xado = (w1 , w2 , ..., wn , ...), vale ou no
a armao
1
n
1
lim wi = .
n n 2
i=1
Esperaramos que para a maioria" dos {1, 2}N fosse vlida a armao
acima. De fato, para um evento xo, a existncia do limite acima, traduziria
o fato que se jogamos uma moeda (honesta) innitas vezes e wi descreve a face
que sai na i-sima jogada, ento a mdia de vezes que sai cara em n jogadas
converge a 1/2.
i i
i i
i i

i i
Considere ento o conjunto
1
n
1
A = { = (w1 , w2 , ..., wn , ...) | lim wi = }.
n n 2
i=1
Armamos que A est na -lgebra cauda da seqncia
Ai = { , S N , { = (w1 , w2 , ..) | wi = 1}, { = (w1 , w2 , ...) | wi = 0} }.
A armao acima bem natural, visto que para saber se existe o limite
n
limn n1 i=1 wi = 2 no basta saber se pertence a quais conjuntos de ni-
1
tas colees Ai . Ou seja, no podemos determinar se = (w1 , w2 , ..., wn , ...)

A, olhando apenas um nmero nito de wi .
De maneira mais formal,
1
n
1 1
A=
m=1
N =0
n>N {| | wi | }.
n i=0 2 m
Na verdade, um forma mais interessante
1
n
1 1
A=
m=1
N >2 m2
n>N {| | wi | }.
n i=m 2 m
Desta maneira ca claro que A um evento cauda.

Ser que P (A) = 1?
O prximo resultado dar uma resposta parcial a questo.
Teorema 5.20. Sejam A1 , A2 , ..., An , ... uma seqncia de conjuntos
independentes e
A T =
n=1 (An , An+1 , ...),
ento P (A) = 0 ou P (A) = 1.
i i
i i
i i

i i
O resultado acima conhecido como a Lei zero ou um.

Antes de apresentar a demonstrao deste teorema precisamos de dois
Lemas.
Lema 5.2. Sob as hipteses acima, para qualquer n xo vale que
(A1 ), (A2 ), ..., (An1 ) e (An , An+1 , An+2 , ...),
so independentes.
Demonstrao: De fato, considere G o conjunto de todas as intersees nitas

de elementos An , An+1 , An+2 , ...
Sendo assim, as colees de conjuntos
A1 = {A1 , , }, A2 = {A2 , , }, ..., An1 = {An1 , , }, G,
so tais que cada um um sistema- .

Ainda, o conjunto de ncolees acima independente. De fato, para
B = Ai1 Ai2 Ai3 , ..., Aij G, onde Ai1 , Ai2 , Ai3 , ..., Aij foram escolhidos
entre {An , An+1 , An+2 , ....}, temos que
P (A1 A2 A3 , ..., An1 B) =
P (A1 A2 A3 , ..., An1 Ai1 Ai2 Ai3 ... Aij ) =

P (A1 ) P (A2 ) P (A3 )..., , P (An1 ) P (Ai1 ) P (Ai2 ) P (Ai3 ) ... P (Aij ) =
P (A1 ) P (A2 ) P (A3 )... P (An1 ) P (Ai1 Ai2 Ai3 ... Aij ) =
P (A1 ) P (A2 ) P (A3 )... P (An1 ) P (B).
Na demonstrao acima poderamos substituir alguns Ai por , e tudo
continuaria valendo da mesma forma, ou seja, por exemplo,
P (A1 A3 , ..., An1 B) =
i i
i i
i i

i i
P (A1 ) P () P (A3 ), ..., P (An1 ) P (B) =
P (A1 ) P (A3 ), ..., P (An1 ) P (B).
Logo, do Lema acima conclumos que
(A1 ), (A2 ), ..., (An1 ), (G),
so independentes.
fcil ver que (G) = (A1 , A2 , ...), e assim o lema est provado.
Lema 5.3. Seja A um evento cauda, ento
(A) e (A1 , A2 , A3 , ...),
so independentes.
Demonstrao: Seja G a coleo das intersees nitas dos Ai , i N.

G um -sistema.
Seja B = Ai1 Ai2 Ai3 ... Aij G, onde
Ai1 , Ai2 , Ai3 , ..., Aij ,
foram escolhidos entre {A1 , A2 , A3 , ...}.

Seja n 1 maior que todos estes ndices {i1 , i2 , ..., ij }.
Ora, como A (An+1 , An+2 , ...), e (An+1 , An+2 , ...) independente de
A1 , A2 , ..., An ,
temos que (An+1 , An+2 , ...) independente de Ai1 , Ai2 , Ai3 , ..., Aij .
Como A (An , An+1 , ...), temos que A independente de
Ai1 , Ai2 , Ai3 , ..., Aij .
i i
i i
i i

i i
Da mesma forma como no lema precedente pode se mostrar que
P (A B) = P (A) P (B).
Como A e G denem sistemas- conclumos que (A) e (G) so indepen-

dentes. Finalmente, como
(G) = (A1 , A2 , ...),
o resultado segue.
O teorema 5.20 agora pode ser demonstrado de maneira breve.

Demonstrao: Seja A um conjunto na -lgebra cauda. Ora, A (A1 , A2 , ..., An )
e (A) independente de (A1 , A2 , ..., An ), logo
P (A) = P (A A) = P (A) P (A) = P (A)2 .
Logo, P (A) = 0 ou P (A) = 1.
O Teorema 5.20 acima de grande utilidade em certas circunstncias. Se

queremos provar que um certo conjunto A tem probabilidade 1 e se por acaso
ele est na -lgebra cauda, basta mostrar que P (A) > 0.
Os resultados acima envolviam probabilidades e conjuntos mensurveis,
vamos agora considerar os resultados anlogos para processos estocsticos.
Dado f : (, F) (R, R) mensurvel usual denotar Ff como
Ff = {f 1 (B) | B R}.
Denio 5.38. Dizemos que duas funes integrveis f : (, F, P ) (R, R)

e g : (, F, P ) (R, R) so independentes se para quaisquer A, B R,
P ({ | f () A, g () B}) = P ({ | f () A}) P ({ | g () B}).
i i
i i
i i

i i
De outra forma, se as -lgebras Ff e Ff , geradas respectivamente por f

e g, so independentes.
Ainda, f independente da -lgebra G se G e Ff so independentes.

Mais geralmente as funes fi , i N, so independentes se a sequncia de
-lgebras Ffi , i N, independente no sentido anterior.
Teorema 5.21. Sejam f : (, F, P ) (R, R) e g : (, F, P ) (R, R) inde-

pendentes e h : (R, R) (R, R) mensurvel, ento hf e g so independentes.
Demonstrao: Suponha inicialmente que h seja uma funo da forma h =

c IC , para algum C R e c R.
Sejam A, B R, Ora se c A, ento
P ({ | h f () A, g () B}) =
P ({ | f () C, g () B}) =
P ({ | f () C}) P ({, | g () B}) =
P ({ | h f () A}) P ({, | g() B}).
Se c no est em A, ento os dois lados das igualdades acima so nulos.

O argumento facilmente passa para h simples, ou seja h da forma h =
k
i=1 ci Ici . Finalmente, como toda h mensurvel limite crescente de funes
simples hn , n N, podemos considerar o resultado acima para hn f e g e
fazer o limite em n para obter o resultado desejado.
Teorema 5.22. Se as duas funes integrveis f : (, P, F) (R, R) e g :

(, P, F) (R, R) so independentes ento

f () g () dP () = f ()dP () g () dP ().
i i
i i
i i

i i
Demonstrao: Quando as funes independentes f e g so funes simples, o

resultado trivial.
importante agora considerar a seguinte forma cannica de se obter a par-
tir de f uma sequncia montona de funes simples hn , n N, que converge
af
Primeiro, vamos supor que f no negativa.
Para cada valor n considere a seguinte funo mensurvel zn : R+ R,
a) zn (x) = n, se x > n
b) zn (x) = j1
2n
, se x tal que (j1)
2n
< x j
2n
, para algum j {1, 2, 3, 4, ..., 2n }.
Considere agora hn = zn f . Note que, para n xo, se fatiarmos a imagem
de f pela interseo com conjuntos da forma [ nj , nj ), j {1, 2, 3, 4, ..., 2n } ento
a zn vai levar cada fatia num valor 2jn (que delimita a parte debaixo da fatia).
Logos as funes hn () so simples e convergem (pontualmente para todo
, e ainda monotonamente) a f ().
O ponto importante do mtodo acima que as zn esto xas, e o procedi-
mento funciona tambm para uma g qualquer, ou seja, vn = zn g converge a
g como acima.
Em resumo, sabemos que

lim hn dP = lim (zn f ) dP = f dP,
n n

lim vn dP = lim (zn g) dP = g dP,
n n
e
lim hn vn dP = lim (zn f ) (zn g) dP = f g dP.
n n
Segue da proposio acima que, xado n, a funo (zn f ) independente

de g . Aplicando mais uma vez, o resultado anterior, temos que (zn f )
independente de (zn g).
i i
i i
i i

i i
Ora, (zn g) e (zn f ) so simples, ento, conforme armamos no incio da

demonstrao, vale que

(zn f ) (zn g) dP = (zn f ) dP (zn g) dP.
O resultado segue das trs igualdades entre integrais acima.
Denio 5.39. Dado um conjunto de ndices , e uma famlia de funes

mensurveis X : (, P, A) (R, R), denotamos F = (X , ) A, a
menor -lgebra contida em A que torna todas as funes X mensurveis.
Esta coleo obtida tomando todos os conjuntos possveis da forma
X1 (A1 ) X2 (A2 ) ... Xn (An ),
n = 1, 2, ..., e Aj boreleano na reta.

Quando nito ou enumervel usaremos a notao
(X1 , X2 , X3 , ..., Xk ),
ou
(X1 , X2 , X3 , ..., Xk , ...).
A sigma-algebra assim obtida denominada de sigma-algebra gerada por
um conjunto de funes.
Quando S enumervel e X1 , X2 , ..., Xk , so tais que Xi : (, F) (S, R),
ento,
(X1 , X2 , X3 , ..., Xk ) = (V),
onde V so os conjuntos da forma { | Xi1 = a1 , Xi2 = a2 , ..., Xir = ar }, e onde
aj S , ij {1, 2, ..., k}, j {1, 2, ..., r}, r n.
Sugerimos ao leitor muita cautela ao tentar imaginar as possveis general-
izaes da armao acima para os outros casos.
i i
i i
i i

i i
Denio 5.40. Seja Xn , n = 1, 2, ..., n, ..., Processo Estocstico com conjunto

de estados S . A -lgebra cauda do Processo Estocstico Xn , n N a coleo
T =
k=1 (Xk , Xk+1 , ...).
Fixado o nmero real a, podemos nos perguntar se existem = S N

tais que
1
lim ( X1 () + X2 () + ... + Xn ()) = a.
n n
Denotemos por Aa o conjunto de tais .
De maneira mais formal,
1
n
1
Aa =
m=1
N =0
n>N {| | Xi () a | }.
n i=1 m
Uma outra forma equivalente de descrever Aa seria
1
n
1
Aa =
m=1
N m
n>N {| | Xi () a | }.
n i=m m
Desta forma, se obtm que Aa um evento cauda do Processo Estocstico
xn , n N.
Teorema 5.23. Se Xn , n N, um Processo Estocstico Independente
(Denio 1.11) ento, para cada a xo o conjunto
1
Aa = { | lim ( X1 () + X2 () + ... + Xn ()) = a }
n n
tem probabilidade 0 ou 1 para a P associada (ao processo) sobre o conjunto
S N.
Esta teorema segue de imediato do seguinte:
Teorema 5.24. Se Xn , n N, um Processo Estocstico Independente e
A T =
k=1 (Xk , Xk+1 , ...),
ento A tem probabilidade 0 ou 1 para a P associada (ao processo) sobre S N.
i i
i i
i i

i i
Demonstrao: A idia mostrar que P (A)2 = P (A). O procedimento semel-

hante ao do Teorema 5.18 mas algumas diferenas aparecem na prova.
Primeiro, armamos que

j=1 (X1 , X2 , ..., Xj ),
gera a -lgebra
(X1 , X2 , ..., Xk , ...).
Assumindo isto, vamos mostrar o teorema.

Ora, se A T , ento, A (Xj+1 , Xj+2 , ...), para todo j .
Ento para j xo, como o processo Xn , n N, independente, temos que,
A independente de (X1 , X2 , ..., Xj ). Logo temos que A independente de

j=1 (X1 , X2 , ..., Xj ).
Como, este ltimo conjunto gera (X1 , X2 , ..., Xk , ...), ento, pelo Teroema
5.18, conclumos que A independente de (X1 , X2 , ..., Xk , ...).
Ora, A elemento desta -lgebra, logo P (A) = P (A A) = P (A) P (A).
Logo, o resultado est demonstrado.
Vamos agora mostrar que
(
j=1 (X1 , X2 , ..., Xj ) ) = (X1 , X2 , ..., Xk , ...).
Primeiro note que

j=1 (X1 , X2 , ..., Xj ) uma lgebra. De fato, se
B (X1 , X2 , ..., Xk )
e
C (X1 , X2 , ..., Xr ),
ento
B C (X1 , X2 , ..., Xr+k ).
i i
i i
i i

i i
Se
B = (X1 , X2 , ..., Xk ),
ento X B tambm pois (X1 , X2 , ..., Xk ) -lgebra. Logo,

j=1 (X1 , X2 , ..., Xj ),
uma lgebra.
Devemos mostrar nalmente que
(X1 , X2 , ...) (
j=1 (X1 , X2 , ..., Xj ) ).
Para isto, basta que cada Xr seja mensurvel
(
j=1 (X1 , X2 , ..., Xj ) ).
Mas isto trivial, pois Xr mensurvel em relao a (X1 , X2 , ..., Xr )
Observamos que se Xn , n N, for um Processo Estocstico Independente,

no mximo para um valor de a, o conjunto Aa pode ter probabilidade 1.
No resultado acima no usamos o fato que Xn , n N era identicamente
distribudo.
Para um Processo Estocstico Xn xado, e S N xo, denotamos
Sn () = X0 () + X1 () + ... + Xn1 ().
Note que o teorema acima assegura tambm que para cada a R xo o
conjunto
Da = { | lim Sn () = lim ( X0 () + X1 () + ... + Xn1 ()) = a }

n n
tem probabilidade 0 ou 1 para a P associada sobre S N .
i i
i i
i i

i i
Em princpio, poderia no haver valor a R tal que P (Da ) = 1. Vamos

tentar dar uma resposta a esta pergunta em um caso particular. Para isto
necessitaremos de vrios resultados.
A desigualdade de Chebyshev arma que
1
P (|Sn | a) V ar(Sn ).
a2
Desejamos mostrar que sob certas condies, as somas Sn () obtidas de
Processos Estocsticos independentes convergem, para S N P -quase toda
parte. Para isto necessitamos a seguinte verso da desigualdade acima:
Teorema 5.25. Considere X0 , X1 , ..., Xn1 , n N, variveis aleatrias inde-

pendentes Xk : (, P, (C)) (R, R), tal que a mdia E(Xk ) = 0 para todo k
e as varincias E(Xk ) sejam nitas, k {0, 1, 2, ..., n 1}. Ento, para a 0,

2
1 1
P ( max |Sk | a) 2
E(Sn2 ) = 2 V ar(Sn ).
0kn1 a a
Demonstrao: Seja
Bk = { | |Sk | a, mas, |Sj | < a, j {1, 2, ..., k 1} }.
Note que Bk Bj = , para j = k .

Ainda,
{ | max |Sk ()| a) = k=0
n1
Bk .
0kn1
Logo,
n1

E(Sn2 ) Sn2 dP =
k=0 Bk
n1

[ Sk2 + 2 Sk (Sn Sk ) + (Sn Sk )2 ] dP
k=0 Bk
n1

[ Sk2 + 2 Sk (Sn Sk ) ] dP.
k=0 Bk
i i
i i
i i

i i
Note que Sn Sk = Xk +..+Xn1 (Xk , ..., Xn1 ) mensurvel. Sk , por sua

vez (X0 , ..., Xk1 ) mensurvel. Ainda, como E(Sn Sk ) = 0, Bk conjunto
(X0 , ..., Xk1 )-mensurvel, e as -lgebras (Xk , ..., Xn1 ) e (X0 , ..., Xk1 )
so independentes, temos que

Sk (Sn Sk ) dP = IBk Sk (Sn Sk ) dP = 0.
Bk
Acima, usamos o fato que se Sk e IBk so independentes de (Sn Sk ), ento

Sk IBk independente de (Sn Sk ) e ainda o Teorema 5.22.
Finalmente,
n1

E(Sn2 ) [ Sk2 ] dP
k=0 Bk

n1
a2 P (Bk ) = a2 P ( { | max |Sk ()| a)} ).
0kn1
k=0
O prximo teorema pode ser obtido dividindo
{ | max |Sk ()| 3 a },

0kn1
em conjuntos da forma Bk , k {0, 1, 2, ..., k 1}, de maneira semelhante a

anterior e no ser demonstrado (prova em [B]).
Teorema 5.26. Considere X0 , X1 , ..., Xn1 , n N, variveis aleatrias inde-
pendentes Xk : (, P, (C)) (R, R). Ento, para a 0,
P ( max |Sk | 3 a) 3 max P (|Sk | a).

0kn1 0kn1
O prximo resultado para Processos Estocsticos Independentes no (nec-

essariamente) identicamente distribudos.
i i
i i
i i

i i
Teorema 5.27. Considere Xn , n N, Processo Estocstico Independente
Xn : (, P, (C)) (R, R), tal que a mdia E(Xn ) = 0 para todo n N, e

2
k=0 E(Xk ) seja nita. Ento,
Sn () = X0 () + X1 () + ... + Xn1 (),
converge para P -quase-todo = S N .
Demonstrao: Vamos mostrar que para quase todo a seqncia Sn () de

Cauchy.
Ora, xado m, ento pelo teorema anterior e pelo fato que os Xk so
independentes vale que
P ( max |(Xn+1 + Xn+2 + ... + Xn+k )| 1/m) =

0kv
P ( max |(Sn+k Sn )| 1/m)

0kv
1
E((Xn+1 + Xn+2 + ... + Xn+v )2 ) =
(1/m)2
1 v
2
2
E(Xn+k ).
(1/m) k=1
Fazendo v , obtemos que
1
P (max |(Sn+k Sn )| 1/m) 2
E(Xn+k ).
0k (1/m)2 k=1

Como, k=1 E(Xk ) nita,
2
k=n E(Xk ) converge a zero quando n ,
2
logo temos que para m xo,
lim P (max |(Sn+k Sn )| 1/m) = 0.

n 0k
O conjunto dos tal que Sn () de Cauchy dado por
m0 n0 { | max |(Sn+k1 () Sn+k2 ())| 1/m }.

0k1 k2
i i
i i
i i

i i
Se tal que Sk (), k N no de Cauchy, ento existe m tal que para

qualquer n
Am,n = { | max |(Sn+k1 Sn+k2 )| 1/m) }.

0k1 k2
Uma pequena variao do argumento acima mostra que tambm vale
lim P ( max |(Sn+k1 Sn+k2 )| 1/m) = 0.

n 0k1 k2
Sendo assim, mostramos acima que para m xo vale
P (n0 Am,n ) = 0.
Logo, com probabilidade 1 vale que
Sn () = X0 () + X1 () + ... + Xn1 (),
converge.
5.4 Processos Estocsticos Estacionrios e Ergdi-

cos
Dizemos que invariante para T : se para qualquer A mensurvel
vale que (A) = (T 1 (A)).
Lembramos que M(T ) o conjunto das probabilidades invariantes para
a transformao mensurvel T : (, A, ) (, A, ).
Os resultados a seguir so completamente gerais, mas o leitor pode pensar,
se o desejar, que estamos falando sempre do caso em que X = S N , A a
-lgebra gerada pelos cilindros, = P provm de um processo estacionrio e
T o shift agindo em S N . Neste caso, (x0 , x1 , x2 , ...) = (x1 , x2 , x3 , ...), para
qualquer x = (x0 , x1 , x2 , ...) S N .
i i
i i
i i

i i
5.4 Processos Estocsticos Estacionrios e Ergdicos 463
Outro exemplo importante = S Z , A a -lgebra gerada pelos cilindros,

= P provm de um processo estacionrio e T o shift agindo em S Z .
Neste caso, denotamos o x geral em S Z , como
x = (..., x2 , x1 | x0 , x1 , x2 , ...),
onde | serve para nos dizer onde est o ndice zero de Z. Assim,
(..., x2 , x1 | x0 , x1 , x2 , ...) = (..., x1 , x0 | x1 , x2 , x3 , ...).
Denio 5.41. Dizemos que M(T ) ergdica se toda vez que AA

1
tal que T (A) = A, ento porque (A) = 0 ou (A) = 1.
Note que so faz sentido perguntar se uma probabilidade ergdica se ela

invariante.
Dizemos que um processo estocstico estacionrio Xn , n N, onde cada

Xn toma valores em S , ergdico se a medida em = S N , obtida a partir
do processo (e que invariante pelo shift : ) ergdica.
Denio 5.42. Diremos que um Processo Estocstico Estacionrio ergdico

se a correspondente P sobre SN for ergdica para o shift T.
Referimos o leitor para [PY] para uma exposio mais completa sobre Teo-
ria Ergdica.
Denio 5.43. Dizemos que um conjunto A invariante para o shift se

1
T (A) = A
Denio 5.44. Dizemos que um conjunto AA um conjunto trivial para
se (A) = 0 ou (A) = 1.
i i
i i
i i

i i
Sendo assim, uma probabilidade invariante vai ser ergdica se os nicos

conjuntos A invariantes so triviais.
Note que A = ou A = so sempre invariantes, de qualquer forma eles
tem probabilidades respectivamente 0 e 1.
Exemplo 5.18. Para transformao T (x) = x + (mod 1), onde uma

constante irracional (X = [0, 1), R a -lgebra) e a probabilidade associada
P = satisfaz d(x) = dx, ou seja, a medida de Lebesgue em [0, 1], vamos
mostrar que ergdica.
Sabemos j que invariante.
Vamos mostrar agora que de fato T (x) = x + (mod 1), ergdica quando
constante irracional.
Suponha que A A e T 1 (A) = A, ento IA (x) = IT 1 (A) (x) = IA (T (x))
para todo x [0, 1).
Expresse IA (x) em srie de Fourier

IA (x) = an e2inx .
n=
Como IA (x) = IA (T (x)) temos que

2inx
IA (x) = an e = an e2in(x+) = IA (T (x)).
n= n=
Portanto

an e2inx = an e2in e2inx .
n= n=
Como os coecientes de sries de Fourier so nicos, ento an e2in = an

para todo n Z . Como irracional, ento n no pode ser inteiro para
qualquer n (a menos de n = 0). A concluso que an = 0 para n = 0.
Portanto IA constante, Lebesgue quase toda parte, e ainda s assume os
i i
i i
i i

i i
valores 0 e 1. Sendo assim IA tem que ser a funo constante igual a 0 ou

a funo constante igual a 1. Portanto (A) = IA (x)dx = 0dx = 0 ou

(A) = IA (x)dx = 1dx = 1. Logo, neste caso a probabilidade de Lebesgue
ergdica.
Exemplo 5.19. Se Xn , n N, um Processo Estocstico Independente e

Identicamente Distribudo, a P associada sobre = S N estacionria. Neste
caso, P ergdica. De fato, se A tal que T 1 (A) = A, ento T 2 (A) =
T 1 ( T 1 (A) ) = T 1 (A) = A e assim, por induo T n (A) = A. Logo A est
na -lgebra cauda e assim P (A) = 0 ou P (A) = 1.
Teorema 5.28 (Birkho ). Seja (, A, ) T :

um espao de probabilidade e
uma transformao mensurvel que preserva , isto , M(T ), e

suponha ainda que ergdica. Ento para qualquer f : R integrvel,
ou seja f L (), vale que

1

1
n1
lim j
f (T (z)) = f (x)d(x) (5.1)
n n
j=0
para z , -quase toda parte.
O resultado acima um dos mais importantes teoremas da Matemtica

mas no apresentaremos a sua demonstrao. Este resultado apresenta uma
forma estendida da Lei Forte dos Grandes Nmeros para sistemas que sejam
ergdicos. Referimos o leitor a [PY] para uma prova. O conhecimento da
demonstrao deste resultado no essencial para o que segue.
Considere acima a funo f : R tal que f (x0 , x1 , x2 , ..., xn , ...) = x0 .
Seja Xn , n N, onde cada Xn toma valores em S = {1, 2, ..., d}, um processo
i i
i i
i i

i i
estocstico estacionrio ergdico e denote por P = probabilidade em = S N ,

obtida a partir do processo. Sabemos que X0 dP = Xn dP , n N. Segue
do teorema acima (usando tal f ) que para P quase todo w vale que
1
lim
( w0 + w1 + w2 + ... + wn1 ) =
n n

1
lim ( X0 (w) + X1 (w) + X2 (w) + ... + Xn1 (w) ) = X0 dP = w0 dP.
n n
Ou seja, para P quase toda amostra w a mdia temporal converge mdia

espacial.
No caso em que a probabilidade inicial (invariante) for = (1 , 2 , .., d )
temos que para P quase todo w
1
lim ( X0 (w) +X1 (w) +X2 (w)+...+Xn1 (w) ) = 1 1 +2 2 +3 3 +..+d d .
n n
Utilizando agora f : R tal que f (x0 , x1 , x2 , ..., xn , ...) = x20 obtemos

que para P quase todo w vale que

1
lim ( (X0 (w)) + (X1 (w)) + (X2 (w)) + ... + (Xn1 (w)) ) = X02 dP.
2 2 2 2
n n
Exemplo 5.20. Como aplicao, considere T o shift , P = a medida de

Bernoulli (independente e identicamente distribuda) sobre X = = {1, 2}N
obtida a partir p1 e p2 . Seja a funo mensurvel f : R, f (x) = I(X0 =2) (x),
ou seja f (x) = 1 se x0 = 2, e f (x) = 0 se x0 = 1, onde x = (x0 , x1 , x2 , ...).
Ser mostrado em breve que = P ergdico, assim, seguir do Teorema
de Birkho que existe um conjunto K tal que P (K) = 1 e se z K , z =
(z0 , z1 , z2 , ...), temos que
1
n1
lim I(X0 =2) (T j (z)) =
n n
j=0
1
lim ( I(X0 =2) ((z0 , z1 , z2 , ...))+I(X0 =2) ((z1 , z2 , z3 , ...))+I(X0 =2) ((z2 , z3 , z4 , ...))+
n n
i i
i i
i i

i i
... + I(X0 =2) ((zn1 , zn , zn+1 ...)) ) =

I(X0 =2) (x)d P (x) = P ( (X0 = 2) ) = p2 .
Note que, por exemplo, se x = (1, 1, 2, 1, 2, 1, 1, 1, 2, 2, ...), ento

1
[ I(X0 =2) ((1, 1, 2, 1, 2, 1, 1, 1, 2, 2, ...)) + I(X0 =2) ((1, 2, 1, 2, 1, 1, 1, 2, 2, ...))+
4
1
I(X0 =2) ((2, 1, 2, 1, 1, 1, 2, 2, ...)) + I(X0 =2) ((1, 2, 1, 1, 1, 2, 2, ...) ] = ,
4
mede o nmero mdio de aparecimento de 2 entre (x0 , x1 , x2 , x3 ).
Se p1 = 1/2 e p2 = 1/2 o processo estocstico acima considerado descreve
lanamento de uma moeda (identicando 1 com coroa e 2 com cara) o Teo-
rema de Birkho, neste caso, nos assegura algo que nos parece muito natural.
Quando jogamos a moeda muitas vezes, na mdia, aparece cara aproximada-
mente em metade das vezes.
Voltando ao caso geral em que p1 , p2 so quaisquer, se desejamos saber o
valor mdio de aparecimento da seqncia 2, 1 (nesta ordem), basta tomar
1
n1
lim I(X0 =2,X1 =1) (T j (z)) =
n n j=0
1
lim ( I(X0 =2,X1 =1) ((z0 , z1 , z2 , ...)) + I(X0 =2,X1 =1) ((z1 , z2 , z3 , ...))+
n n
I(X0 =2,X1 =1) ((z2 , z3 , z4 , ...)) + ... + I(X0 =2,X1 =1) ((zn1 , zn , zn+1 , ..)) ) =

I(X0 =2,X1 =1) (x)d P (x) = P ( (X0 = 2, X1 = 1) ) = p2 p1 ,
(para P -quase todo z ).

Mais geralmente, o Teorema de Birkhof permite calcular aproximadamente
(basta tomar apenas um = z = (z0 , z1 , z2 , ...) escolhido P -quase toda parte)
o valor da medida de qualquer cilindro
C = (X0 = a0 , X1 = a1 , ..., Xk = ak ),
i i
i i
i i

i i
onde ai {1, 2}, i {0, 1, 2, ..., k}. Para isto, basta considerar a funo men-
survel f = IC e seguir o procedimento acima.
Podemos mais geralmente calcular o valor de uma integral por meio de um
limite em n.
Como dissemos antes propriedade ser "ergdico" se aplica apenas a proba-

bilidades invariantes.
Se considerarmos um processo independente, mas no identicamente dis-
tribudo, no podemos aplicar o Teorema de Birkhof acima pois P no in-
variante.
Note que j sabamos considerando Processos Estocsticos Independentes
e Identicamente Distribudos, sob certas condies, a seqncia
1
(X0 () + X1 () + ... + Xn1 ()),
n
convergia em P -quase toda parte.
Exemplo 5.21. O Teorema de Birkhof assegura muito mais. Suponha que

S = {1, 2} e a P sobre S N foi obtida como acima a partir de p1 , p2 gerando assim
um Processo Independente Identicamente Distribudo. Considere f : S N R
da seguinte forma
f () = cos(w0 ) w1 + (w0 + w1 )2 ,
onde = (w0 , w1 , w2 , w3 , ..., wn , ...). Tal f integrvel em relao a P . Con-
sidere, para cada n = 0, 1, 2, ... uma nova varivel aleatria
Yn = cos(Xn ) Xn+1 + (Xn + Xn+1 )2 .
O Teorema de Birkho assegura que existe para P -quase todo S N

1
lim (Y0 () + Y1 () + ... + Yn1 ()) =
n n
i i
i i
i i

i i

f () dP () =
[ cos(1) 1 + (1 + 1)2 ] p1 p1 + [ cos(1) 2 + (1 + 2)2 ] p1 p2 +

[ cos(2) 1 + (2 + 1)2 ] p2 p1 + [ cos(2) 2 + (2 + 2)2 ] p2 p2 .
Poderamos considerar at f : S N R de natureza mais complexa:

1
f () = ( ) j wj ,
j=0
7
onde = (w0 , w1 , w2 , ..., wn , ...).

Neste caso, f dependeria de innitas ordenadas wi . Da mesma forma, como
acima, seja a nova varivel aleatria
n
1
Yn = ( )j Xj (),
j=0
7
que depende de n.
O Teorema de Birkho assegura, tambm neste caso, que existe para P -
quase todo S N
1
lim (Y0 () + Y1 () + ... + Yn1 ()).
n n

No prximo Teorema vamos assumir que a medida invariante mas no

necessariamente ergdica.
Teorema 5.29 (Birkho ). Seja (, A, ) espao de probabilidade M(T ),

onde T mensurvel , T : . Ento para qualquer f L1 () existe o
limite
1
n1
lim f (T j (z))
n n j=0
i i
i i
i i

i i
para z , -quase toda parte. Se este limite denotado por
1
n1
lim f (T j (x)) = f(x),
n n
j=0
ento tambm verdade que que

f(x)d(x) = f (x)d(x).
A demonstrao deste resultado pode ser encontrada em [PY].

Note que a diferena deste para o Teorema anterior que no primeiro,
quando a probabilidade era ergdica, o f era constante -quase toda parte.
O resultado acima uma verso mais fraca do anterior. Assumimos menos,
mas a concluso no to forte.
Este ltimo resultado pode ser aplicado probabilidade P de qualquer
processo estacionrio. No entanto, ele no to forte quanto o anterior. No
presente caso, no basta tomar um evento = x = (x1 , x2 , x3 , ...) ao acaso
segundo P para obter um valor aproximado da medida de um cilindro.
Se considerarmos um processo independente, mas no identicamente dis-
tribudo, no podemos aplicar o teorema acima pois P no invariante.
Num problema concreto da vida real muitas vezes o que se tem uma
sequncia temporal de dados. natural supor que estes dados so camin-
hos amostrais truncados (nitos) provenientes de conjuntos com probabilidade
1. Suponhamos ainda que estes so provenientes de um processo estocstico
ergdico. A interseo de conjuntos de probabilidade 1 tem probabilidade 1,
Assim, se pode assumir que estes dados esto entre aqueles em que vale a
concluso do Teorema Ergdico. Desta forma, se a sequncia dados for de um
perodo bem grande de tempo, ento eles podem ser usados para calcular o
valor aproximado de integrais de funes mensurveis em relao a probabili-
dade associada.
i i
i i
i i

i i
Questes mais nas que envolvem o quo grande deve ser o tamanho da
amostra e quo boa esta aproximao da integral envolvem a Teoria dos
Grandes Desvios [DZ].
Questes que envolvem a forma como esto dispersos estes dados em torno
da integral envolvem o Teorema Central do Limite que foi abordado em um
caso particular na seo 2.
Se o Processo Estocstico no ergdico o procedimento acima no pode
ser garantido. Note que a verso mais fraca do Teorema Ergdico no to
til. Mesmo que tivssemos vrias sequncias de dados distintas no se sabe a
priori o valor relativo de cada sequncia.
Em breve vamos apresentar uma condio suciente para que um Processo
Estocstico Markoviano seja ergdico (ver Teorema 5.32).
Vamos dar um exemplo agora de um processo estocstico estacionrio
Markoviano mas que no ergdico.
Exemplo 5.22. Considere a matriz de transio P tal que

( ) ( )
1 0 p11 p12
P= = ,
0 1 p21 p22
e p = (1/2, 1/2) = (p1 , p2 ). Temos a partir desta informao um processo de

Markov estacionrio denido por
P ({X0 () = a0 , X1 () = a1 , ..., Xm () = am )}) =
pa0 pa0 a1 pa1 a2 ...pam2 am1 pam1 am ,

sobre S N .
Note que o conjunto com um nico elemento
D1 = {(1, 1, 1, 1, 1, 1, 1, ...)},
tem probabilidade 1/2.
i i
i i
i i

i i
Mesma coisa para o conjunto
D1 = {(2, 2, 2, 2, 2, 2, ...)},
tem probabilidade 1/2.

Considere os conjuntos
A = {x = (x0 , x1 , x2 , x3 , ...) | tal que existe k 0, tal que xi = 1, i k},
B = {x = (x0 , x1 , x2 , x3 , ...) | tal que existe k 0, tal que xi = 2, i k}.
Note que cada um destes conjuntos tem probabilidade 1/2, pois D1 A e

D2 B .
Note que
T 1 (A) = A,
mas 0 < 1/2 = P (A) < 1,
Logo, o Processo Estocstico associado a P no ergdico.
Mais geralmente, suponha que a matriz de transio P , da forma #S por
#S , possa ser escrita como
( )
P1 0
P= ,
0 P2
onde Pi da forma #Si por #Si , i {1, 2}, e S = S1 S2 .

Seja um vetor de probabilidade inicial estacionrio sobre S (ou seja,
assuma que P = ), tal que tenha todas as componentes no nulas.
Ento, denindo
A = {x = (x0 , x1 , x2 , x3 , ...) | tal que existe k 0, tal que xi S1 , i k},
obtemos da mesma forma que T 1 (A) = A.
i i
i i
i i

i i
Resta mostrar que A tem medida positiva e diferente de 1.

O conjunto S S1N est contido em A.
Ora, S S1N = N
k=1 S S1 S .
k
Para k xo, como Pc,d

k
= 0 se c S1 e d S2 , ento

P (S S1k S N ) = i Pi,j1 Pjk1 ,j2 =
iS j1 S1 j2 S1

j1 Pjk1 ,j2 = k
j Pj,j2
= j2 .
j1 S1 j2 S1 jS j2 S1 j2 S1

Sendo assim, independente de k vale P (S S1k S N ) = j2 S1 j2 . Como
a sequncia S S1k S N decrescente,

P (A) P (S S1N ) = j2 > 0.
j2 S1
Podemos fazer o mesmo para o conjunto B . Desta forma se mostra que

P (A) < 1
Logo, tal probabilidade P no ergdica para o shift.
Neste caso no podemos usar o Teorema 5.28. Se apenas vale P = , o
processo estacionrio, e assim, podemos usar o Teorema 5.29.
Uma pequena alterao da demonstrao acima permite tratar o caso de
matrizes que no so irredutves com #S nito.
Denio 5.45. Dizemos que a probabilidade P M(T ), onde T : (X, A)

(X, A) mixing se para quaisquer conjuntos A, B A, vale que
lim P (T n (A) B) = P (A) P (B).

n
Um processo Estocstico estacionrio Xn , n N, mixing se sua

correspondente P o para o shift.
i i
i i
i i

i i
Uma outra caracterizao equivalente seria

lim n
IA (T ()) IB ()dP () = IA () dP () IB () dP ().
n
Isto porque IT n (A) () = IA (T n ()) e

n
IA (T ()) IB ()dP () = 1 dP (),
T n (A)(B)
e onde IA a funo indicador do conjunto A.

Por exemplo, se X = S N , T o shift e P advm de um processo estocstico
Xn , n N, temos que se A = (X1 = a1 , X2 = a2 , X3 = a3 ) e B = (X2 =
b2 , X5 = b5 ) ento
lim P ( (X2 = b2 , X5 = b5 ) (Xn+1 = a1 , Xn+2 = a2 , Xn+3 = a3 ) ) =

n
lim P (B T n (A) ) = P (B) P (A) =

n
P ( (X2 = b2 , X5 = b5 ) ) P ( (X1 = a1 , X2 = a2 , X3 = a3 ) ).
Observe que, se os eventos B e T n (A) acima fossem independentes, ento
P ( (X2 = b2 , X5 = b5 ) (Xn+1 = a1 , Xn+2 = a2 , Xn+3 = a3 ) ) =
P ( (X2 = b2 , X5 = b5 ) ) P ( (Xn+1 = a1 , Xn+2 = a2 , Xn+3 = a3 ) ) =

P ( (X2 = b2 , X5 = b5 ) ) P ( (X1 = a1 , X2 = a2 , X3 = a3 ) )
Desta forma os eventos T n (A) e B no estariam correlacionados. Num
processo mixing, no necessariamente vale o que foi armado acima. O que
ocorre que quando n vai para innito, a correlao entre os eventos T n (A)
e B vai a zero, para quaisquer A e B .
Em outra palavras, se o Processo estocstico mixing, ento comea a
haver perda de memria do que ocorre a medida que n vai a innito, ou seja,
no caso do exemplo acima, o evento (X2 = b2 , X5 = b5 ) tem cada vez menos
i i
i i
i i

i i
inuncia no evento (Xn+1 = a1 , Xn+2 = a2 , Xn+3 = a3 ) a medida que n

cresce. Ou seja, o evento (X2 = b2 , X5 = b5 ) tem cada vez menos inuncia no
aparecimento de uma seqncia tipo (a1 , a2 , a3 ) a medida que n cresce.
A probabilidade induzida por certo Processo Markoviano em {1, 2, 3}N (ver
exemplo 2.35)
1 1 1
z1 + z2 + z3 ,
3 3 3
onde
z1 = (1, 2, 3, 1, 2, 3, 1, 2, 3, ..),
z2 = (2, 3, 1, 2, 3, 1, 2, 3, 1, ..)
e
z3 = (3, 1, 2, 3, 1, 2, 3, 1, 2, ..).
Esta probabilidade no mixing embora ergdica.
Teorema 5.30. So equivalentes:

a) P mixing, e
b) para qualquer f, g L2 (X, P, A), vale que

lim n
f (T ()) g()dP () = f () dP () g () dP ().
n
Ora b) implica a) trivialmente, basta tomar f = IA e g = IB .

Demonstrao:
Suponha que vale a), ento f pode ser aproximado por uma seqncia
monntona
f = lim hi ,
i
ni j
onde hi = j=1 ai IAj , uma funo simples. Da mesma forma,
i
g = lim zi ,
i
mi j
onde zi = j=1 bi IB j , uma funo simples.
i
i i
i i
i i

i i
Ainda,
(f T n ) = lim (hi T n ).
i
Ora, a aproximao de (f T ) g por funes simples poderia ser feito pelos

n
produtos
(f T n ) g = lim (hi T n ) zi .
i
O produto de funes simples do lado direito da igualdade acima envolveria

soma de produtos tipo
aki bji (IAki T n ) IB j .
i
Como vale a) para conjuntos Aki e Bij ,

ento b) pode ser obtido atravs
de procedimentos clssicos em Teoria da Medida em que se aproxima valores
atravs de limites.
de grande importncia em Probabilidade a anlise da velocidade que vai

a zero a diferena

cn = f (T ()) g()dP () ( f () dP ()
n
g () dP () ).
Denio 5.46. Seja Xn , n N, Processo Estocstico Mixing, dizemos que f

e g tm decaimento exponencial de correlao se existe C>0 e >0 tal que
cn C e n .
Denio 5.47. Seja Xn , n N, Processo Estocstico Mixing, dizemos que f

e g tm decaimento hiperblico (ou, polinomial) de correlao se existe C>0
e > 0 tal que cn C n .
No primeiro caso esta velocidade muito mais rpida. Sob condies bas-
tante gerais pode-se mostrar verses do Teorema Central do Limite para Pro-
cessos Estocsticos Mixing com decaimento exponencial de correlao (ver [B]
m da seo 35 para um resultado muito geral sobre o assunto).
i i
i i
i i

i i
Teorema 5.31. Se P mixing para T ento P ergdica para T.
Demonstrao: Seja um conjunto mensurvel A tal que T 1 (A) = A, considere

A e B = A na denio de mixing, logo como por hiptese T n (A) = A (segue
por induo), temos que
P (A) = lim P (A A)
n
lim P (T n (A) A) = P (A) P (A) = P (A)2 .

n
Os nicos nmeros reais tais que so iguais ao seu quadrado so zero e um.
Logo, P (A) = 0 ou P (A) = 1.
Vamos agora analisar a ergodicidade de algumas cadeias de Markov.
Teorema 5.32. Seja P matriz estocstica n por n, e p vetor de probabilidade
tal que p P = p. Considere o Processo Markoviano Estacionrio Xn , n N,

N
associado, P a sua probabilidade sobre S e A = (C) a -lgebra gerada pelos
cilindros, onde #S = n. Se P for recorrente aperidica e irredutvel ento P
ergdica para o shift T .
Demonstrao: Primeiro vamos mostrar que vale
lim P (T n (A) B) = P (A) P (B),

n
quando A e B so cilindros da forma
A = (X1 = j1 , X2 = j2 , ..., Xs = js ),
B = (X1 = i1 , X2 = i2 , ..., Xr = ir ).
Ora,
B T (m+r) (A) = (X1 = i1 , X2 = i2 , ..., Xr = ir ,
Xm+r+1 = j1 , Xm+r+2 = j2 , ..., Xm+r+s = js ) =
i i
i i
i i

i i
xr+1 ,xr+2 ,...,xm+r (X1 = i1 , X2 = i2 , ..., Xr = ir ,
Xr+1 = xr+1 , Xr+2 = xr+2 , ..., Xm+r = xm+r ,
Xm+r+1 = j1 , Xm+r+2 = j2 , ..., Xm+r+s = js ).
Portanto,

P (B T n (A)) = pi1 P (i1 , i2 )P (i2 , i3 )...P (ir1 , ir ) P (ir , xr+1 )
xr+1 ,xr+2 ,...,xm+r
P (xr+1 , xr+2 ) P (xr+2 , xr+3 )... P (xm+r , j1 )
P (j1 , j2 ) P (j2 , j3 )... P (js1 , js ) =

1
P (B) P (A) P (ir , xr+1 ) P (xr+1 , xr+2 )... P (xm+r , j1 ) =
pj 1 xr+1 ,xr+2 ,...,xm+r
(P m )ir j1
P (B) P (A) .
pj 1
Sendo assim, para i1 e j1 xos, como P recorrente aperidica e irredutvel,
ento vale que
lim P (T (m+r) (A) B) =
m
(P m )ir j1
lim P (B) P (A) =
m pj 1
(P m )ir j1
P (B) P (A) lim =
m pj1
pj 1
P (B) P (A) lim = P (B) P (A).
m pj 1
Como r est xo, fazer limite em n a mesma coisa que fazer limite
de n = m + r quando m .
Logo, o resultado que armamos acima (tipo mixing) verdadeiro quando
A e B so cilindros da forma acima. Considerando agora somas nitas destes
i i
i i
i i

i i
tipos de cilindros obtemos que a armao tambm verdadeira para qualquer

cilindro em C .
Em vez de mostrar que P mixing, para simplicar a argumentao, vamos
mostrar que P ergdico apenas.
Seja um conjunto mensurvel E em (C) tal que T 1 (E) = E .
Sabemos pelo Teorema 5.6 que existe uma seqncia de conjuntos Ai , i N,
em C tal que limi P (EAi ) = 0.
Primeiro, vamos analisar a questo para um conjunto da forma Ai xo.
Depois vamos elaborar o caso de um conjunto E qualquer via aproximao.
Isto ser feito a seguir.
Lembre que
P (B) = P (B A) + P (A B).
Ora, EAi = (Ai E) (E Ai ), logo, limi P (E Ai ) = 0 e

limi P (Ai E) = 0.
Suponha que P (E) P (Ai ) 0.
Portanto,
| P (E) P (Ai ) |=
= P (E Ai )+P (E Ai )(P (Ai E)+P (Ai E)) = P (E Ai )P (Ai E)
P (E Ai ) + P (Ai E).
O caso P (E) P (Ai ) 0 se trata de forma anloga.
Sendo assim,
lim | P (E) P (Ai ) | = 0.
i
Seja m e i xos, e considere T m (Ai ). Sabemos ento que para i xo
lim P (T m (Ai ) Ai ) = P (Ai )2 ,

m
pois Ai C .
i i
i i
i i

i i
Note que T m (A B) = T m (A) T m (B).

Como
P (E T m (Ai )) = P (T m (E) T m (Ai )) = P (E Ai ),
e
E (Ai T m (Ai )) (E Ai ) (E T m (Ai )),
temos que
P ( E (Ai T m (Ai ) ) 2 P ( E Ai ).
Desejamos mostrar que P (E) = P (E)2 .
Lembre que
|P (C) P (D)| P (C D) + P (D C).

Da mesma maneira como mostramos antes, obtem-se que

P (E) P (Ai T m (Ai ))
P (E (Ai T m (Ai )) + P ((Ai T m (Ai ) E) 4 P ( E Ai ).

Finalmente, para m e i xos, vale que

P (E) P (E)2

P (E) P (Ai T m (Ai )) + P (Ai T m (Ai )) P (E)2

4 P ( E Ai ) + P (Ai T m (Ai )) P (E)2

4 P ( E Ai ) + P (Ai T m (Ai )) P (Ai )2 + P (Ai )2 P (E)2 .
Pelo que assumimos acima, as trs parcelas vo a zero quando i .
Desta forma, P (E) = P (E)2 , e assim s resta a alternativa que P (E) = 0 ou
P (E) = 1.
Logo, P ergdica.
i i
i i
i i

i i
Note que uma condio necessria (mas no suciente) para P ser ergdica
que P seja estacionria. Assim, esta ltima propriedade, no caso de um
processo estocstico Markoviano, requer que consideremos a condio inicial
tal que P = .
Segue do resultado acima que se P for recorrente aperidica e irredutvel e

considerarmos o Processo Markoviano Estacionrio Xn associado, com prob-
abilidade inicial , ento dadas f : S R e g : S R vale

lim f (Xn ()) g(Xn ())dP () = f (s) d(s) g (s) d(s).
n
Ainda, dadas f : S S R e g : S R vale

lim f (Xn ()) g(Xn ())dP () = f (w) dP (w) g (s) d(s) =
n

f (w0 , w1 ) dP (w) g (s) d(s).
Note que segue do que foi mostrado acima que o processo de jogar uma
moeda de forma independente com probabilidade 1 > p1 > 0 e p2 = 1 p1
ergdico. Isto consequencia do fato que ele pode ser considerado markoviano
recorrente aperidica e irredutvel com a matriz de transio
( )
p 1 p2
P= .
p 1 p2
Considere S = {1, 2}, uma matriz estocstica P do tipo 2 por 2, com todas
as entradas positivas, e um vetor de probabilidade inicial R2 invariante
para P . Neste caso, pelo resultado acima, podemos usar o Teorema 5.28.
Se estivermos interessados em calcular a frequncia de aparecimento do bloco
i i
i i
i i

i i
1, 2, 2 numa sequencia w escolhida ao acaso, de acordo com a P associada,

devemos considerar a funo I1,1,2 .
Segue do fato do sistema em considerao ser ergdico que existe um con-
junto K , tal que P (K) = 1, e para todo w = (w0 , w1 , w2 , w3 , ...) K , vale

1
n1
lim I1,1,2 (wj , wj+1 , wj+2 , wj+3 , ...) = I1,1,2 dP = P (1, 1, 2) = 1 P1,2 P2,2 .
n n
j=0
5.5 Esperana e Probabilidade Condicional

O leitor poder encontrar em [B] uma verso mais completa do material apre-
sentado aqui.
Seja X : (, A, P ) (R, R) integrvel e G -lgebra contida em A. Desta

forma podemos calcular G XdP = IG XdP , para G em G . Note no entanto
que X pode no ser G -mensurvel.
Denio 5.48. Seja X : (, A, P ) (R, R) que P -integrvel e G uma

-lgebra contida em A. Diremos que Y : (, G, P ) (R, R) (assim G -
mensurvel) a Esperana Condicional (ou, a funo Valor Esperado de X
condicionado a G ) de X dada a -lgebra G , se para qualquer conjunto G G ,
vale
X()d P () = Y ()d P ().
G G
Note que Y uma funo e no um nmero.

De outra forma, Y uma verso de X que G mensurvel, e que em termos
de clculo de integral sobre qualquer conjunto G de G , no tem diferena do
que acontece para X .
Primeiro, note que tal Y sempre existe. De fato, considere primeiro o caso
em que X no-negativa. Seja , medida sobre G tal que

(G) = X dP.
G
i i
i i
i i

i i
5.5 Esperana e Probabilidade Condicional 483
Ento, absolutamente contnua em relao a P , quando consideramos

a -lgebra G . Ou seja, estamos aqui restringindo a ao de P a G . Ora, pelo
Teorema de Radon-Nikodin sobre a -lgebra G , temos que existe uma funo

Y, G -mensurvel, tal que (G) = G Y dP , para todo G G .
Logo,
Y d P = (G) = X dP.
G G
A funo Y nica, a menos do que acontece em um conjunto de medida
P nula.
Se X no positiva, podemos escrever X como X = X + X , onde X + e
X so no negativas, e a seguir aplicar a procedimento anterior a cada uma
das duas. O resultado segue trivialmente.
Usaremos a notao Y = E[X | G].
Ainda, armamos que para qualquer funo g que seja G mensurvel vale

g Y dP = g X dP.
Isto segue do procedimento usual de aproximar g por soma de funes

simples usando indicadores de conjuntos G meansurveis. Note que G Y d P =

G
X dP signica IG Y dP = IG X dP .
Exemplo 5.23. Considere sobre o intervalo [0, 1], a -lgebra de Borel R e P
a probabilidade de Lebesgue. Seja X = IB onde B = [0.4, 0.8] e G a -lgebra
gerada pelos conjuntos A1 , A2 , A3 onde A1 = [0, 0.2), A2 = [0.2, 0.5), A3 =
[0.5, 1]. A -lgebra G tem um nmero nito de elementos.
Ora, para Y = E[X | G] ser G mensurvel, ela tem que ser constante em
cada um dos conjuntos Ai , i {1, 2, 3}. A demonstrao deste fato similar
a apresentada na observao feita antes do Teorema 5.8.
Vamos denotar por ai , i {1, 2, 3} o valor Y (x), para x Ai .
Da relao
XdP = Y dP,
Ai Ai
i i
i i
i i

i i
obtemos que

P (Ai B) = IAi IB dP = IAi X dP = P (Ai ) ai ,
i {1, 2, 3}.
Resulta ento que
P (Ai B)
ai = = P (B | Ai ),
P (Ai )
i {1, 2, 3}.
Ou seja, a1 = 0, a2 = 0.1
0.3
, a3 = 0.3
0.5
.
Finalmente,
Y = a1 IA1 + a2 IA2 + a3 IA3 .
Considerando o ponto de vista que uma -lgebra uma informao de
que dispomos, podemos pensar, usando a notao da denio acima de valor
esperado, que existe certa funo X , mensurvel A (muito rica em termos de
informao, mas desconhecida para ns). Suponhamos que nossa informao
se restringe a G . Ento Y = E[X | G] o que podemos saber de tal funo X
atravs do conhecimento de G .
Um outro exemplo que uma variao do acima o seguinte: considere so-

bre o intervalo [0, 1], a -lgebra de Borel R e P a probabilidade de Lebesgue.
Seja G a -lgebra gerada pelos conjuntos A1 , A2 , A3 onde A1 = [0, 0.2), A2 =
[0.2, 0.5), A3 = [0.5, 1]. Seja X : [0, 1] R uma funo contnua. A funo
valor esperado Y = E[X | G] precisa ser constante sobre cada
conjunto A1 , A2 , A3 .
X dx
fcil ver que o valor de Y sobre Aj , j = 1, 2, 3, comprimento de Aj , isto , o
j A
valor mdio de X em Aj .
No caso de uma certa funo f : [0.1] R exibimos um exemplo (ver gura
5.3) de funo esperana condicional segundo a partio (sigma-algebra) dos
i i
i i
i i

i i
intervalos [0, 1/4], (1/4, 1, 2], (1/2, 3/4], (3/4, 1]. Neste caso a funo esperana
condicional constante em intervalos e denida pelos valores ai,j .
a01 f(x)
a11
a00 a10
00 01 10 11
Figura 5.3: Uma funo contnua f : [0.1] R e a esperana condicional em

relao a certa partio.
Exemplo 5.24. Seja = {1, 2}N e P obtida de um Processo Estocstico Xn ,

n N, com valores em {1, 2}. Seja A, a -lgebra gerada pelos cilindros.
Tipicamente, podemos pensar que estamos jogando uma moeda e que cara
signica 1 e coroa signica 2. No necessariamente estamos considerando um
Processo Estocstico Independente. Suponhamos X = IB , onde B A pode-
ria depender de innitas coordenadas, ou seja B no seria um cilindro. No
sabemos quem B . Quando consideramos IB , porque por algum mecanismo,
vai ocorrer B e nada mais.
Quando jogamos a moeda duas vezes, nosso conhecimento do jogo a -
lgebra G gerada pelos cilindros
A1 = { | X1 = 1, X2 = 1}, A2 = { | X1 = 1, X2 = 2},
e
A3 = { | X1 = 2, X2 = 1}, A4 = { | X1 = 2, X2 = 2}.
Uma funo F mensurvel em relao a sigma lgebra gerada por estes
conjuntos, se e s se, constante nestes conjuntos. A demonstrao deste fato
similar a apresentada na observao feita antes do Teorema 5.8.
i i
i i
i i

i i
Da mesma forma como no exemplo anterior, temos que se

P (B Ai )
ci = ,
P (Ai )
i {1, 2, 3, 4}, ento

4
Y = E[X | G] = ci IAi .
i=1
A funo Y acima traduz o conhecimento de X aps duas jogadas da

moeda. Note que a medida que jogamos a moeda trs ou mais vezes, vamos
tendo maior informao atravs da correspondente G , e assim obtendo uma Y
mais e mais rica em termos de informao.
Muitas vezes, a informao da -lgebra G provm de uma seqncia de
funes mensurveis X1 , X2 , X3 , ..., Xn , onde Xi : (, A) (R, R), ou seja,
G = (X1 , X2 , ..., Xn ).
Por exemplo se S = {1, 2}, = {1, 2}N , os cilindros de ordem 3 so
1, 1, 1, 1, 1, 2, 1, 2, 1, 1, 2, 2, 2, 1, 1, 2, 1, 2, 2, 2, 1, 2, 2, 2.
Por exemplo, temos que {X1 = a1 , X2 = a2 , X3 = a3 } = a1 , a2 , a3 .

A sigma algebra F3 a gerada por tais cilindros. Ela descreve a "infor-
mao" que obtemos a partir de X1 , X2 , X3 . Ou seja, se 1 e 2 esto associados
a cara e coroa, a sigma-algebra F3 a informao do jogo denido por lanar
a moeda tres vezes. Neste caso, F3 = (X1 , X2 , X3 )
Generalizando o teorema 5.15, pode se mostrar que se Y G -mensurvel,

ento existe h(x1 , x2 , ..., xn ) mensurvel, h : (Rn , Rn ) (R, R), tal que,
Y () = h(X1 (), X2 (), ..., Xn ()).
Ou seja, Y = E[X | G], tal que Y : (, D) (R, R), uma funo dos
valores X1 (), X2 (), ..., Xn ().
i i
i i
i i

i i
Aproveitando o exemplo acima, em que S = {1, 2}, e G = (X1 , X2 ), a

h(x1 , x2 ), neste caso, pode ser qualquer funo tal que
h(1, 1) = c1 , h(1, 2) = c2 , h(2, 1) = c3 , h(2, 2) = c4 .
Alguns textos em probabilidade chamam a funo
h(x1 , x2 , ..., xn ),
acima obtida de valor esperado, ou seja de
E(X | (X1 , X2 , ..., Xn )) = E(X | X1 , X2 , ..., Xn ),
e no a funo
Y = h(X1 , X2 , ..., Xn ).
No poder haver confuso nisso, pois mantm-se sempre a notao de se
utilizar letras minsculas para denotar pontos xi R e letras maisculas para
as funes Xi .
Se as variveis aleatrias Xi acima, i {1, 2, 3, ..., n}, tomassem valores em
S , ento h poderia ser tomada como uma funo de
h : S n R.

Note que se X for G -mensurvel ento X = E(X | G).
Ainda, dada a -lgebra G tal que G = {, }, ento, as nicas funes G
mensurveis so as funes constantes.
Ento, neste caso, se Y = E(X | G) e Y = c, onde c constante, temos que

c = Y dP = XdP . Desta forma E[X] = E[X | {, } ].
Teorema 5.33. Seja X : (, A, P ) (R, R), mensurvel e G1 , G2 -lgebras
contidas em A tais que G1 est contida em G2 .
Ento,
E[ ( E[ X | G2 ] ) | G1 ] = E[ X | G1 ].
i i
i i
i i

i i
Demonstrao: Denote por Y = E[ X | G2 ], Z = E[ X | G1 ].

Desejamos mostrar que E[ Y | G1 ] = Z.
Basta mostrar que para todo G G1 , vale que

Y dP = Z dP.
G G
Ora, todo G em G1 est em G2 , logo como Y = E[ X | G2 ], ento,

Y dP = X dP.
G G
Por outro lado, como Z = E[ X | G1 ], ento,

Z dP = X dP.
G G
Teorema 5.34. Seja X : (, A, P ) (R, R), mensurvel e G1 , G2 -lgebras

contidas em A tais que G1 est contida em G2 .
Ento,
E[ E[ X | G1 ] | G2 ] = E[ X | G1 ].
Demonstrao: Denote por Y = E[ X | G1 ], ento Y G1 mensurvel, e assim,
G2 mensurvel. Logo Y = E[ Y | G2 ].
Os dois resultados acima indicam o seguinte, se G1 G2 , ento, G1 tem

menos informao que G2 . Sendo assim, independente da ordem em que se
condiciona em G1 e G2 , o que resulta uma funo com menos informao.
Note que se Y = E[ X | G ], ento, como G , temos que

X dP = X dP = Y dP = Y dP.

Logo, para qualquer G ,
E[X] = E[ E[ X | G ] ].
i i
i i
i i

i i
Teorema 5.35. Seja o Processo Estocstico Xn , n N, independente e iden-

ticamente distribudo, Xn : (, F, P ) (R, R). Assumimos que para qual-
quer n, vale que Xn toma valores em N. Considere agora uma outra varivel
aleatria N : (, F) N que independente das Xn , n N. Seja, G a -
lgebra (N ) gerada por N sobre o conjunto . Considere a varivel aleatria
U sobre (, F, P ) dada por
U () = X1 () + X2 () + ... + XN (w) ().
Ento,
E[ U | G ] = Z,

onde Z() = (X1 + X2 + ... + Xn0 ) dP, para todo tal que N () = n0 .
Demonstrao: Ora, a funo Z denida sobre (, F, P ) claramente G men-

survel.
Ainda, dado G N, como X1 , X2 , ..., Xn independente de N ,

Z() dP () = P (N = n) (X1 + X2 + ... + Xn ) dP =
N ()G nG

(X1 + X2 + ... + Xn ) (w) dP (w) IN (w)=n dP (w) =
nG

(X1 + X2 + ... + Xn ) IN =n dP =
nG

U IN =n dP = U dP.
nG N ()G
A partir do resultado acima se pode mostrar facilmente que para s > 0 xo
vale
E[ sU | G ] = Z,

onde Z() = s(X1 +X2 +...+Xn0 ) dP, para todo tal que N () = n0 .
i i
i i
i i

i i
Teorema 5.36. Considere o Processo Estocstico Xn , n N, independente e

identicamente distribudo, Xn : (, F, P ) (N, P(N)). Assumimos que para
qualquer n, vale que Xn toma valores em N. Seja GX (s) a funo geradora
de X1 . Considere uma outra varivel aleatria N : (, F) N que in-
dependente das Xn , n N e tem funo geradora GN (s). Ento, a varivel
aleatria
U () = X1 () + X2 () + X3 () + ... + XN () (),
tem funo geradora GU que satisfaz
GU (x) = GN ( GX (s) ).
Demonstrao: Ora, usando a observao que zemos antes deste teorema

GU (s) = E[s ] = U
E[sU | N = n] P (N = n) =
n

E[sX1 +X2 +...+XN | N = n] P (N = n) =
n

E[sX1 +X2 +...+Xn ] P (N = n) =
n

E[sX1 ] E[sX2 ] ... E[sXn ] P (N = n) =
n

(E[sX1 ])n P (N = n) = GN (GX (s)).
n
Exemplo 5.25. Como aplicao do Teorema acima podemos mencionar o

seguinte problema: suponha que uma galinha coloque ovos em um nmero
i i
i i
i i

i i
N , tal que N tenha uma distribuio exponencial de parmetro . A seguir,

supomos que cada ovo gera um pintinho com uma certa probabilidade. Neste
caso, denimos X = 0 ou X = 1 de acordo com a possibilidade respectivamente
de nascer ou no o pintinho. Ento, supondo independncia entre todas as
variveis envolvidas, para calcular o nmero de pintinhos que nascem, devemos
calcular a probabilidade de
U = X1 + X2 + ... + XN .
Neste caso, esta probabilidade pode ser facilmente descrita a partir da

funo geradora GU (s), que pode ser obtida a partir da armao do teorema
acima.
Lembre que se X e Z so independentes E(X | Y, Z) = E(X | Y ).
Teorema 5.37. Seja X : (, A, P ) (R, R), mensurvel e G -lgebra con-

tida em A. Suponha que X seja G mensurvel e considere Z : R tal que
P -integrvel e ainda que valha que X Z tambm P -integrvel. Ento,
E(X Z | G) = X E(Z | G).
Demonstrao: Primeiro vamos mostrar o resultado quando X uma funo

indicador, ou seja, X = IK , K G . Seja Y = E(Z | G).
Seja G conjunto G -mensurvel. Ento,

X Y dP = IG IK Y dP = Y dP =
G GK

Z dP = IK Z dP = X Z dP.
GK G G
Sendo assim, a armao esta demonstrada neste caso.
i i
i i
i i

i i
O resultado se estende linearmente para X do tipo

k
X= ai IKi ,
i=1
Ki G e ai R.
Como toda X que G mensurvel limite crescente de uma seqncia de
funes simples Xk , k N, como do tipo descrita acima, o resultado segue do
teorema a convergncia montona.
Note que
lim Xk Z = X Z.
k
Lembre que dizemos que a varivel aleatria X : (, A, P ) (R, R)

independente da Sigma Algebra G se a -lgebra F = {X 1 (B) | B Borel set
em R} independente da -lgebra G .
Teorema 5.38. Seja X : (, A, P ) (R, R) mensurvel e G -lgebra contida

em A. Suponha que X seja independente de G ento

E[ X | G ] = X dP.
Demonstrao: Por hiptese, para todo G G , temos que IG G mensurvel,

logo
X dP = IG X dP = IG dP X dP =
G

IG ( X dP ) dP = ( X dP ) dP.
G
i i
i i
i i

i i
Teorema 5.39. Seja X : (, A, P ) (R, R), integrvel e G -lgebra contida

em A.
Suponha que V seja um sistema- e que G = (V). Assuma ainda que
seja uma unio nita ou enumervel de elementos de V . Ento Y ser igual
a E(X | G), se e s se, vale que Y G -mensurvel e para qualquer elemento
V V , vale que

Y dP = X dP.
V V
Demonstrao: Suponha primeiro que X e Y so positivos.

Considere duas probabilidades sobre G , que so 1 e 2 , onde, respectiva-

mente, 1 (G) = G Y dP e 2 (G) = G X dP, para todo G G . Quando estas
so restritas ao sistema- V , temos que 1 e 2 coincidem. Conclumos assim
que 1 e 2 coincidem sobre G .
O caso geral segue de considerar a parte positiva e negativa de X , e, assim
por diante, como em ocasies anteriores.
O resultado acima arma que se G = (V), ento basta testar nos conjuntos
geradores V V , para se saber se Y o valor esperado de X dado a -lgebra
G.
Exemplo 5.26. Vamos apresentar agora um exemplo em que a -lgebra

G mais interessante. Considere um Processo Estocstico Xn , onde n
{1, 2, 3, ..., n}, tomando valores em S = {1, 2} com a -lgebra A gerada pelos
cilindros sobre S N . Suponha que a correspondente P seja independente e iden-
ticamente distribuda de acordo com P (X1 = 1) = p1 e P (X1 = 2) = p2 . Seja
G = (X2 , X3 , X4 , ..., Xn , ...). Os conjuntos G -mensurveis sero da forma
({1} B) ({2} B),
onde B est na -lgebra A.
i i
i i
i i

i i
Logo, uma funo Y que seja G mensurvel ter que ter o mesmo valor em
cada ponto da forma (1, x2 , x3 , x4 , ...) e (2, x2 , x3 , x4 , ...). Ou seja, Y no sabe
distinguir a primeira coordenada x1 . Ela no contm esta informao.
Os conjuntos da forma
({1} C) ({2} C),
onde C cilindro da forma
C = { = (x1 , x2 , x3 , ...) | x1 = s1 , x2 = s2 , ..., xk = sk } = s1 , s2 , ..., sk ,
geram a -lgebra A. As unies nitas de tais conjuntos denem um sistema-

e esto sob as hipteses do ltimo teorema.
Vamos calcular quem Y = E[X1 X2 | G]. Seja G = ({1} C) ({2} C),
onde C cilindro da forma acima, ento

X1 X2 dP = 1 X2 dP + 2 X2 dP =
G {1} C {2} C
s1 P ({1} C) + 2s1 P ({2} C).

Sendo assim, o valor acima igual a 1 = P ({1} C) + 2P ({2} C) se
s1 = 1, e 1 = 2 P ({1} C) + 4P ({2} C) se s1 = 2.
Armamos que Y tem os seguintes valores:
a) Y () constante igual a c1 = P (1,s2 ,s13 ,...,s ) em 11 e 21.
k
b) Y () constante igual a c2 = P (2,s2 ,s23 ,...,s ) em 12 e 22.
k
Isto segue trivialmente do fato que, neste caso, se s1 = 1, ento

Y dP = c1 dP + c1 dP = c1 P (1, s2 , s3 , ..., sk ) = 1 .
G 11 s2 ,s3 ,...,sk 21 s2 ,s3 ,...,sk
Ainda, se s2 = 2, ento,

Y dP = c2 dP + c2 dP = c2 P (2, s2 , s3 , ..., sk ) = 2 .
G 12 s2 ,s3 ,...,sk 22 s2 ,s3 ,...,sk
Fica assim determinada, neste caso, quem E[X1 X2 | G] pelo teorema

acima.
i i
i i
i i

i i
Exemplo 5.27. Considere S = {1, 2, ..., d}, uma matriz estocstica P do tipo
d por d e um vetor de probabilidade inicial Rd . Ficam assim denidas as
probabilidades dos cilindros a1 , a2 , ..., ak de tamanho k . Denotamos por Xn ,
n N, Xn : {1, 2, ..., d}N R o processo estocstico Markoviano associado.
Seja F uma funo denida sobre o conjunto S = {1, 2, 3, ..., d}. Para n
xo considere a funco mensurvel F (Xn+1 ) = G : {1, 2, ..., d}N R. Desta
forma, G tem o valor F (j) para todo w a1 , a2 , ..., ak , j .
A funo E(F (Xn+1 )|Fn ) = g ser constante em cilindros de tamanho n.
O valor de g no cilindro a1 , a2 , ..., ak

j

j
F (j) P (a1 , a2 , ..., ak , j) = F (j) a1 Pa1 ,a2 Pa2 ,a3 ...Pak ,j .
j=1 j=1
Agora vamos introduzir o conceito de probabilidade condicional no seu

sentido mais amplo.
Seja (, A, P ), espao de medida e G -lgebra que est contida em A.
Gostaramos de dar sentido ao conceito de probabilidade condicional Y = YA
de um conjunto A A dada a -lgebra G . Ou seja, qual seria a probabilidade
de A (desconhecido) se tudo que sabemos G ?
Denio 5.49. Considere um conjunto A, ento Y = E[IA | G] : (, A, P )

(R, R) ser a probabilidade condicional de A dado G . De outra forma, para
qualquer G G, vale que

Y dP = IA dP = P (A G).
G G
i i
i i
i i

i i
Se G fosse gerada por uma partio, por exemplo, suponha que =

j=1 Cj
e G = (C1 , C2 , ..., Cj , ...).
Ora, se Y G mensurvel, ela tem que ser constante nos conjuntos Cj .
Denote por cj o correspondente valor. Sendo assim, para todo j

cj P (Cj ) = Y dP = P (A Cj ).
Cj
Logo, para todo j
P (A Cj )
cj = = P (A | Cj ).
P (Cj )
Desta forma, o conceito introduzido generaliza o que j nos era conhecido

para conjuntos.
Agora, xada a -lgebra G podemos pensar que A G um conjunto
varivel.
Fica assim denida uma lei PG sobre G tal que

PG (A) = E[IA | G] dP.
Note que, se Ak , k N, uma famlia disjunta de elementos em G , ento

PG (Ak ) = E[IAk | G ] dP = E[ IAk | G ] dP.
k=1 k=1 k=1

E[ I
k=1 Ak
| G ] dP = PG (
k=1 Ak ).
As outras propriedades de probabilidade seguem de maneira fcil.

Logo, PG uma probabilidade.
i i
i i
i i

i i
5.6 Martingale e tempo de parada 497
5.6 Martingale e tempo de parada

Seja P uma probabilidade na -algebra F , se A uma algebra tal que
A F ento para toda f que seja F -mensurvel denimos E[f |A] = g que
A-mensurvel e ainda tal que

B A, temos f dP = gdP
B B
Denio 5.50. Seja (Xn , n N) um processo estocstico com um espao
de estados S R nito ou enumervel, ou seja Xn : R mensurvel

e consideramos uma probabilidade P sobre a sigma algebra F gerada pelos
cilindros. Ento o processo estocstico uma Martingale se:
(i) E[|Xn |] <
(ii) E[Xn+1 |X0 , X1 , , Xn ] = Xn
O valor esperado acima tomado em relao a probabilidade P.

Dizemos que um processo estocstico supermartingale se ao invs da
condio (ii) tivermos E[Xn+1 |X0 + X1 + + Xn ] Xn e dizemos que de
submartingale se tivermos em (ii) E[Xn+1 |X0 + X1 + + Xn ] Xn
O processo de Martingale pode ser pensado em um jogo onde esperado

que um jogador mantenha sua fortuna acumulada, no caso supermartingale
esperado que a fortuna acumulada diminua e em submartingale aumenta.
Como veremos a tcnica do uso de Martingales permite obter o clculo

exato de valores esperados e de probabilidades em distintas situaes.
Exemplo 5.28. Seja Y0 e (Yn , n N) varivel aleatria , independente com

E[|Yn |] < e E[Yn ] = 0 n se X0 = 0 e Xn = Y1 + Y2 + + Yn ento Xn
de Martingale para Fn = (Y1 , , Yn )
i i
i i
i i

i i
Demonstrao.
E[Xn+1 |Y0 , , Yn ] = E[Xn + Yn+1 |Y0 , Yn ]

= E[Xn |Y0 , Yn ] + E[Yn+1 |Y0 , Yn ]
Observe que Xn (Y0 , , Yn )-mensurvel logo E[Xn |Y0 , , Yn ] = Xn e

como os Yi so independentes temos E[Yn+1 |Y0 , Yn ] = E[Yn+1 ] = 0 logo
E[Xn+1 |Y0 , , Yn ] = Xn
Exemplo 5.29. Sejam S = {1, . . . , d} e Y0 , Y1 , Y2 , . . . um processo de Markov

em S , com matriz de transio P = (Pij ). Se f : S R (ou ainda f =

(f1 , . . . , fd )) uma funo com P f = f , isto , f (i) = Pij f (j), ento:
j
{Xn = f (Yn )} Martingale com respeito {Yn }.
De fato, como f limitada temos que E[|Xn |] < . Alm disso,
E[Xn+1 |Y0 , . . . , Yn ] = E[f (Yn+1 )|Y0 , . . . , Yn ] = E[f (Yn+1 )|Yn ] =

PYn j f (j) = f (Yn ) = Xn .
j
Ainda, podemos considerar o mesmo processo de Markov do exemplo ante-

rior, mas com uma funo f : S {1, . . . , d} satisfazendo P (f ) = f . Nesse
caso tomando Xn = n f (Yn ) tambm obtemos que X0 , X1 . . . martingale
com respeito {Yn }.
Exemplo 5.30. Seja Y0 e (Yn , n N) varivel aleatria , independente e

indenticamente distribuda tal que E[Yk ] = 0 e E[Yk2 ] = 2 , k N . Seja

X0 = 0 e Xn = ( Yk )2 n 2 armamos que Xn Martingale com relao a
Fn , n N, gerada por {Y0 , .., Yn },.
i i
i i
i i

i i

E[Xn+1 |Y0 , , Yn ] = E[(Yn+1 + Yk )2 (n + 1) 2 |Y0 , , Yn ]

= E[Yn+1
2
+ 2Yn+1 ( Yk )2 + ( Yk )2 (n + 1) 2 |Y0 , , Yn ]
Observe que E[Yn+1

2
|Y0 , , Yn ] = 2 , alm disso

E[2Yn+1 ( Yk )2 |Y0 , , Yn ] = 2( Yk )2 E[Yn+1 |Y0 , , Yn ] = 0,

temos tambm que E[( Yk )2 |Y0 , , Yn ] = ( Yk )2 logo

E[Xn+1 |Y0 , , Yn ] = 2 + ( Yk )2 (n + 1) 2 = ( Yk )2 n 2 = Xn
Podemos tambm tomar uma denio mais geral para os processos de

Martingale:
Denio 5.51. Seja Xn : R, n N, mensurvel como na denio
anterior e seja Fn Fn1 F , uma sequencia de -lgebras, ento
Xn martingale se E[Xn+1 |Fn ] = Xn
Seja Xn : R, n N, e Yn : R, n N, dois processos. Denote

Fn a sigma-algebra gerada por Y0 , Y1 , .., Yn . Se Xn , n N, martingale em
relao a Fn , n N, usual dizer que Xn , n N, martingale em relao a
Yn : R, n N.
Exemplo 5.31. Seja Y0 = 0 e Yn ; n = 1, 2, . . . uma sequncia de variveis

aleatrias independentes e identicamente distribudas tomando valores em {1, 1}
com P (Yn = 1) = p e P (Yn = 1) = q , com p + q = 1. Dena Xn = Sn n,
n N.
Considere a sequencia de sigma-algebras Fn , n N, tal que cada Fn
gerada por Y0 , . . . , Yn .
Vamos mostrar que Xn , n N, martingale em relao a Fn , n N.
i i
i i
i i

i i
De fato,

n
E (|Xn |) = E (|(Y1 ) + . . . + (Yn )|) E|(Yn |) = 0 < .
i=0
Alm disso,
E (Xn+1 |Y0 , . . . , Yn ) = E (Xn + Yn+1 |Y0 , . . . , Yn ) =
E (Xn ) + E(Yn+1 ) = E (Xn ) .

Logo, Xn martingale com respeito a Fn
( ) Sn
Alm disso, Xn = pq , n N, tambm martingale com respeito a
{Yn }, pois
(( ) )
( ) S
q n+1
E Xn+1 |Y0 , . . . , Yn = E |Y0 , . . . , Yn =
p
( )Sn (( )Yn+1 ) ( ) (
S )
q q q n q p
E |Y0 , . . . , Yn = p +q
p p p p q
Como p + q = 1, conclumos que
( )Sn
(
) q
E Xn+1 |Y0 , . . . , Yn = = Xn . (5.2)
p
Portanto, Xn tambm martingale com respeito a Yn .
Exemplo 5.32. Considere xada uma funo integrvel X : R limitada

sobre o espao de medida (P, , F). Seja Fn , n N, uma sequencia crescente
de sigma-algebras Fn F. Dena Xn = E[ X | Fn ]. fcil ver que Xn , n N,
uma martingale.
Observe que se a sigma algebra gerada pela unio n Fn for igual a F , ento
Xn = E[ X | Fn ], para n grande, vai estar muito "parecida"com X. O prximo
teorema uma especie de versao inversa do que exemplicamos acima.
i i
i i
i i

i i
Lema 5.4. Suponha que Xn , n 0, seja Martingale com relao a Yn , n 0.

Ento dados k, n > 0 temos que
E[Xn+k |Y0 , Y1 , , Yn ] = Xn .
Demonstrao Seja n xo. Para k = 1 o resultado segue da denio.
Vamos supor que a propriedade vale para qualquer n e tambm para k , e ento
mostrar que vale para k + 1.
Ora,
E[Xn+k+1 | Y0 , Y1 , , Yn ] =
E[ E[Xn+k+1 |Y0 , Y1 , , Yn+k ] | Y0 , Y1 , ..., Yn ] ] =
E[Xn+k | Y0 , Y1 , , Yn ] = Xn .
Uma sequencia Xn , n N, uniformemente integrvel se

lim sup | Xn | I{ |Xn | > a} dP = 0.
a n0
Teorema 5.40. Seja Xn , n N , uma Martingale (ou, submartingale) satis-
fazendo a propriedade
sup E[ |Xn | ] < .

n0
Ento existe X:R tal que Xn converge a X em probabilidade.
Xn uma Martingale uniformemente integrvel,

Ainda, se ento Xn con-
verge a X em L1 , isto ,

lim |X Xn | dP = 0.
n

Alm disso, Xn dP = XdP , para todo nmero natural n N.
i i
i i
i i

i i
Exemplo 5.33. Considere o conjunto S = {1, 2}N . Seja Fn a - lgebra

gerada pelos cilindros de tamanho n. Temos que Fn Fn+1 e Fn converge
-lgebra de Borel. Seja Y : S R uma funo Borel mensurvel e dena a
sequncia de variaveis aleatrias {Xn } por Xn = E (Y |Fn ). Como
E (Xn+1 |Fn ) = E (E (Y |Fn+1 ) |Fn ) = E (Y |Fn ) = Xn , (5.3)
temos que {Xn } martingale com respeito a Fn . Pelo teorema anterior, Xn

converge a uma varivel aleatria X . Nesse caso, X = Y .
Exemplo 5.34. Dada uma matriz linha estocastica P de uma cadeia de

Markov com estados nitos, denote por u o vetor com todas entradas iguais a
1. Ento P (u) = u. O mesmo vale se u tiver todas entradas iguais a mesma
constante c. Uma pergunta natural se poderiam existir outros vetores u
diferentes destes tais que P (u) = u.
Suponha que P seja recorrente e irredutvel {Yn }, vamos usar o teorema
de convergncia de martingales para mostrar que todo vetor coluna limitado
= {(i)} soluo da equao = P constante. Como Xn = (Yn )
martingale, temos que lim Xn = lim (Yn ) existe com probabilidade 1. Como
n n
a cadeia recorrente, temos que ambos os eventos {Xn = (i)} e {Xn = (j)}
ocorrem para innitos n. Mas como o limite lim Xn existe, conclumos que
n
(i) = (j) para todo i, j e portanto, constante.
Denio 5.52. Lembre que uma varivel aleatria T chamada de tempo

de parada com respeito a {Xn } se T toma valores em {0, 1, . . . , } e se, para
cada n = 0, 1, . . ., temos que o evento T = n determinado por {X0 , . . . , Xn }.
Mais precisamente, a funo indicadora do evento {T = n} pode ser escrita
como uma funo de X0 , X1 , . . . , Xn .
i i
i i
i i

i i
Denio 5.53. Dado um processo estocastico Xn : R, (uma probabil-

N N
idade sobre S ) onde para cada w = (w0 , w1 , w2 , .., wn , ..) S , temos que
Xn (w) = wn , e um tempo de parada T . O processo estocastico XT natural-

mente denido atraves das funes (XT )n , n N:
(XT )n (w) = Xn (w), para n < T (w), e (XT )n (w) = XT (w) para n T (w).
Fica assim denida uma funo G : tal que
G(w) = (w0 , w1 , .., wT (w)1 , wT (w) , wT (w) , ..., wT (w) , ...).
A um processo estocastico est associada uma probabilidade PT sobre S N.

Assim, precisamos denir PT sobre cilindros.
P
Suponha que seja a probabilidade sobre SN associada ao processo estocs-
tico Xn : R.
Assim, estabelecemos que
PT ((XT )0 = a0 , (XT )1 = a1 , .., (XT )k = ak ) =
P ( G1 ({X0 = a0 , X1 = a1 , .., Xk = ak } ) ).
Fica assim denida a probabilidade PT sobre S N.
Exemplo 5.35. Seja S = Z, Xn , n N, o random walk (1/2, 1/2) como

X0 = 0, e T (w) a primeira vez que w atinge o valor 5 ou 5. Com probabilidade
um vale que T (w) nito.
Assim, T (0, 1, 2, 1, 2, 3, 4, 5, 4, 3, 4, ..) = 8.
XT (0, 1, 2, 1, 2, 3, 4, 5, 4, 3, 4, ..) = (0, 1, 2, 1, 2, 3, 4, 5, 5, 5, 5, ..).
Lema 5.5. Se S, T so tempos de parada ento S+T e S T = min{S, T }

so tempos de parada tambm.
i i
i i
i i

i i

n
Proof: Basta observar que I{S+T =n} = I{S=k} I{T =nk} e I{ST >n} =
k=0
I{S>n} I{T >n} .
Lema 5.6. Suponha Xn martingale e T tempo de parada com respeito Yn ,

ento n k, E[Xn I{T =k} ] = E[Xk I{T =k} ].
Proof:
E[Xn I{T =k} ] = E[E[Xn I{T =k} |Y0 , . . . , Yn ]] =

E[I{T =k} E[Xn |Y0 , . . . , Yk ]] = E[Xk I{T =k} ].
Lema 5.7. Se Xn martingale e T tempo de parada, ento para todo n1

vale E[Xn ] = E[X0 ] = E[XT n ].
Proof:

n1
E[XT n ] = E[Xn I{T n} ] + E[XT I{T =k} ] =
k=0

n1
n1
E[Xn I{T n} ] + E[Xk I{T =k} ] = E[Xn I{T n} ] + E[Xn I{T =k} ] = E[Xn ].
k=0 k=0
Vale ainda o seguinte teorema, que no iremos demonstrar.
Teorema 5.41. Suponha que Xn , n 0, seja martingale e T seja um tempo
de parada.
( )
Se P (T < ) = 1 e E supn0 |XT n | < , ento E (XT ) = E(X0 )
Este teorema possui muitas aplicaes interessantes como veremos.
i i
i i
i i

i i

com P (Yn = 1) = p e P (Yn = 1) = q , com p + q = 1. Sabemos que
Xn = Sn n, n N uma Martingale.
Seja T tempo de parada que esteja nas condies do Teorema acima. Por
exemplo, se E(T ) < ento se pode usar o teorema (ver Corollary 3.3 na
seo 6 de [KT1]).
Ento
0 = E(X0 ) = E[XT ] = E[ST ] E[T ].
Desta forma, sabendo calcular E(T ) podemos obter o valor E[ST ].
Suponha que q = p = 1/2.
Em funo da simetria do problema fcil ver que P (T = 5) igual a
P (T = 5). A partir disto obtemos que E(T ) = 0 e portanto E[ST ] = 0 .
Considere agora o tempo de parada
T (w) = min{Sn (w) = c ou Sn (w) = d }

n
onde c, d > 0.
Estamos supondo que q = p = 1/2.
Seja p(c) a probabilidade que Sn atinja c antes de d.
Do teorema acima temos que
0 = E[ST ] = c p(c) + d (1 p(c)).
Assim, obtemos que

d
p(c) =
.
c+d
Sabemos tambem que o processo Vn = Sn2 n var(Sn ) = Sn2 n, n N,
uma Martingale.
Ora, pelo teorema acima
0 = E(V0 ) = E[T 2 ] E[T ] = c2 p(c) + d2 (1 p(c)) E[T ].
i i
i i
i i

i i
Como p(c) = d
c+d
obtemos que E[T ] = c d.

com P (Yn = 1) = p e P (Yn = 1) = q , com p + q = 1. Assim, temos que
E (Yn ) = p q = . Denimos Xn = Sn n, n N.
( ) Sn
Lembre que denimos Xn = pq , n N, e que mostramos que uma
Martingale com relao a sequencia de sigma-algebras Fn , n N, tal que cada
uma gerada por {Y0 , ...Yn }.
Dena agora o tempo de parada T como sendo T = min{n : Sn =
a ou Sn = b}.
Sabemos que E(ST ) = E(T ) pelo que foi explicado acima.
Seja a = P (Sn = a). Ento, vale que
( )a ( )b
q q
E (XT ) = a + (1 a ) . (5.4)
p p
Mas do teorema acima, E (XT ) = E (X0 ) = 1. Assim, conclumos que
( )b
1 pq
a = ( )a ( )b (5.5)
q
p
pq
Desta forma graas ao resultado acima (para tempo de parada) e o fato

que Xn n N, Martingale, conseguimos calcular algo no trivial, o valor
P (Sn = a)
Lema 5.8. Se Xn martingale relativo a Yn e uma funo convexa tal que

E[(Xn )+ ] < para todo n, ento (Xn ) submartingale com respeito Yn .
Pela desigualdade de Jensen E[(Xn+1 )|Y0 , . . . , Yn ] (E[Xn+1 |Y0 , . . . , Yn ]) =

(Xn ), o que prova o enunciado.
i i
i i
i i

i i
5.7 O movimento Browniano 507
5.7 O movimento Browniano

Agora vamos apresentar uma introduo ao movimento Browniano, que um
exemplo de processo de Markov com tempo e espao contnuos. O espao
de estados S = Rn . Ento, o processo estocstico X(t), t [0, ) R, vai
descrever a posio de uma partcula em Rn atravs do movimento Browniano.
Seja
= {w : [0, ) Rn , continuas },
ento, como sempre assumimos que X(t), t 0, tal que os caminhos
amostrais w satisfazem w(t) = Xt (w).
Um processo desta forma denido por uma probabilidade P sobre .
Alertamos o leitor que para colocar em base matematicamente slida os re-
sultados desta seo seria necessrio uma verso muito mais apurada e sosti-
cada do que pretendemos fazer aqui. Nosso objetivo to somente descrever
as propriedades mais importantes desta teoria de forma intuitiva e matemati-
camente inteligvel. Referimos o leitor a [KS] e [KT2] para exposies matem-
aticamente rigorosas do assunto.
Denio 5.54. Um movimento Browniano um processo estocstico Xt ; t

0 tomando valores em R n
, com as seguintes propriedades:
(a) Cada incremento X(t + s) X(s), t, s 0, tem distribuio normal com

2
mdia = 0 e varincia t, onde um parmetro xo, e ainda os
caminhos amostrais wt = Xt (w) so contnuos em t 0.
(b) X(0) = x0 Rn .
(c) Para cada par de intervalos de tempo disjuntos [t1 , t2 ], [t3 , t4 ] com t1 <
t2 t3 < t4 , os incrementos X(t4 ) X(t3 ) e X(t2 ) X(t1 ) so variveis
aleatrias independentes dadas em (a), e similarmente para n intervalos
disjuntos, onde n um inteiro positivo.
i i
i i
i i

i i
Segue de (a) que no caso unidimensional (n = 1) a Probabilidade P asso-

ciada ao processo tal que para qualquer t 0
(xx0 )2
b
e 2 t
P (Xt (a, b)) = .dx.
a 2t
usual tambem chamar de movimento Browniano um processo Xt , t 0,

tal que satisfaz apenas (a) e (c). Neste caso no se diz nada sobre a distribuo
da posio inicial X0 .
No caso em que vale (b), dizemos que Xt , t 0, o movimento Browniano
condicionado a comear em x0 Rn .
No caso bidimensional Xt R2 este processo pode ser descrito atravs
das observaes empricas que foram feitas inicialmente pelo bilogo R. Brown
(que d nome ao processo) que viveu de 1773 a 1858 sobre a posio de uma
partcula de polen sobre a superfcie de um lago. Assuma que R2 vai descrever
a superfe de um lago e que uma partcula de polen ser colocada na posio
x0 no tempo 0. Est particula de polen estar sujeita a colises com muitas
molculas (de dimenso muito menor que a de polen e que se encontram na
superfcie do lago) que se movem e colidem ao acaso com a partcula de polen
ao longo do tempo t 0. No tempo t 0 a posio da partcula de polen
sera descrita por wt que dene assim um caminho amostral wt , t 0. Na
gura 5.4 mostramos vrios possiveis caminhos que so observados. Ou seja,
se coloca uma vez a partcula de polen em x0 e se observa um certo caminho
amostral. Depois se repete o experimento e, sem que as condies externas
sejam mocadas, se coloca de novo a partcula de polen em x0 ; ento se
observa um outro caminho amostral diferente do primeiro. Isto caracteriza
o fato que o problema em considerao no determinstico. Ser descrito
por um processo estocstico Xt , t 0. O que faz sentido perguntar: dado
uma regio A R2 , qual a probabilidade de encontrar a partcula de polen
na regio A no tempo t0 , dado que estava no tempo 0 na posio x0 . Ou seja,
i i
i i
i i

i i
desejamos saber o valor P (Xt0 A). Isto d uma ideia em termos prticos do
que o movimento Browniano.
x2 wt
wt
x1
Figura 5.4: caminhos amostrais wt , t 0, do movimento Browniano no plano
As origens fsicas do movimento Browniano sugerem que os caminhos amostrais

wt , t 0 sejam caminhos continuos mas no diferenciveis.
Vamos aqui nos concentrar no caso unidimensional em que Xt R. Os
caminhos amostrais sero funes contnuas w : [0, ) R tal que w(0) = x0 .
O conjunto de todos os w vai denir um espao . Isto
= {w : [0, ) R , continuas tal que w(0) = x0 }.
Vamos supor por um momento que x0 = 0. assim, os w so tais que

w(0) = 0.
Desejamos obter uma probabilidade sobre o conjunto de tais caminhos .
Vamos ser mais precisos no que desejamos obter.
Um conjunto cilindro, por exemplo, seria uma especicao do tipo
{X0 = 0, Xt1 (a1 , b1 ), Xt2 (a2 , b2 ), Xt3 (a3 , b3 )}
onde 0 < t1 < t2 < t3 , a1 < b1 , a2 < b2 , a3 < b3 .
i i
i i
i i

i i
b1
b3
wt
a1
wt
t2
o t1 t3 a
b2 3 t
a2
Figura 5.5: caminhos amostrais wt , t 0, dentro de um cilindro
Ou seja, todas os funes continuas w tais que w(t1 ) (a1 , b1 ), w(t2 )

(a2 , b2 ), w(t3 ) (a3 , b3 ) (ver gura 5.5)
Por exemplo,
{X0 = 0, X2.1 (5, 7), X4.7 (3, 1.2), Xt3 (3, 8.4)}
um cilindro.
Mais geralmente um cilindro seria um conjunto da forma
{X0 = 0, Xt1 (a1 , b1 ), Xt2 (a2 , b2 ), Xt3 (a3 , b3 ), ..., Xtn (an , bn )}
onde n N, 0 < t1 < t2 < t3 < ... < tn , a1 < b1 , a2 < b2 , a3 < b3 , ..., an < bn .
Primeiramente desejamos obter a expresso analtica para o valor
P ({X0 = 0, Xt1 (a1 , b1 ), Xt2 (a2 , b2 ), Xt3 (a3 , b3 ), ..., Xtn (an , bn )})
no caso do movimento Browniano. A partir desta caracterizao de P atravs

das distribuies nito dimensionais vai se poder extender P a conjuntos mais
complexos na sigma-algebra gerada pelos cilindros. Isto vai denir P sobre
um certa sigma-algebra sobre . Uma boa descrio da teoria necessria
para a correta formalizao destas armaes aparece em [EK]. Existem vrias
i i
i i
i i

i i
questes tcnicas nesta formalizao e isto esta acima do escopo do presente

texto.
Vamos voltar agora ao caso geral de um x0 inicial qualquer.
Esta probabildiade P vai fazer com que sejam verdadeiras a seguintes ar-
maes:
E(Xt ) = x0 , E(Xt2 ) = t e E(Xt Xs ) = min{t, s} .

Seja x0 a posio da partcula no tempo 0, ou seja, X(0) = x0 . Seja pt (x0 , x)
a densidade de probabilidade condicional de X(t) dado que X(0) = x0 .
Ou seja, p(t, x0 , x), onde t 0, x0 , x R, a densidade da probabilidade
de estando em x0 no tempo 0, estar em x no tempo t.
Com isto queremos dizer que se a partcula no tempo 0 est em x0 , ento
a probabilidade de encontr-la no intervalo (a, b) no tempo t ser
b
pt (x0 , x) dx.
a
Como pt (x0 , x) uma funo de densidade em x, temos que pt (x0 , x) 0
+
e pt (x0 , x)dx = 1. Alm disso, vamos estipular que para t prximo de t0 ,
X(t + t0 ) est perto de x0 , ou seja,
lim pt (x0 , x) = 0 se x = x0 . (5.6)

t0
Pelas hipteses mencionadas ao comeo da seo sabemos que o movimento

Browniano Xt , t 0, satisfaz
(xx0 )2
e 2 t
pt (x0 , x) = p(x, t|x0 ) = . (5.7)
2t
No caso em que x0 = 0 usamos a notao p(t, x) para tal densidade. Assim,
x2
e 2 t
p(t, x) = . (5.8)
2t
i i
i i
i i

i i
Note que p(t, x) satisfaz a equao de difuso
d 2 p(t, x)
p(t, x) = , com a condio inicial p(0, .) a Delta Dirac no ponto 0
dt 2 x
(5.9)
onde uma constante positiva.
No tempo t a distribuio denida pela densidade pt (x0 , x) tem mdia x0
e varincia t.
Vamos assumir a partir de agora que = 1.
b
A expresso a p(x, t|x0 )dx denota a probabilidade de a partcula estar
entre a e b no instante t dado que estava em x0 no tempo 0.
Supondo que X(0) = 0, pode se mostrar que a probabilidade P do movi-
mento Browniano satisfaz, por exemplo,
P (X0 = 0, Xt1 (a1 , b1 ) , Xt2 (a2 , b2 ) , Xt3 (a3 , b3 )) =

b3 b2 b1
pt1 (0, x1 ) pt2 t1 (x1 , x2 ) pt3 t2 (x2 , x3 ) dx1 dx2 dx3 .
a3 a2 a1
b3 b2 b1
x2
2t1
(x2 x1 )2

(x3 x2 )2
e 1 e 2 (t2 t1 ) e 2 (t3 t2 )
dx1 dx2 dx3 .
a3 a2 a1 2 t1 2 (t2 t1 ) 2 (t3 t2 )
Fica assim denida para o movimento Browniano com x0 = 0 e = 1 o
valor
P (X0 = 0, Xt1 (a1 , b1 ), Xt2 (a2 , b2 ), Xt3 (a3 , b3 )).
Para um cilindro geral
P (X0 = 0, Xt1 (a1 , b1 ), Xt2 (a2 , b2 ), Xt3 (a3 , b3 ), ..., Xtn (an , bn ))) =
x2 (x2 x1 )2 (x3 x2 )2 (xn xn1 )2
1
b b b b 2 (tn tn1 )
n 3 2 1 e
2t1 e 2 (t2 t1 ) e 2 (t3 t2 ) e
... ... dx1 dx2 dx3 ... dxn .
an a3 a2 a1 2 t1 2 (t2 t1 ) 2 (t3 t2 ) 2 (tn tn1 )
O processo Xt com X0 = 0 claramente no estacionrio.
i i
i i
i i

i i
No caso em que a condio inical ela mesmo no determinstica, e descrita

pela densidade f0 : R [0, ), onde f0 (x) dx = 1, o Processo Estocstico
movimento Browniano Xt , t 0, associado tal que
P (X0 (a0 , b0 ), Xt1 (a1 , b1 ) , Xt2 (a2 , b2 ) , Xt3 (a3 , b3 )) =

b3 b2 b1 b0
pt1 (x0 , x1 )pt2 t1 (x1 , x2 )pt3 t2 (x2 , x3 ) f (x0 ) dx0 dx1 dx2 dx3 .
a3 a2 a1 a0
b3 b2 b1 b0
(x1 x0 )2

(x2 x1 )2

(x3 x2 )2
e 2 t1
e 2 (t2 t1 ) e 2 (t3 t2 )
f (x0 ) dx0 dx1 dx2 dx3 .
a3 a2 a1 a0 2 t1 2 (t2 t1 ) 2 (t3 t2 )
Como nos processos Markovianos a tempo discreto, podemos nos pergun-
tar se existe uma funo densidade inicia estacionria f (x) com respeito ao
processo Xt descrito acima, ou seja, se existe soluo f para o problema
b b
f (x) dx = f (x0 )pt (x0 , x1 ) dx0 dx1 . (5.10)
a a
Neste caso valeria para qualquer t 0
P ( X0 (a, b)) ) = P ( Xt (a, b) )
A resposta para tal pergunta no. Para entender esta questo de forma
mais profunda vamos explicar a relao do movimento Browniano com equaes
diferenciais parciais.
Fixada a condio inicial f0 se deseja obter a densidade ft : R R tal que
para o processo acima vale para qualquer intervalo (a, b) e t 0
b b
ft (x) dx = f (x0 )pt (x0 , x1 ) dx0 dx1 . (5.11)
a a
Ou seja, desejamos obter a densidade ft da varivel aleatria Xt . Vamos

denotar ft (x) = f (t, x).
i i
i i
i i

i i
possvel mostrar que f (t, x), onde f : [0, ) R R, satisfaz a equao

da difuso
2 f (t, x)
f (t, x) = , com a condio inicial f (0, .) = f0 (.) (5.12)
2 x
onde a constante positiva associada.
Existe uma analogia da evoluo dinmica da densidade ft , t 0, a partir
da condio incial f0 , com a difuso do calor numa barra R.
Considere uma barra unidimensional de comprimento innito. Seja u(t, x)
a temperatura do ponto x da barra no instante t. Sabemos que u deve satisfazer
a equao do calor ut = uxx , que a equao de difuso para D = 1.
Mais precisamente, se a temperatura no tempo t = 0 for dada em cada
ponto x da barra (, ) por u0 (x), onde u0 : R [0, ), ento, a equao
do calor ut = uxx (que tem soluo denotada por ut (.)) tal que u(t, x) = ut (x)
a temperatura no tempo t no ponto x.
Dada a condio de contorno a delta Dirac em 0 (temperatura super con-
centrada em 0) obtemos que, xado t, a soluo u(t, .) tem distribuio normal
com mdia 0 e varincia t.
A condio inicial f0 (respectivamente a densidade ft ) e os valores da tem-
peratura no tempo t = 0 dados por u0 (x) (respectivamente os valores de tem-
peratura ut (x) no tempo t) desempenham um papel semelhante.
Denio 5.55. Considere uma sequencia crescente de sigma-algebras Ft ,

t 0, sobre , isto
Ft Fs ,
para 0 t s.
Dado um processo estocstico Xt , t 0 tomando valores em R, dizemos
que uma martingale com respeito a sequencia Ft , t 0 se
(a) Xt Ft mensurvel para qualquer t 0,

(b) E[ Xt+s | Ft ] = Xt , qualquer s, t 0
i i
i i
i i

i i
(c) E[Xt+ ] < (onde para qualquer t 0, temos que Xt+ (w) = sup{Xt (w), 0}).
Dados dois processos Yt : R, t 0, Xt : R, t 0, tomando

valores em R, considere Gt a sigma algebra gerada pelas funes Xs : R,
s t.
Se Yt : R, t 0 for uma martingale em relao a Gt descrita acima,
t 0, diremos que Yt : R, t 0, uma martingale em relao a
Xt : R, t 0.
Agora vamos usar martingais para descobrir resultados interessantes sobre
o movimento Browniano.
1 2t
Lema 5.9. Os processos U (t) = X 2 (t) t e V (t) = eX(t) 2 , onde R
uma constante arbitrria so martingales com respeito ao movimento Brown-
iano Xt .
De fato, para 0 t1 . . . tn = t e s > 0, temos que
E[U (t + s)|X(t1 ), . . . X(tn )] = E[X 2 (t + s)|X(t)] (t + s) =

= E[(X(t + s) X(t))2 |X(t)] + E[2X(t + s)X(t) X 2 (t)|X(t)] (t + s) =
= E[(X(t + s) X(t))2 |X(t)] + 2E[X(t)(X(t + s) X(t))|X(t)] + E[X 2 (t)|X(t)] =
s + 2 0 + X 2 (t) (t + s) = U (t)
Segue que U martingale com respeito a Xt . Similarmente,

[ 2 s
]
E[V (t + s)|X(t1 ), . . . X(tn )] = V (t)E e[X(t+s)X(t)] 2 = V (t).
Denio 5.56. Considere uma sequencia crescente de sigma-algebras Ft ,

t 0, sobre , isto
Ft Fs ,
para 0 t s.
i i
i i
i i

i i
Dado um processo estocstico Xt , t 0, tomando valores em R, uma var-
ivel aletria T : [0, ] chamada de um tempo de parada para Xt ,

t 0, se o evento {T t} est em Ft , para todo t 0.
Denio 5.57. Dado um processo estocastico Xt : R, (uma probabil-

idade P sobre ) seja T um tempo de parada para Xt , t 0.. O processo
estocastico XT naturalmente denido atraves das funes (XT )t , t [0, ):
(XT )t (w) = Xt (w), para t < T (w), e (XT )t (w) = XT (w) para t T (w).
Desta forma se obtem de forma semelhante ao caso em o tempo discreto
uma medida PT sobre .
Muitas propriedades de tempo de parada quando o Processo Estocstico

a tempo discreto valem da forma anloga para o caso em que t [0, ) (ver
[KT1]).
Lema 5.10. Se S, T so tempos de parada ento S+T e S T = min{S, T }

so tempos de parada tambm.
Lema 5.11. Se Xt , t 0, martingale e T tempo de parada, ento para todo
t0 vale E[Xt ] = E[X0 ] = E[XT t ].
Exemplo 5.38. Seja Xt t 0 o movimento Browniano unidimensional.

Sejam a < 0 < b constantes dadas e T = Tab o primeiro instante no qual
Xt atinge a ou b:
Tab = inf{t 0 : Xt = a ou X(t) = b}. (5.13)
Este T um tempo de parada.

Seja = P (X(Tab )) = b. Como {Xt } um martingale, e T = Tab um
tempo de parada, temos que E(XT ) = E(X(0)) = 0. Logo,
b + (1 )a = 0. (5.14)
i i
i i
i i

i i
E portanto
|a|
= . (5.15)
|a| + b
Agora, como {U (t)} martingale e E[U (T )] = E[U (0)] = X 2 (0) 0 = 0,
temos que
0 = E[U (T )] = E[X 2 (T ) T ]. (5.16)
E portanto
E[T ] = E[X 2 (T )] = a2 (1 ) + b2 = |a|b (5.17)
usual denotar por Px a probabilidade sobre sujeita a condio ini-

cial X0 = x. Desta forma Ex vai denotar o valor esperado em relao a tal
probabilidade Px .
Seja
(yx)2
e 2 t
pt (x, y) = p(t, x, y) = . (5.18)
2t
Para t 0 vamos denir Ut que vai levar funes em funes, assim Ut (f ) =
g.
Para t 0 e f : R R denote

Ut (f )(x) = g(x) = Ex [f (Xt )) ] = p(t, x, y)f (y)dy.
Note que Ut eesta bem denido para funes f integrveis em relaao a

densidade pt (x, .).
Uma propriedade extremamente importante do Movimento Browniano a
propriedade de Markov que descrita por
Ut+s = Ut Ts .
Ou seja, Ut , t 0, dene um semigrupo.

Outra maneira de descrever a propriedade acima
i i
i i
i i

i i
Ut+s (f )(x) = Ex [Xt+s ] = Ex [ E[f (Xt+s ) | Xt ] ].
Ou seja, para o clculo de Ex [Xt+s ], ao condicionarmos num certo tempo

t > 0, o processo "esquece todo tempo anterior t", guardando somente a
informao Xt (ou seja a posio no tempo t).
Disto se pode deduzir a equao de Chapman-Kolmogorov:

p(t + s, x, y) = p(t, x, z) p(s, z, y) dz.
Podemos nos perguntar se vale alguma propriedade anloga ao que acontece

no caso de cadeias de Markov a tempo contnuo com conjunto de estados
nitos S = {1, 2, .., d}. Neste caso, o semigrupo era dado por et L , onde L era
uma matriz d por d tipo linha soma zero. natural pensar que Ut , t 0,
desempenha um papel anlogo a et L , t 0. Assim, L denominado o gerador
innitesimal do processo Markoviano Xt , t 0, onde Xt toma valores em
S = {1, 2, .., d}.
Lembre que
et L I
lim = L.
t0 t
possivel mostrar (ver captulo 15 seo 11 em [KT2]) que se f : R R
diferencivel de classe C e integravel para a densidade pt (x, .), t 0, ento
(Ut I) (f )
lim (x) = f (x). (5.19)
t0 t 2
Assim, se A o operador linear tal que A(f ) = 2 f , natural armar
que A o gerador innitesimal do movimento Browniano. Note que A no
esta denido para funes integrveis, mas apenas para funes duas vezes
diferencivel. Em geral os semigrupos importantes no esto denidos para
todas as funes mas apenas para uma classe "grande"de funes (ver [KT2]).
Lembre que p(t, x, y) = p(t, y, x) para todo t 0 e x, y R.
i i
i i
i i

i i
Observamos que encontrar f tal que para qualquer intervalo (a, b) e t 0
b b b
f (x) dx = f (y)pt (y, x) dydx = f (y)pt (x, y) dxdy
a a a
(5.20)
equivale a resolver Ut (f ) = f para todo t 0.
Note que
d d2 p(t, x)
p(t, x) = = A(p(t, x)). (5.21)
dt d2 x
No caso de cadeias de Markov em tempo contnuo (obtidos a partir de uma
matriz linha soma zero L) sabemos que a evoluo de (t) a partir da condio
incial 0 era dada por
d
(t) = (t) L, onde (0) = 0 .
dt
Esta propriedade anloga a (5.21).
importante tentar obter os estados estacionrios Rd no caso de

cadeias de Markov com gerador innitesimal L.
Lembre que para encontrar tal que et L = para todo t 0, equiva-
lente resolver L = 0.
De forma anloga, em funo da expresso (5.19) se desejamos encontrar
uma densidade f tal que f = Ut (f ) para todo t 0, somos levados a resolver
a equao

0 = A(f ) = f (x).
2
As funes diferenciaveis f que satisfazem f (x) = 0 so necessariamente

lineares. Desta forma no vai poder se obter com elas a propriedade f (x)dx =
1. Sendo assim, no existem funes f de classe C 2 tais que determinam den-
sidade iniciais invariantes para o movimento Browniano. Isto nos d uma
resposta parcial a pergunta sobre a existencia de densidades invariantes: no
i i
i i
i i

i i
existem! Esta questo anloga a aquela que enfrentamos na anlise do ran-

dom walk (1/2.1/2) (que tambm no possui vetor inicial de probabilidade
invariante).
5.8 Processos de Difuso

Agora vamos apresentar agora uma breve introduo as difuses. Um ex-
posio bastante completa sobre o assunto pode encontrada me [RW].
De forma similar ao movimento Browniano, o espao de estados S = Rn .

Ento, o processo estocstico difuso X(t), t [0, ) R, vai descrever a
posio de uma partcula em Rn .
Seja
= {w : [0, ) Rn , continuas },
ento, como sempre assumimos que X(t), t 0, tal que os caminhos

amostrais w satisfazem w(t) = Xt (w).
Um processo desta forma denido por uma probabilidade P sobre .
Considere uma funo u : Rn Rn (com alguma regularidade) e outra

funo positiva 2 : Rn R (com alguma regularidade). A difuso car
determinada a partir de tais funes. Um caso particular importante quando
estas funes so constantes.
Considere, para t 0, o processo estocstico Xt , t 0.

Uma difuso um processo que vai cumprir as seguintes propriedades: a
probabilidade P associada ao processo tal que
1
lim E(Xt+h Xt |Xt = x) = u(x), e (5.22)
h0 h
1
lim (| (Xt+h Xt ) u(x) |2 |Xt = x) = 2 (x). (5.23)
h0 h
i i
i i
i i

i i
5.8 Processos de Difuso 521
Se u = 0 e 2 = (constante) o processo Xt o processo Browniano.

O valor u(x) denominado de drift. Ele indica a direo (aleatria) mdia
que os caminhos amostrais vo seguir quando na posio x.
Por sua vez o valor 2 (x) descreve a maior ou menor disperso desta direo
em torno do ponto x. Assim, 2 (x) denominado de disperso innitesimal
em torno de x. Se 2 (x) pequeno no ponto x os caminhos amostrais tem
pouca volatilidade (na mdia) quando posicionados perto de x
Supondo que as funes u e tem boa regularidade (por exemplo de classe

C ) ento existe um processo estocstico Xt , t 0, tal que satisfaz (5.22) e
(5.23) e que com probabilidade 1 os caminhos amostrais w so continuos
(ver [SW]).
Vamos nos restringir aqui ao caso unidmensional em que n = 1.
Com probabilidade um os caminhos w : [0, +) R so contnuos mas
no diferenciveis.
No caso em que X0 = x0 R dizemos que a difuso est condicionada a
comear em x0 . Neste caso, a probabilidade associada ser denotada por Px0
e o correspondente valor esperado por Ex0 .
Algumas propriedades das difuses so semelhantes ao do movimento Brow-

niano. Desejamos encontrar p(t, x, y), onde t 0, x, y R, (a densidade da
probabilidade de estando em x no tempo 0, estar em y no tempo t) que satisfaz
b
Px (Xt (a, b)) = p(t, x, y)dy.
a
Alm disso, desejamos que
PX0 =x0 (Xt1 (a1 , b1 ), Xt2 (a2 , b2 ), Xt3 (a3 , b3 ))

b3 b2 b1
= p(t1 , x0 , x1 )p(t2 t1 , x1 , x2 )p(t3 t2 , x2 , x3 ) dx1 dx2 dx3 .
a3 a2 a1
i i
i i
i i

i i
A funo p(t, x, y) de fato existe e satisfaz uma equao diferencial parcial

de segunda ordem. Mais precisamente, p(t, x, y) satisfaz a equao backward
de Kolmogorov que dada por
p 1 2p p
(t, x, y) = 2 (x) 2 (t, x, y) + u(x) (t, x, y), (5.24)
t 2 x x
+
Neste caso, para todo t 0 e x xo, tem-se p(t, x, y)dy = 1.
Observe que y est xo e derivamos em x.
Assim, a funo p(t, x, y) que soluciona tal equao satisfaz
b
p(t, x, y)dy = P (Xt (a, b) | X0 = x).
a
Quando u = 0 e (x)2 = 2 constante obtemos a equao associada ao

movimento Browniano e a soluo
(xy)2
e 2 t
.
2t
Exemplo 5.39. Suponha que u(x) = x, onde constante, e 2 (x) = 2

(xy)2
e
constante. Seja (t, x, y) = 2 t
. A difuso Xt , t 0 associada a tais
2 t
funes denominado de Ornstein-Uhlenbeck.

Pode-se mostrar que
2
p(t, x, y) = ( (1 e2 t ) , x et , y )
2
satisfaz a equao backward de Kolmogorov
p 1 2p p
(t, x, y) = 2 2 (t, x, y) x (t, x, y), (5.25)
t 2 x x
e portanto descreve a probabilidade de transio a difuso Xt , t 0, asso-
ciada.
i i
i i
i i

i i
De forma similar ao caso do movimento Browniano, para a difuso Xt

associada a u e 2 , dado g : R R, considere
(x, t) = E[ g( X(t) ) | X(0) = x ].

Pode se mostrar que (t, x) satisfaz a equao
1 2
(t, x) = 2 (x) 2 (t, x) + u(x) (t, x), (5.26)
t 2 x x
com a condio inicial u(0, .) = g.
Vamos supor agora que a difuso Xt , t 0, seja tal que
b
P (X0 (a, b)) = f0 (x) dx.
a
Ou seja, f0 descreve a densidade da varivel X0 (a posio inicial da difuso
no tempo 0 aleatria).
Desejamos saber neste caso que p(t, x, y) tal que
b
P (Xt (a, b)) = f0 (x) p(t, x, y) dy dx.
a
Em outras palavras, a densidade da variavel Xt , t 0, seria dada por

ft (y) = f0 (x) p(t, x, y) dx.
Note que para y xo o limite quando t 0 da probabilidade associada a

densidade p(t, x, y) a delta Dirac y (dx).
A equao forward de Kolmogorov dada por
p 1 2 2
(t, x, y) = 2
[ (y)p(t, x, y)] [u(y)p(t, x, y)]. (5.27)
t 2 y y
A funo p(t, x, y) satisfaz tal equao sujeita a condio inicial p(t, ., y)
a delta Dirac em y .
i i
i i
i i

i i
A partir de (5.27) natural dizer que o gerador innitesimal de o processo

de difuso Xt , t 0, associado a u e 2
1 2 2
f A(f ) = 2
[ (y)f (x)] [u(y) f (x)]. (5.28)
2 y y
A escolha da f0 inicial torna o processo de difuso estacionrio se, e somente

se,
f0 (y) = f0 (x) p(t, x, y) dx.
para todo t 0 e para todo y .

Se o drift u(x) for zero e 2 constante obtemos o processo Browniano e a
equao forward Kolmogorov como vimos no tem estado estacionrio.
A funo densidade inicial f0 dene um estado estacionrio se
1 2 2
0= 2
[ (y)f0 (x)] [u(y) f0 (x)] = A(f0 ). (5.29)
2 y y
Assim, para encontrar f0 necessrio resolver uma equao diferencial
ordinria.

y
2 u(x)
dx x
Suponha que esta bem denido a(y) = e 2 (x) e A(x) = a(y) dy.
Se f for da forma
A(x) 1
f (x) = k1 + k 2 ,
a(x) 2 (x) a(x) 2 (x)
ento se pode mostrar que f satisfaz A(f ) = 0 (equao (5.29)).

Em vrias situaes, dependendo de u(x) e 2 (x), possvel encontrar
constantes k1 , k2 tais que tal f satisfaz f (x) 0, para todo x, e ainda que

f (x)dx = 1. Desta forma se pode obter explicitamente a funo f0 (condio
inicial) que deixa a difuso associada Xt t 0, estacionria.
Dependendo do drift u a existncia de um estado estacionrio se torna
possvel. Por exemplo, se u for tal que u(x) < 0 se u > 0, e ainda u(x) > 0 se
i i
i i
i i

i i
u < 0, ento ele age no sentido de que, heuristicamente falando, a massa da

probabilidade que connada e no escape para innito.
Exemplo 5.40. Suponha que u(x) = x, onde constante, e 2 (x) = 2

(xy)2
e
constante. Seja (t, x, y) = 2 t
2 t
. Assim Xt , t 0, o processo de
2
Ornstein-Uhlenbeck. Um clculo simples mostra que a(x) = e 2 x . A partir
x2
2
disso se obtm que f0 (x) =
e
y2 a densidade inicial invariante que torna
e 2 dy
o processo Xt , t 0, estacionrio.
Suponha que o processo estocstico Xt , t 0, seja uma difuso com 2 (x)

e o drift u(x).
Seja Ut : f 7 g , onde para xado t > 0, Ut (f (x)) = E(f (X(t))|X(0) =
x) = g(x).
Ento, da mesma forma que no caso do movimento Browniano, temos que
Ut semi-grupo: Ut+s = Ut Us . Ou seja, o processo Markoviano.
Consider uma difuso unidimensional Xt , t 0, associada a u(x) e 2 (x).

Suponha que X0 = x.
Fixados l < r, tal que l < x < r, denimos o tempo de parada T tal que
T (w) = min{t tal que wt = l ou wt = l }.
Ainda,
Tl (w) = min{t tal que wt = l }
e
Tr (w) = min{t tal que wt = r }
so tambem tempos de parada.

Assuma que T nito com probabilidade 1.
i i
i i
i i

i i
Denote por v(x) = Px (T (r) < T (l)), x [l, r]. Este valor nos d a proba-
bilidade de que o caminho amostral wt , t 0, ao sair do intervalo [l, r], o faa
pelo ponto r.
Pode se mostrar (ver seo 15 [KT2]) que v(x) satisfaz a equao diferencial
ordinria
d v(x) 1 2 d2 v(x)
0 = u(x) + (x)
dx 2 d x2
com a condio de fronteira v(l) = 0 e v(r) = 1.
Desta forma atravs de problemas do tipo Sturm-Liouville podemos obter
informaes importantes sobre a difuso Xt , t 0.
i i
i i
i i

i i
Bibliograa
[B] P. Billingsley, Probability and Measure, Wiley, 1995.
[Ba] R. Bartle, The Elements of Integration, Wiley, 1966.
[Ba2] R. Bartle, The Elements of Real Analysis, Wiley, 1964.
[DZ] A. Dembo and O. Zeitouni, Large Deviations Techniques and Appli-

cations, Springer Verlag, 1998.
[DL] C. Doering e A. O. Lopes, Equaes Diferenciais Ordinrias, Mat.

Univ. IMPA, 2012.
[Du] R. Durret, Probability: Theory and Examples, Duxbury Press, 1995.
[EK] S. Ethier and T. Kurtz, Markov Processes, John Wiley, 1986.
[Fe] P. Fernandez, Teoria da Medida, Projeto Euclides, IMPA, 1976.
[F] P. Fernandez, Introduo aos Processos Estocsticos, Coloq. Bras. de

Matemtica, 1975.
[GP] V. Guilhemin and A. Pollack, Dierential Topology, AMS Chelsea

Publishing, 2010.
[GS] G. Grimmett and D. Stirzaker, Probability and Random Processes,

Oxford Press, 1994.
[Gu] P. Guttorp, Stochastic modeling of scientic data, Chapmann and

Hall, 1995.
527
i i
i i
i i

i i
[HPS] P. Hoel, S. Port and G. Stone, Introduction to Stochastic Processes,

Miin Ed, 1972.
[I] D. Isaacson, Markov Chains, Theory and Applications Wiley, 1976.
[KS] I. Karatzas and S. Shreve, Brownian Motion and Stochastic Calculus,
Springer Verlag
[KT] S. Karlin and H. Taylor, A First Course in Stochastic Processes,
Academic Press, 1975.
[KT2] S. Karlin and H. Taylor, A Second Course in Stochastic Processes,
Academic Press, 1975.
[KSK] J. G. Kemeny, J. L. Snell and A. W. Knapp, Denumerable Markov
Chains, second edition, Springer Verlag
[Li2] Elon Lima, Curso de Anlise, Vol II, Projeto Euclides, 1981.
[Li3] Elon Lima, Espaos Mtricos, Projeto Euclides, 1981.
[N] J. Norris, Markov Chains, Cambridge Press, 1997.
[PY] M. Pollicott and M. Yuri, Dynamical systems and Ergodic Theory,
Cambrige Press, 1998.
[Ro] J. Rosenthal, A rst look at rigorous Probability Theory, World Sci-
entic Publishing, 2006.
[RW] L. Rogers and D. Williams, Diusions, Markov Processes and Mar-
tingales: Volume 1 an 2, Cambridge Press
[Ru] W. Rudin, Real and Complex Analysis, McGraw Hill, 1970.
[S] D. W. Stroock, An introduction to Markov Processes, Springer Verlag,
2005
i i
i i
i i

i i
ndice Remissivo
-lgebra, 1, 387 conjunto aberto, 390
-lgebra cauda, 456 conjunto convexo, 427
-lgebra de Borel, 389, 399, 400 conjunto das partes, 1
-lgebra gerada, 389 conjunto invariante, 463
-lgebras independentes, 444 conjunto sequencialmente compacto, 427
conjunto trivial, 464
A Cadeia de Ehrenfest, 43
conjuntos independentes, 443
absolutamente contnua, 422
conjuntos mensurveis, 2
algebra, 392
Convergncia em Probabilidade, 229
amostra, 3
Convergncia Quase Certa, 229
Aproximao de Stirling, 114
convergencia fraca, 426
bola aberta, 390 convergencia simples de distribuio,
245
cadeia de Markov, 50 covariancia, 439
Cadeia de Markov de Ordem Superior, Critrio de Recorrncia, 110
206
Cadeia irredutvel, 346 decaimento de correlao, 476
cadeia irredutvel, 92 Decomposio em Peas Irredutveis,
Cadeias de Nascimento e Morte, 133 127
cilindro, 27 delta-Dirac, 392
classe fechada, 121 densidade Gaussiana, 247
classes de equivalencia, 91 dependencia de nitas coordenadas, 24
classicao de estados, 89 desigualdade de Chebyshev, 232
coeciente de correlao, 442 desigualdade de Jensen, 261
529
i i
i i
i i

i i
530 NDICE REMISSIVO
diferena simtrica, 413 espao mensurvel, 2, 401

difuso, 520 esperana de varivel aleatria, 21
disperso innitesimal, 521 estado absorvente, 94
distancia no espao de Bernoulli, 417 estado aperidico, 131
distribuio Binomial, 19 estado peridico, 131
distribuio da varivel aleatria, 5 estado recorrente, 103
distribuio de Bernoulli, 267, 269 Estado recorrente nulo, 148
distribuio de Poisson, 264 Estado recorrente positivo, 148
distribuio de probabilidade conjunta, estado transiente, 103, 347
435 estados que se comunicam, 89
distribuio de probabilidade da var- estados recorrente, 346
ivel aleatria, 432 evento independente, 13
distribuio esponencial, 264 eventos cauda, 448
distribuies nito-dimensionais, 26 exponencial de matriz, 285
distribuio normal, 263 exponencial de uma matriz, 369
distribuio simtrica, 262
drift, 521 funo caracterstica, 245, 261
Funo esperana condicional, 482
equao backward de Kolmogorov, 522
funo gamma, 255
Equao da renovao, 167
funo geradora de momentos, 254
equao de Chapman-Kolmogorov, 66,
funo geradoras de probabilidade, 251
297, 518
funo mensurvel, 4, 414
equao diferencial, 350
funes independentes, 453
equao diferencial parcial, 379
equao forward de Kolmogorov, 524 gerador innitesimal, 305, 518
espao amostral, 3
espao de Bernoulli, 417 integral de funo, 48, 227
Espao de Estados, 10 integral de funo mensurvel, 21
Espao de Probabilidade, 402 integral de Lebesgue, 421
espao de probabilidade, 2 integral de uma funo mensurvel, 7
i i
i i
i i

i i
NDICE REMISSIVO 531
lei -aditiva, 396 probabilidade ergdica, 463

lei -nita, 397 probabilidade invariante, 401, 417, 427,
lei aditiva, 395 429, 462
Lei dos Grandes Nmeros, 229 probabilidade push forward, 50
Lei Forte dos Grandes Nmeros, 231 problemas do tipo Sturm-Liouville, 526
Lei Fraca dos Grandes Nmeros, 231 Processo de Markov, 30, 41
Lei zero ou um, 450 Processo de Markov com Transies
Lema de Abel, 109 Estacionrias, 42
Lemas de Borel-Cantelli, 234 processo de Ornstein-Uhlenbeck, 522,
525
martingale, 497, 499
Matriz de Transio, 42 Processo de Poisson, 274
Matriz irredutvel, 92 Processo Estocstico, 10
matriz linha estocstica, 38 processo estocstico de Markov com
matriz regular, 74 tempo contnuo, 275
matriz tipo linha soma zero, 291 Processo estocstico estacionrio, 31
medida, 391 processo estocstico mixing, 473
medida -aditiva, 397 processo identicamente distribuido, 20
medida com sinal, 391 processo independente, 17
movimento Browniano, 511 Processo Markoviano estacionrio, 74
Processos de Difuso, 520
operador limitado, 426
processos de Nascimento e Morte, 195
Parmetro temporal, 10 propriedade de Markov, 517
Passeio Aleatrio, 52 Propriedade Forte de Markov, 187
ponto de equilbrio, 368 propriedade vlida em quase toda parte,
probabilidade, 2, 391 392
probabilidade condicional, 13, 495 push-forward da medida, 431
probabilidade de retorno, 348
Probabilidade de Transio, 41 Random walk, 96
probabilidade de um cilindro, 28 Regra de Bayes, 30
i i
i i
i i

i i
532 NDICE REMISSIVO
Srie Temporal, 32 tempo de retorno, 135

semigrupo, 297, 306, 517 tempo de salto do estado, 347
sequencia crescente de sigma-algebras, Teorema Central do Limite, 246
514 Teorema da Continuidade, 246
sequencia uniformemente integrvel, 501 Teorema da Convergncia Dominada,
sigma-algebra cauda, 447 425
sigma-algebra de Borel, 4 Teorema da Convergncia Montona,
Sigma-algebra de Borel para um es- 423
pao mtrico, 417 Teorema da Extenso de Caratheodori-
sigma-algebra gerada pelos cilindros, Kolmogorov, 398
48 Teorema de Birkho, 465, 469
sigma-algebra gerada pelos cilindros no Teorema de decomposio de Hahn-
espao de Bernoulli, 400 Jordan, 427
sigma-algebra gerada por um conjunto Teorema de Radon-Nykodin, 423
de funes, 455 Teorema de Riesz, 425
sigma-algebra induzida por uma var- Teorema de Schauder-Thychonov, 427
ivel aleatria, 415 transformao que preserva medida, 435
sistema , 402
valor esperado, 8, 48
sistema linear de equaes diferenci-
variveis independentes, 13
ais, 355
Varivel Aleatria, 4, 415
soluo da equao diferencial linear,
varivel aleatria independente de -
357
lgebra, 446
soluo do sistema linear de equaoes
varincia, 422
diferenciais, 355
vetor de probabilidade, 39
soluo em equilbrio, 367
Vetor de Probabilidade Estacionrio,
submartingale, 497
68
supermartingale, 497
vetor de probabilidade inicial, 28, 45
tempo de parada, 175, 502, 516, 525 vetor de probabilidade invariante, 71
Tempo de Primeira chegada, 99
i i
i i

Introdução A Processos Estocásticos para Matemáticos

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Introdução A Processos Estocásticos para Matemáticos

Încărcat de

Drepturi de autor:

Formate disponibile

i i

PrincipalNovo  2016/5/24  20:13  page V  #1

Introduo aos Processos Estocsticos

para estudantes de Matemtica

Artur O. Lopes e Slvia R. C. Lopes

PrincipalNovo  2016/5/24  20:13  page VI  #2

PrincipalNovo  2016/5/24  20:13  page VII  #3

2 Cadeias de Markov com Tempo Discreto 37

3 Convergncia de Variveis Aleatrias 227

PrincipalNovo  2016/5/24  20:13  page VIII  #4

3.4 Funes Geradoras de Probabilidade e Funes Caractersticas . 251

4 Cadeias de Markov em Tempo Contnuo 273

5 Reviso de Teoria da Medida e Propriedades Gerais de Pro-

PrincipalNovo  2016/5/24  20:13  page IX  #5

PrincipalNovo  2016/5/24  20:13  page X  #6

O pr-requisito para esta seo apenas o conhecimento de resultados bsicos

PrincipalNovo  2016/5/24  20:13  page XI  #7

com uma alma.

PrincipalNovo  2016/5/24  20:13  page XII  #8

Porto Alegre, 2 de maro de 2015

PrincipalNovo  2016/5/24  20:13  page 1  #9

Denio 1.1. Uma famlia A de subconjuntos de um conjunto K chamado

de -lgebra sobre K no caso em que:

PrincipalNovo  2016/5/24  20:13  page 2  #10

c) se (An )nN uma coleo enumervel de conjuntos em A, ento a unio

Segue da denio que est em A.

Denio 1.2. Uma probabilidade P sobre uma -algebra A de subconjuntos

b) se En , n N, uma coleo enumervel de subconjuntos de A tal que

PrincipalNovo  2016/5/24  20:13  page 3  #11

A - algebra A o conjunto das partes p(K). A probabilidade de sair 1 ou 2

P ({1, 2}) = P ({1}) + P ({2}) = 1/6 + 1/6 = 2/6.

Este um problema no determinstico. No podemos armar qual face

Denio 1.3. Considere K equipado com uma -lgebra A e V outro con-

PrincipalNovo  2016/5/24  20:13  page 4  #12

Consideraremos inicialmente apenas funes mensurveis : K V , em

X(1) = 1, X(2) = 1 , X(3) = 2 , X(4) = 2 , X(5) = 2, X(6) = 2.

A funo X descreve o que vamos ganhar quando se joga o dado em funo

PrincipalNovo  2016/5/24  20:13  page 5  #13

da face que sai. Neste caso natural concluir que

P ({w : X(w) = 1}) = 1/3 e P ({w : X(w) = 2}) = 2/3.

Seguindo a notao descrita acima, a -lgebra a ser considerada em

PrincipalNovo  2016/5/24  20:13  page 6  #14

Voltando ao nosso problema original, tal probabilidade PX denominada

PrincipalNovo  2016/5/24  20:13  page 7  #15

intervalo contido em [0, 1]) d o valor P ([a, b]) = b a. Observamos que os

PrincipalNovo  2016/5/24  20:13  page 8  #16

Vamos supor que os peixes so pescados de forma que com a probabilidade

10 P ([0, 1/4]) + 15 P (1/4, 3/4] + 25 P (3/4, 1] =

10 0.25 + 15 0.5 + 25 0.25 = 2.5 + 7.5 + 6.25 = 16.25

400 16.25 = 6500.

Dizemos que 10 0.25 + 15 0.5 + 25 0.25 = 16.25 nos d o valor

usual denotar por E(X) (valor esperado da varivel X segundo P ) esta

PrincipalNovo  2016/5/24  20:13  page 9  #17

onde yk [xk , xk+1 ].

Suponha agora que Ui=1

PrincipalNovo  2016/5/24  20:13  page 10  #18

Denio 1.4. Seja (, A, P ) espao de probabilidade, (S, G) um espao men-

t T , onde T R (isto , cada Xt : (, A, P ) (S, G) mensurvel). Dize-

nito ou enumervel e assim G = p(S).

Denio 1.5 (Espao de ndices ou parmetros temporais). O con-

cada t T a varivel Xt descreve o que acontece com o processo no tempo t.

Dois casos importantes so:

Parmetro Temporal Discreto - T = N, ou Z, ou ainda {1, 2, ..., n}.

PrincipalNovo 2016/5/24 20:13 page V #1

PrincipalNovo 2016/5/24 20:13 page VI #2

PrincipalNovo 2016/5/24 20:13 page VII #3

PrincipalNovo 2016/5/24 20:13 page VIII #4

PrincipalNovo 2016/5/24 20:13 page IX #5

PrincipalNovo 2016/5/24 20:13 page X #6

PrincipalNovo 2016/5/24 20:13 page XI #7

com uma alma.

PrincipalNovo 2016/5/24 20:13 page XII #8

PrincipalNovo 2016/5/24 20:13 page 1 #9

Denio 1.1. Uma famlia A de subconjuntos de um conjunto K chamado

PrincipalNovo 2016/5/24 20:13 page 2 #10

Segue da denio que est em A.

Denio 1.2. Uma probabilidade P sobre uma -algebra A de subconjuntos

PrincipalNovo 2016/5/24 20:13 page 3 #11

Este um problema no determinstico. No podemos armar qual face

Denio 1.3. Considere K equipado com uma -lgebra A e V outro con-

PrincipalNovo 2016/5/24 20:13 page 4 #12

PrincipalNovo 2016/5/24 20:13 page 5 #13

PrincipalNovo 2016/5/24 20:13 page 6 #14

PrincipalNovo 2016/5/24 20:13 page 7 #15

PrincipalNovo 2016/5/24 20:13 page 8 #16

PrincipalNovo 2016/5/24 20:13 page 9 #17

PrincipalNovo 2016/5/24 20:13 page 10 #18

Denio 1.4. Seja (, A, P ) espao de probabilidade, (S, G) um espao men-

nito ou enumervel e assim G = p(S).

Denio 1.5 (Espao de ndices ou parmetros temporais). O con-

Denio 1.6 (Espao de Estados). o conjunto S, ou seja, o elenco dos

Quando S nito, S ser SEMPRE descrito na forma {1, 2, ..., m} ou

PrincipalNovo 2016/5/24 20:13 page 11 #19

PrincipalNovo 2016/5/24 20:13 page 12 #20

PrincipalNovo 2016/5/24 20:13 page 13 #21

Denio 1.7. Fixado (, A, P ), denotamos por

Denio 1.8. Fixada uma probabilidade P, dizemos que o evento denido

pelo conjunto A independente do evento denido pelo conjunto B se

PrincipalNovo 2016/5/24 20:13 page 14 #22

Denio 1.9. Sejam (X, F, P ) onde X(w) S e(Y, F, P ) onde Y (w) S1 ,

PrincipalNovo 2016/5/24 20:13 page 15 #23

PrincipalNovo 2016/5/24 20:13 page 16 #24

PrincipalNovo 2016/5/24 20:13 page 17 #25

Voltemos agora ao exemplo do uso da internet. Consideramos nalmente

Denio 1.10. Para cada amostra w xada, seja a sequncia =

PrincipalNovo 2016/5/24 20:13 page 18 #26

Alertamos o leitor que, xado o processo estocstico (Xt )tN , usual no

Denio 1.11. Fixados (, A, P), dizemos que o processo Xt tomando val-

PrincipalNovo 2016/5/24 20:13 page 19 #27

PrincipalNovo 2016/5/24 20:13 page 20 #28

Denio 1.12. Fixados (, A, P), dizemos que o processo Xt tomando val-

PrincipalNovo 2016/5/24 20:13 page 21 #29

Estamos supondo para simplicar que todos os passageiros a embarcar