Documente Academic
Documente Profesional
Documente Cultură
Note que g(t) = E(Xt) NÃO E’ uma curva aleatória: e’ uma curva matemática fixa.
Processo estocástico
• X0 X1 X2 X3 ... cada uma delas e’ uma
variável aleatória
• E(Xt) = g(t)
Variáveis tem a mesma esperança (0) e variância (1) nos dois gráficos.
O que muda e’ que, no gráfico da direita, os valores são dependentes.
Caso dependente
Positivamente dependentes.
Quando Xt > > 0 , o valor seguinte Xt+1 pode ser > 0 ou < 0 com igual
chance
Dependência negativa
X11 ?
Modelo (ou algoritmo)
• Precisamos de um modelo que diga como gerar
X11 tendo em vista TODO o passado da serie.
• Se cada variável tem apenas 2 valores possíveis,
0 ou 1, temos 210 possíveis trajetórias
• Precisamos especificar
– P(X11 = 1 | uma trajetória)
• para cada uma das 210 trajetórias possíveis.
• Precisamos simplificar.
Hipótese
• Passado longínquo não afeta a distribuição de Xt
dado o passado mais recente.
• Se soubermos os valores mais recentes da serie
podemos ignorar o passado mais distante.
• Qualquer efeito que o passado mais distante
possa ter em Xt, este efeito está condensado no
passado mais recente.
• Isto e’ uma HIPOTESE que pode ou não ser válida
em cada aplicação particular.
Markov
• Caso extremo: “apenas a ULTIMA variável
afeta as próximas”
• Menos informal:
f(xt+1 | xt , xt-1 , xt-2 , ...) = f(xt+1 | xt)
• DADO O PRESENTE Xt, o passado (Xt-1, Xt-2, ..)
e’ irrelevante para prever o futuro (Xt+1)
• Outra maneira equiv: Xt+1 e’ indep de Xt-1, Xt-2,
.. condicionalmente em Xt
Exemplos
• Cinco posições possíveis para uma partícula
(eixo vertical).
• Xt = posição da partícula no instante de tempo t
• Partícula movimenta-se ao acaso.
• Exemplo: andar do bêbado com parede refletora
O labirinto
• Camundongo vive na caixa abaixo.
• Monitora-se o cômodo em que ele esta em
intervalos regulares.
• Ele escolhe uma porta ao acaso quando decide
sair de um cômodo.
Um modelo populacional simples
• População dividida em dois grupos A e B de
tamanhos nA e nB
• Em cada instante, selecione um individuo da
população ao acaso e adicione um do mesmo
tipo.
• Selecione um individuo ao acaso e elimine-o.
• Seja Xt a proporção de indivíduos do tipo A no
instante de tempo t.
Um modelo epidêmico simples
• Uma grade regular quadrada: pontos (i,j)
• Apenas origem (0,0) infectada em t=0.
• Em cada instante, cada um dos sites
infectados podem infectar os seus vizinhos
sadios independentemente e com
probabilidade
• Seja Xt o diâmetro do grafo conectando os
infectados no instante t.
Web como um grafo
Web e’ um grande grafo direcionado: nós são as
páginas e arestas são os links. (inlinks e outlinks)
Google e page rank
• Passeio aleatório num grafo.
• Por exemplo, grafo da Web
• Xt e’ a pagina no instante de tempo t.
• Em t=0, escolha um página ao acaso.
• Usuário escolhe um dos outlinks da pagina em que
esta’ no instante t
• Escolhe outlink com igual probabilidade e
independentemente de sua historia anterior.
• Em t+1, salta para a nova pagina apontada pelo outlink.
• Repete indefinidamente.
Texto como uma sequencia
• Um texto pode ser visto como um processo
estocástico.
• Acrescente espaço e símbolos especiais de
pontuação (?!., etc)
• Cada caracter e’ classificado como vogal,
consoante ou símbolo especial.
• Xt e’ a classe do caracter t
• Podemos tambem classificar PALAVRAS:
named entity recognition problem.
Modelo AR1
• AR1: AutoRegressivo de ordem 1
• Variáveis Y1, Y2, ... são gaussianas
• São também markovianas
• (Yt | passado) = (Yt | Yt-1, Yt-2, ...) = = (Yt | Yt-1)
• Yt e‘ gaussiano
• Com || < 1 Yt ~ N(0, 2e / (1 - 2))
• Note: distribuição de Yt não depende de t.
Modelo AR1
• (Yt | Yt-1 = y) ~ N(y , 2e)
• Estrutura de dependência:
– Cor(Yt , Yt-1) =
– Cor(Yt , Yt-2) = 2
– ...
– Cor(Yt , Yt-k) = k
– Como || < 1 decaimento geométrico (exponencial)
=0.0
=0.5
=0.8 =0.9
=0.0
Yt versus Yt+1 =0.5
=0.8 =0.9
Outras instancias
=0.0 =0.5
=0.8 =0.9
=0.0
Yt versus Yt+1 =0.5
=0.8 =0.9
=0.0
Mais instancias
=0.5
=0.8 =0.9
=0.0
Yt versus Yt+1
=0.5
=0.8 =0.9
Especificando Cadeia de Markov
• Para especificar uma cadeia de Markov e ser
capaz de gerar instancias, precisamos de 2 coisas:
1. A distribuição do estado inicial: Y0 ~ 0(y). Esta
distribuição diz como o estado inicial e’ selecionado.
Exemplos
• P(Y0 = 5) = 1 (com certeza, inicia no estado 5)
• P(Y0 = 0) = ½ = P(Y0 = 1) (joga moeda honesta para escolher
entre 0 e 1)
• Y0 ~ N(0,1) (escolhe uma gaussiana padrão para comecar)
2. A maneira como se faz a transição de um instante
para o outro. Dado que Xt-1 = x, qual o algoritmo
para escolher Xt?
Distribuição inicial
CRUCIAL: Matriz de transição
A toy example
Jumping: Transition between states
Jumping
1.2 The Markov property
Markov: definição
Markov: definicao
Exemplos de Cadeias de Markov
• Cinco posições possíveis para uma partícula
(eixo vertical).
• Xt = posição da partícula no instante de tempo t
• Partícula movimenta-se ao acaso.
• Exemplo: andar do bêbado com parede refletora
Matriz de transição
• Insira as probabilidades
1 2 3 4 5
1
2
3
4
5
• Propriedade:
– soma nas linhas = 1
– Elementos são >= 0
O labirinto
• Camundongo vive na caixa abaixo.
• Monitora-se o cômodo em que ele esta em
intervalos regulares.
• Ele escolhe uma porta ao acaso quando decide
sair de um cômodo.
• Insira as probabilidades
A B C
A
B
C
Um modelo populacional simples
• População dividida em dois grupos A e B de
tamanhos nA e nB
• Em cada instante, selecione um individuo da
população ao acaso e adicione um do mesmo
tipo.
• Selecione um individuo ao acaso e elimine-o.
• Seja Xt o número de indivíduos do tipo A no
instante de tempo t.
Urna de Pólya
• Xt = bolas azuis
• P(Xt+1 = ?? | Xt = k)
• ?? é k-1, k ou k+1
• Evento [Xt+1 = k-1 ] ocorre, dado que [Xt = k],
se e só se, escolher bola vermelha e a seguir
escolher bola azul.
• P(Xt+1 = ?? | Xt = k) = (N-k)/N * (k/(N-k+1))
• Obtenha as outras
Matriz de Transição
• nA + nB = N fixo
• Xt ε {0, 1, 2, ...., N}
0 1 2 ... K-1 k K+1 ... N
0
1
2
...
K-1
K 0 0 0 0 ?? ?? ?? 0 0
K+1
...
N
Probability of a given path
Higher-order Markov chains
Higher-order Markov chains
Espaço de estados finito
• Se o espaço de estados e’ finito com N
elementos, usamos a matriz de transição NxN
• Neste caso, ***TODOS*** os cálculos de
probabilidade se reduzem apenas a
manipulações de matrizes.
•
It’s all just matrix calculus
It’s all just matrix calculus
It’s all just matrix calculus
It’s all just matrix calculus
It’s all just matrix calculus
Iterating...
Resumo
• n e’ a distribuição de Xn (X no tempo n)
• Se a cadeia for estacionaria, n não deveria
depender de n
• n deveria ter uma media, variância etc que
não variasse com o tempo n
• A cadeia deve ser estacionaria desde o tempo
n=0 de acordo com nossa definição.
• Mas queremos relaxar isto.
Conceito de distribuição estacionaria
• Cadeia de Markov (ou processo estocástico)
não estacionária
• Mas cadeia converge para uma distribuição
em torno da qual ela “estaciona”
Exemplo
• X0 ~ Unif(-50, 50)
• Xt = 0.8 * Xt-1 + N(0, 1)
• Dist estacionaria: Xt ≈ N(0, 1/(1-0.64)) = N(0, 2.8)
10 instancias
Efeito do valor inicial
• Eventualmente, a cadeia converge e passa a gerar
valores de N(0, 2.8) em geral, entre +- 3.33
• Existem valores iniciais muito discrepantes com
respeito ‘a distribuição N(0, 2.8)
• Por exemplo, X0 > 20 ou X0 < -20
• Por algum tempo, esses valores iniciais influenciam
o inicio da serie.
• Este e’ o período de burn-in.
Nova def de Estabilidade
• Queremos uma nova definição de
“estabilidade”
• Uma propriedade assintótica (quando n )
• Queremos que n = P(Xn= i) valor que não
dependa do tempo n
• Queremos n = P(Xn= i) (i)
• Como encontrar esta distribuição limite?
• Antes dessa teoria, um exemplo.
Exemplo de migração
• 4 lugares
• Matriz 4x4
• P(i,j) = Probabilidade de um residente em lugar i
em 01/Jan mudar-se para lugar j durante o ano.
• O que ocorre no futuro?
• O sistema é aleatório e cada indivíduo terá sua
trajetória pessoal.
• Mas a regularidade estatística estará presente.
Notação
• Seja 0(i) = P( X0 = i )
• Defina o vetor-linha 1 x N
• 0 = (0(1), 0(2), ..., 0(N))
A B C D
A 0.83 0.05 0.02 0.10
B 0.01 0.94 0.02 0.03
C 0.01 0.30 0.65 0.04
D 0.02 0.03 0.05 0.90
Uma visão: individual
• Imagine um grande número de indivíduos
movendo-se de lugar para lugar a cada ano de
acordo com a matriz P.
• Podemos acompanhar um deles em particular.
• What will happen in the future?
• For example:
– A A B A C C C D D ...
• Or may be this path
– B B B B C D D A A ...
Probabilidades individuais
• Assim, as probabilidades dizem respeito a um
indivíduo particular.
• P(X0 = A) = Probab de um indivíduo escolhido
ao acaso começar no lugar A
• P(Xt = A) = Probab de um indivíduo escolhido
ao acaso estar em A no tempo t.
• P(Xt = A | X0 = A) = Probab de um indiv. casual
estar em A no tempo t DADO QUE começou
em A
Outra visão: populacional
• População espalhada pelos quatro lugares.
• Alocação inicial foi feita de acordo com 0(i) = P( X0 = i )
• Escolhe-se o lugar de cada indivíduo de acordo com 0
• P(X0 = A) ≈ proporção de indivíduos em A no tempo 0
• Movimentações de cada um de acordo com matriz P
• No tempo t, a proporção de indivíduos em A será aprox.
igual a t(A)
• P(Xt = A | X0 = A) ≈ proporção de indivíduos em A no
tempo t DENTRE AQUELES que começaram em A
Always on the move
• Start on initial configuration
• What will happen in the future?
• For example, for two individuals:
– A A B A C C C D D ...
• Or may be this path
– B B B B C D D A A ...
• E daí?
• Vamos ver o que temos para n(i) = P(Xn = i)
Notação
• Seja 0(i) = P( X0 = i )
• Defina o vetor-linha 1 x N
• 0 = (0(1), 0(2), ..., 0(N))
• Vimos que n = 0 . Pn
Se Pn convergir...
• Se Pn convergir para matriz com todas as
linhas idênticas...
• Idênticas e iguais ao vetor linha
• Três usos para o símbolo :
– 0 n e
• Teremos n = 0 . Pn
N N
n (i) 0 ( j )
P n ( j, i)
(i) 0 ( j ) (i)
j 1 j 1
constante ( i )
1
Outra maneira de ver as coisas
• Para n grande, esperamos que
• n n+1 n+2 n+3 etc.. Todas convergindo
para CERTA distribuição
Seja X0=1 ou X0=5, quando o tempo passa, Xt vai estar seguindo aprox. a dist
invariante em que apenas os estados 9 e 10 tem probabs iguais a ½
Simule MUITAS vezes a cadeia desde o instante inicial até o tempo t=1.
Estamos dizendo que o fluxo de i para j deve ser igual ao fluxo de j para i para todo par
Balanço detalhado
• (j) *P(j, i) = (i) * P(i, j) para TODO PAR (i,j)
j
j
i
i
• P(i, j) is the percentage of that wealth that the country i exports to country j.
• (i) * P(i, j) is hence the amount of wealth exported from country i to country j.
• Thus if (i) * P(i, j) = (j) *P(j, i) for all i,j then exports equals imports between all
countries.
• There is neither trade deficit nor trade surplus - there is a perfect balance of
trade.
Intuição from Quora (William Chen)
• If there's a perfect balance of trade, you can reverse the direction of trade
and and nothing has changed in terms of the value of things traded. We say
that this Markov Chain is reversible.
• Definition of stationarity: = . P
• (I'd like to credit Professor Sam Kou of the Harvard Stats department for
inspiring this explanation!)
DB
• A condição DB exige dois elementos:
– Uma distribuição
– Uma matriz de transição P
• Ela checa uma condição que envolve os dois
elementos:
Ver https://en.wikipedia.org/wiki/Gibbs_sampling#Mathematical_background
Slides opcionais agora
Simulação Monte Carlo multivariada
• Problema difícil: simular de uma distribuição
MULTIVARIADA.
• Quero simular um VETOR de n v.a.’s que não
são independentes.
• Os valores das v.a.’s estao “amarrados”
probabilisticamente.
• Não posso simular CADA componente do
vetor ignorando as demais componentes.
Exemplo
• Por exemplo, algumas vezes, preciso simular
da seguinte densidade de probabilidade
1000
j
1
p(1 ,, 1000, 1 ,, 1000) cte * exp ci ( i i ) e
i i
2
i
i 1 2 jN ( i )
• ou
• e’ distribuição estacionaria.
• PROVA: no quadro...
Se quiséssemos o passeio
Mas...queremos
Mas...queremos
Metropolis
Metropolis
Metropolis: prova
(i)=f(i)d(i)
Detalhes sobre irredutibilidade e
periodicidade
Irredutível, periódica
Irredutível, periódica
Irredutível, periódica
Do we need irredutibility?
Irredutível
• Notação: Pi significa que a cadeia começou
com X0=i
Irredutível e classes
• O espaço de estados S pode ser particionado
em classes comunicantes.
• Cadeia e’ irredutível se existir apenas uma
classe comunicante.
• A intenção e’ eliminar de S a possibilidade de
haver estados absorventes
• Se existirem estados absorventes, qual seria a
distribuição estacionaria da cadeia?
Ruína do jogador
• Jogo de “moeda” com probab sucesso = p
• Fracasso com probab 1-p
• Se sucesso ganha 1 real. Se fracasso, perde 1
real
• Jogador 1 começa com M1 reais e jogador 2
com M2 reais
• Seja Xt o GANHO realizado no jogo por 1
• X0 = 0.
Ruína do jogador
• Seja Xt o GANHO realizado no jogo por 1
• Se Xt = -M1 entao Xt+k = -M1 para todo k > 0
• Se Xt = M2 entao Xt+k = M2 para todo k > 0
• Exemplo:
• P(i,i) =0 P2(i,i) = 0 ... P7(i,i) = 0
• MAS P8(i,i) > 0 P9(i,i) = 0 P10(i,i) = 0 P11(i,i) > 0 ....
• Então di = gcd{ 8, 11, ....(o que quer que apareça aqui) } = 1
• Queremos P(X0 = io ,X1=i1, X2=i2 ,X3=i3) = P(X0 = i3, X1=i2, X2=i1, X3=i0)
• para TODA trajetória especifica i0, i1, i2, i3
Mais formalmente
• P(X0 = io ,X1=i1, X2=i2 ,X3=i3) =P(X0 = i3, X1=i2, X2=i1, X3=i0) para
TODA trajetória especifica i0, i1, i2, i3
• Generalizamos isto para qualquer numero de
variáveis.
• Definição:
Reversível estacionaria
• Veja que reversível depende da distribuição inicial 0
• Definição de dist estacionária não depende da dist
inicial
• Mas existe amarração:
• Se {Xn} é reversível 1 = 0
• Prova: Seja 0 (i) = P(X0=i). Vamos obter
• 1 (i) = P(X1=i) = ∑jP(X0=j, X1=i)= ∑jP(X0=i, X1=j)= =P(X0=i)
= 0 (i)
Reversível estacionaria
• Como
• n+1 = n . P
• Obtemos 0 = 0 . P
• E 0 é distribuição estacionária.
• Assim, uma cadeia reversível é também uma
CADEIA estacionária (e desde o início está
estacionada na distribuição estacionária ).
Reversível ...
Reversível ...
PROVA:
Estacionaria reversível
• Dada uma matriz de transição P, uma distribuição
e’ estacionaria para P se = P
• Se cadeia começa com , ela fica em : processo
estacionário.
• Toda cadeia estacionária satisfaz balanço global
• Reversível pede algo mais:
– (j) *P(j, i) = (i) * P(i, j) para todo PAR (i,j)
• Isto é o Balanço Detalhado (DB=detailed balance)