Processos Estocásticos Finanças

Processos Estocásticos em Finanças
Fernando Antonio Lucena Aiube
Pontifı́cia Universidade Católica do Rio de Janeiro

http://www.ind.puc-rio.br/pagina professores.aspx?id=faiube
aiube@puc-rio.br
Petróleo Brasileiro SA
aiube@petrobras.com.br
26 de março de 2010
Sumário
Prefácio ix
1 Conceitos Preliminares 1
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Conceitos em probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Algumas distribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Variáveis aleatórias multidimensionais . . . . . . . . . . . . . . . . . . . . 13
1.5 Transformação de densidade de probabilidade . . . . . . . . . . . . . . . 24
1.6 Desigualdades em probabilidade e teoremas limites . . . . . . . . . . . . 27
1.7 Inferência estastı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.8 Apêndice - Desigualdades de Chebyshev e Markov . . . . . . . . . . . . . 35
1.8.1 Desigualdade de Chebyshev . . . . . . . . . . . . . . . . . . . . . 35
1.8.2 Desigualdade de Markov . . . . . . . . . . . . . . . . . . . . . . . 36
2 Econometria em Finanças 37
2.1 Processos estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2 Conceitos básicos em séries temporais . . . . . . . . . . . . . . . . . . . . 39
2.3 Estacionariedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4 Formulação dos modelos Box e Jenkins . . . . . . . . . . . . . . . . . . . 45
2.5 Séries financeiras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.5.1 Séries de retornos . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.5.2 Modelos para as séries de retornos . . . . . . . . . . . . . . . . . . 54
2.5.3 Testes para estacionariedade . . . . . . . . . . . . . . . . . . . . . 56
2.5.4 Testes para autocorrelação . . . . . . . . . . . . . . . . . . . . . . 57
2.6 Volatilidade condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.6.1 Modelos de volatilidade condicional lineares . . . . . . . . . . . . 59
2.6.2 Modelos de volatilidade condicional não lineares . . . . . . . . . . 64
2.6.3 Teste para GARCH linear . . . . . . . . . . . . . . . . . . . . . . 66
2.6.4 Teste para GARCH não linear . . . . . . . . . . . . . . . . . . . . 66
2.6.5 Testes de adequação do modelo . . . . . . . . . . . . . . . . . . . 67
2.7 Volatilidade estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.8 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.9 Resumo e considerações finais . . . . . . . . . . . . . . . . . . . . . . . . 70
2.10 Apêndice - Função de Autorcorrelação Parcial . . . . . . . . . . . . . . . 70
2.10.1 Função de Autocorrelação Parcial . . . . . . . . . . . . . . . . . . 70
i
ii SUMÁRIO
3 Cálculo Estocástico 73
3.1 Processo Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.1.1 Propriedades do processo Browniano . . . . . . . . . . . . . . . . 75
3.1.2 Variação quadrática . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.1.3 Regras básicas de operacionalização . . . . . . . . . . . . . . . . . 78
3.2 Valor esperado condicional . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.2.1 Conceito básico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.2.2 Noção de σ-álgebra . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2.3 Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2.4 Espaço e medida de probabilidade . . . . . . . . . . . . . . . . . . 86
3.2.5 Regras básicas de operacionalização . . . . . . . . . . . . . . . . . 86
3.3 Processos martingais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.4 Integração estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.4.1 Integral de Reimann . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.4.2 Integral de Reimann-Stieltjes . . . . . . . . . . . . . . . . . . . . 94
3.4.3 Integral de Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.5 Fórmula de Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.6 Exemplos de EDE´s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.6.1 Processo geométrico Browniano . . . . . . . . . . . . . . . . . . . 105
3.6.2 Equação de Langevin . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.6.3 Processo de Ornstein-Uhlenbeck . . . . . . . . . . . . . . . . . . . 107
3.8 Apêndice - Variação quadrática, condições de Lipshitz e Hölder . . . . . . 111
3.8.1 Variação quadrática . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.8.2 Condições de Lipshitz e Hölder . . . . . . . . . . . . . . . . . . . 112
4 Modelo de Black, Merton e Scholes 113

4.1 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.2 Modelo de Black e Scholes . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.3 Modelo de Merton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.4 Modelo de Margrabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.5 Gregas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.6 Volatilidade implı́cita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.7 Resumo e considerações adicionais . . . . . . . . . . . . . . . . . . . . . . 132
4.8 Apêndice - Solução da EDP de BMS . . . . . . . . . . . . . . . . . . . . 134
4.8.1 Solução da EDP de BMS . . . . . . . . . . . . . . . . . . . . . . . 134
4.8.2 Transformada de Fourier . . . . . . . . . . . . . . . . . . . . . . . 142
4.8.3 Solução da equação do calor . . . . . . . . . . . . . . . . . . . . . 143
4.8.4 Resultados básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5 Mudança de Medida 147

5.2 Mudança de medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.3 Mudando a medida do Browniano . . . . . . . . . . . . . . . . . . . . . . 151
5.4 Teorema de Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.5 Apreçamento pela medida martingal . . . . . . . . . . . . . . . . . . . . 157
5.6 Teoremas fundamentais de finanças . . . . . . . . . . . . . . . . . . . . . 161
SUMÁRIO iii
5.7 Replicando para o apreçamento . . . . . . . . . . . . . . . . . . . . . . . 164

5.8 Extensões do modelo de BMS . . . . . . . . . . . . . . . . . . . . . . . . 166
5.9 Derivativos exóticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
5.9.1 Opções com barreiras . . . . . . . . . . . . . . . . . . . . . . . . . 169
5.9.2 Opções Lookback . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.9.3 Opções Asiáticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.11 Apêndice - Método de Monte-Carlo . . . . . . . . . . . . . . . . . . . . . 171
6 Equações Diferenciais Estocásticas 175

6.2 Cálculo estocástico multivariado . . . . . . . . . . . . . . . . . . . . . . . 178
6.3 Gerador de difusão de Itô . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.4 Equação de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
6.5 Equação de Fokker-Planck . . . . . . . . . . . . . . . . . . . . . . . . . . 188
6.6 Equação de Feynman-Kac . . . . . . . . . . . . . . . . . . . . . . . . . . 189
6.7 Equações diferenciais estocásticas . . . . . . . . . . . . . . . . . . . . . . 191
6.7.1 Definições básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
6.7.2 Solução forte da EDE . . . . . . . . . . . . . . . . . . . . . . . . . 192
6.7.3 Solução geral da EDE . . . . . . . . . . . . . . . . . . . . . . . . 193
6.9 Apêndice - Densidade implı́cita e volatilidade local . . . . . . . . . . . . . 198
6.9.1 Densidade implı́cita . . . . . . . . . . . . . . . . . . . . . . . . . . 198
6.9.2 Volatilidade local . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
7 Derivativos Americanos 203

7.2 Apreçamento do derivativo . . . . . . . . . . . . . . . . . . . . . . . . . . 205
7.3 Apreçamento da opção de venda . . . . . . . . . . . . . . . . . . . . . . . 207
7.4 Fronteira ótima de exercı́cio . . . . . . . . . . . . . . . . . . . . . . . . . 208
7.5 Soluções Numéricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
7.5.1 Método binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
7.5.2 Derivativos Americanos e Bermudianos . . . . . . . . . . . . . . . 217
7.6 Propriedades das opções . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
7.8 Apêndice - Método binomial de CRR . . . . . . . . . . . . . . . . . . . . 221
iv SUMÁRIO
Lista de Figuras
1.1 Função densidade da distribuição normal padrão . . . . . . . . . . . . . . 8

1.2 Função densidade da distribuição lognormal . . . . . . . . . . . . . . . . 10
1.3 Função densidade da distribuição gama . . . . . . . . . . . . . . . . . . . 11
1.4 Funções densidades das distribuições t de Student e normal . . . . . . . . 12
1.5 Densidades Cauchy, t de Student e normal . . . . . . . . . . . . . . . . . 13
1.6 Densidade normal bivariada com X e Y independentes . . . . . . . . . . 22
1.7 Distribuição normal: (a) e (b) X e Y independentes, (c) e (d) ρX,Y = 0, 8 23
1.8 Regiões de integração da função densidade . . . . . . . . . . . . . . . . . 26
1.9 Regiões de integração da função densidade . . . . . . . . . . . . . . . . . 27
2.1 Exemplo da evolução da variável Yt . . . . . . . . . . . . . . . . . . . . . 39

2.2 Duas realizações do passeio aleatório yt = 5 + t . . . . . . . . . . . . . . 40
2.3 Preços do petróleo de jan 1985 a mai 2008 . . . . . . . . . . . . . . . . . 43
2.4 Histograma das sub-amostras dos preços . . . . . . . . . . . . . . . . . . 44
2.5 Retornos do petróleo de jan 1985 a mai 2008 . . . . . . . . . . . . . . . . 45
2.6 Histograma das sub-amostras dos retornos . . . . . . . . . . . . . . . . . 46
2.7 Processo yt = 0, 6yt−1 + t : (a) simulações, (b) FAC . . . . . . . . . . . . 49
3.1 Trajetória do processo Browniano . . . . . . . . . . . . . . . . . . . . . . 76

3.2 Gráfico com dez trajetórias do processo Browniano . . . . . . . . . . . . 77
3.3 Trajetórias do processo geométrico Browniano . . . . . . . . . . . . . . . 83
3.4 Simulações do processo geométrico de reversão . . . . . . . . . . . . . . . 109
4.1 Diagrama de posição de uma opção de compra . . . . . . . . . . . . . . . 114

4.2 Diagrama de posição de uma opção de venda . . . . . . . . . . . . . . . . 115
4.3 Opção de compra para K = 7, r = 5% e σ = 25% . . . . . . . . . . . . . 123
4.4 Opção de venda para K = 7, r = 5% e σ = 25% . . . . . . . . . . . . . . 123
4.5 Comportamento do Vega com o preço do ativo (K = 7, r = 5% e σ = 25%)130
4.6 Volatilidade implı́cita - gráfico smirk . . . . . . . . . . . . . . . . . . . . 132
7.1 Opção de venda para τ = 2, K = 7, r = 5% e σ = 25% . . . . . . . . . . 206

7.2 Transição suave na curva (b) compatı́vel com a aus encia de arbitragem . 209
7.3 Fronteira ótima de exercı́cio para uma opção de venda Americana . . . . 210
7.4 Árvore binomial com 2 perı́odos e 3 estados terminais . . . . . . . . . . . 214
7.5 Árvore binomial com os preços do derivativo em cada nó . . . . . . . . . 215
7.6 Árvore binomial com M perı́odos e M + 1 nós no vencimento . . . . . . . 216
v
vi LISTA DE FIGURAS
Lista de Tabelas
1.1 Distribuição Exemplo 1.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.2 Distribuição marginal de X . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Distribuição marginal de Y . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Distribuição condicional de X|Y =0 . . . . . . . . . . . . . . . . . . . . 15
1.7 Distribuição Exercı́cio 1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . 20
7.1 Valores dos portfólios A e B na data atual e no vencimento . . . . . . . . 219

7.2 Valores dos portfólios A e B na data atual e no vencimento . . . . . . . . . . 220
vii
viii LISTA DE TABELAS
Prefácio
.........................Em construção.....
ix
Capı́tulo 1
Conceitos Preliminares
Este primeiro Capı́tulo trata dos conceitos fundamentais como o de variáveis aleato-
rias e suas propriedades, distribuições das variáveis aleatórias e teoremas limites. As
disciplinas que abordam tais assuntos estão em teoria de probabilidade e matemática
estatı́stica. O leitor que está familiarizado com tais assuntos e não sente dificulade em
resolver os exercı́cios apresentados, pode iniciar os estudos pelo Capı́tulo 2. Os con-
ceitos apresentados no primeiro capı́tulo podem ser encontrados em vários textos dentre
os quais citamos Hogg e Craig(1990) [52], Pestman (1998) [82], Casella e Berger (2001)
[22] e Meucci (2005) [74].
1.1 Introdução
No mundo real o resultado de um evento (experimento) ou de um jogo é incerto. O
arremesso de uma moeda ou de um dado são experimentos em que os resultados não
são previsı́veis. Da mesma forma podemos imaginar que o ı́ndice da bolsa de valores
amanhã pode aumentar ou diminuir dependendo dos eventos econômicos e polı́ticos que
se sucederão até o próximo dia.
Os experimentos aleatórios são denominados eventos aleatórios (ou simplesmente
eventos). Tais eventos produzem resultados. Ao conjunto de todos os possı́veis resul-
tados denominamos espaço amostral Ω. Aos resultados dos eventos podemos associar
números. Por exemplo, no caso de uma moeda podemos descrever os resultados por
uma variável aleatória X = X(ω) ∈ {0, 1}, onde 1 representa o resultado cara e 0
representa o resultado coroa e ω pertence ao espaço dos resultados Ω = {cara, coroa}.
Em termos matemáticos X = X(ω) é uma função real definida no espaço Ω. Portanto,
uma variável aleatória associa um número com cada possı́vel resultado de um evento.
Se a moeda do evento é equilibrada então, baseados em evidências empı́ricas, pode-
mos dizer que as probabilidades de ocorrência de tais eventos são dadas por
P ({ω : X(ω) = 0}) = P ({ω : X(ω) = 1}) = 0, 5
Portanto, a variável aleatória X assume um valor associado ao evento. As propriedades

da variável aleatória são descritas em termos dos valores que pode assumir, ou seja, de
sua distribuição. À distribuição estão associados o espaço de eventos Ω e a probabili-
dade de ocorrência dos eventos P .
1
1.2 Conceitos em probabilidade
Sejam A e B dois eventos tais que A e B ∈ Ω, então a ocorrência de um evento ou outro
é dado pelos resultados contidos na união dos conjuntos que descrevem os eventos A e
B, e sua probabilidade de ocorrência é descrita por:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Se A e B são disjuntos, A ∩ B = ∅, então:
P (A ∪ B) = P (A) + P (B)
Seja Ac o complementar de A, então: P (Ac ) = 1 − P (A). Além disso, P (Ω) = 1 e
P (∅) = 0.
Dois eventos A e B podem ser dependentes no sentido de que a ocorrência de um

irá alterar a probabilidade de ocorrência de outro. Assim sendo, o conhecimento da
ocorrência de um evento irá ajudar a prever melhor a ocorrência de outro evento. Defin-
imos então o conceito de probabilidade condicional. A probabilidade de ocorrer A dado
que ocorreu B é definida por
P (A ∩ B) P (A ∩ B)
P (A|B) = e P (B|A) = (1.1)
P (B) P (A)
Das equações acima podemos escrever
P (B|A) P (A) P (A|B) P (B)
P (A|B) = ou P (B|A) =
P (B) P (A)
Se {B1 , B2 , . . . Bn } são eventos disjuntos, temos P (A) = ni=1 P (A|Bi ) P (Bi )
P
P (A|Bi ) P (Bi )
P (Bi |A) = i = 1, 2 . . . n (1.2)
P (A)
P (A|Bi ) P (Bi )
P (Bi |A) = Pn i = 1, 2 . . . n (1.3)
i=1 P (A|Bi ) P (Bi )
que é conhecida com Teorema de Bayes.
Duas variáveis aleatórias são independentes se

P (X ∈ A, Y ∈ B) = P (X ∈ A) P (Y ∈ B) (1.4)
para AeB ∈ Ω. Os eventos {X ∈ A} e {Y ∈ B} são ditos independentes. Neste caso
P (A|B) = P (A). Ou seja, a ocorrência de B em nada afeta a ocorrência de A. Quando
duas variáveis aleatórias são independentes e possuem a mesma distribuição dizemos
que são iid (independentes e identicamente distribuı́das).
Exemplo 1.1. Considere A o conjunto dos eventos produzidos pelo lançamento de um

dado em que o resultado seja menor ou igual a 4. Considere B o conjunto dos eventos
do lançamento do dado em que o resultado seja igual ou superior a 2 e inferior a 6.
Calcule P (A ∪ B) e P (B|A).
2
Solução: Os conjuntos A e B são tais que A = {1, 2, 3, 4} e B = {2, 3, 4, 5}. A in-
terseção dos dois conjuntos é A ∩ B = {2, 3, 4}. Como os eventos são independentes
temos que P (A) = 64 , P (B) = 64 e P (A ∩ B) = 36 . Usando a relação acima temos que
P (A ∪ B) = 64 + 46 − 63 = 56 .
A probabilidade de ocorrer o evento B dado que aconteceu o evento A será conforme

a equação (1.1)
3
P (A ∩ B) 3
P (B|A) = = 64 =
P (A) 6
4

Função distribuição e densidade Uma variável aleatória pode ser interpretada a

partir dos resultados dos eventos a ela associado. Conhecer uma variável aleatória
significa saber quais os números associdados aos eventos e a lei de probabilidade que
governa tais eventos. A lei de probabilidade é denominada de distribuição de probabi-
lidade. A maneira mais usual de descrevermos a distribuição de probabilidade de uma
variável aleatória X é através da função densidade fX (x). A função densidade é tal
que fX (x) ≥ 0. É definida de forma que a área sob a função densidade fornece a pro-
babilidade de ocorrer um evento associado ao intervalo que delimita esta área, isto é
Z b
P {X ∈ [a, b]} = fX (x) dx
a
Se a variável aleatória está definida no eixo real então
Z ∞
fX (x) dx = 1
−∞
A segunda maneira de descrevermos uma distribuição de probabilidade de uma

variável aleatória X é através do conceito de função distribuição FX (x), assim definida
FX (x) = P (X ≤ x) = P ({ω : X (ω) ≤ x}) x∈R (1.5)
Para uma variável aleatória do tipo discreto temos a função distribuição:

X
FX (x) = pk x∈R (1.6)
k:xk ≤x
onde 0 ≤ pk ≤ 1 para todo k e ∞

P
k=1 pk = 1. As distribuições binomial e Poisson são
exemplos de distribuições de variáveis aleatórias do tipo discreto.
Para uma variável aleatória do tipo contı́nuo que tenha função densidade fX (x), a
função distribuição é dada por
Z x
FX (x) = P (X ≤ x) = fX (x) dx x∈R (1.7)
−∞
R∞
onde fX (x) ≥ 0 para todo x ∈ R e −∞ fX (x) dx = 1. As distribuições normal, expo-
nencial, gama e uniforme são alguns exemplos de variáveis aleatórias do tipo contı́nuo.
3
Momentos de uma variável aleatória O primeiro momento E (X) uma variável
aleatória do tipo contı́nuo é dado por:
Z ∞
µX = E (X) = xfX (x) dx (1.8)
−∞
onde µX é a média ou valor esperado de X.
O segundo momento E (X 2 ) é definido por

Z ∞
2
x2 fX (x) dx

E X = (1.9)
−∞
O segundo momento define uma importante medida de dispersão denominada variância,

V ar (X):
V ar (X) = E (X − E (X))2 = E X 2 − E 2 (X)

(1.10)
A variância também pode ser definida como
Z ∞
V ar(X) = (x − µX )2 fX (x) dx (1.11)
−∞
O desvio padrão é definido como a raı́z quadrada da variância.
O terceiro momento centrado na média é uma medida da simetria da distribuição. As-

sim, define-se o coeficiente de assimetria Sk , como sendo o terceiro momento de X
centrado na média e normalizado pelo desvio padrão elevado ao cubo (ou pela variância
elevada à potência 23 ):
E [X − E (X)]3

Sk (X) = 3 (1.12)
E [X − E (X)]2 2
As distribuições simétricas em relação à média possuem coeficiente de assimetria nulo.
O coeficiente de assimetria positivo significa que a função densidade possui mais massa
à esquerda. O coeficiente de assimetria negativo indica que a função densidade possui
sua massa concentrada do lado direito.
O quarto momento centrado na média guarda a informação do peso da cauda em relação

à massa de toda a função densidade. A medida de curtose Ku da distribuição provê esta
informação. Ela é definida como o quarto momento centrado na média e normalizado
pelo desvio padrão elevado à potência 4 (ou pela variância elevada à potência 2).
E [X − E (X)]4

Ku (X) = 2 (1.13)
E [X − E (X)]2

A curtose destaca a importância das caudas. Ou seja, informa o quão provável é a

ocorrência de valores da variável aleatória nas regiões distantes da porção central da
distribuição. Um valor elevado de curtose indica que a distribuição possui caudas pe-
sadas. O valor de referência é a curtose da distribuição normal, que é 3. Assim é comum
referir-se a distribuições com caudas pesadas àquelas distribuições com valores de cur-
tose superiores a 3. Ou também é usual mencionar o excesso de curtose para esses casos,
4
significando o quanto excede a 3 a curtose da distribuição.
O momento de ordem m de uma distribuição E (X m ) é definido por

Z ∞
m
E (X ) = xm fX (x) dx (1.14)
−∞
O momento de uma função real g (x) é definido por

Z ∞
E (g (x)) = g (x) fX (x) dx (1.15)
−∞
O quantil α de uma distribuição de uma variável aleatória X é definido por
FX (xα ) = α
O quantil α = 0, 5 (ou quantil 50%) é chamado de mediana da distribuição de proba-

bilidade. Uma distribuição de probabilidade é simétrica em relação a um valor a se é
satisfeita a condição
fX (a − x) = fX (a + x) ∀x
Para uma distribuição simétrica temos a = E (x), ou seja, a média e a mediana são
coincidentes. A moda de uma variável aleatória é o valor de X para o qual fX (x) é
máximo local. Será unimodal para o caso de apenas um máximo.
Exercı́cio 1.1. Escreva a média, a variância, o m-ésimo momento e a esperança de

g (x) para a variável aleatória X do tipo discreto.
Função geradora de momentos e função caracterı́stica Vimos que a descrição de

uma variáevel aleatória X pode ser feita pelas funções densidade ou função distribuição.
Uma terceira maneira é através da função geradora de momentos. Posteriormente ver-
emos um quarto modo de descrever as propriedades de uma variável aleatória, trata-se
da função caracterı́stica.
O conceito de função geradora de momentos é muito importante na análise de processos

estocásticos e na demonstração de teoremas relacionados à convergência. Suponha que
o valor esperado de E (eux ) exista, então
Z ∞
uX
eux fX (x) dx

E e = (1.16)
−∞
X ux
E euX = e fX (x) (1.17)
x
definem os valores esperados para distribuições contı́nuas e discretas, respectivamente.

Estes valores esperados são funções da variável u e são denominados de funções geradoras
de momentos, ou seja
MX (u) = E euX

(1.18)
5
Nem toda distribuição possui função geradora. Entretanto, quando uma distribuição
possui função geradora ela é única e permite a caracterização completa da distribuição
da variável aleatória. Observe que
Z ∞
dMX (u) 0
= MX (u) = xeux fX (x) dx (1.19)
du −∞
dMX (u) X
= MX0 (u) = xeux fX (x) (1.20)
du x
Fazendo u = 0 nas equações (1.19) e (1.20) obtemos o primeiro momento da distribuição
MX0 (0) = E (X) = µ
O segundo momento é obtido a partir da segunda derivada de MX (u):
Z ∞
00
MX (u) = x2 eux fX dx (1.21)
−∞
X
MX00 (u) = x2 eux fX (x) (1.22)
x
Temos portanto
E X 2 = MX00 (0)

E analogamente
(m)
E (X m ) = MX (0)
√
Vamos definir o valor esperado E eiuX ) onde i é o número imaginário −1. A
função φX (u) = E eiuX existe para toda a distribuição e é denominada função carac-
terı́stica. Assim temos Z ∞
φX (u) = eiux fX (x) dx (1.23)
−∞
X
φX (u) = eiux fX (x) (1.24)
x
as funções caracterı́sticas das distribuições contı́nuas e discretas, respectivamente. Cada
distribuição possui uma função caracterı́stica que permite a obtenção dos seus momentos
e portanto, a completa descrição da distribuição. Assim temos: iE (X) = φ0 (0) e
i2 E (X 2 ) = φ00 (0). As transformações integrais como Laplace e Fourier são similares aos
conceitos acima de MX (u) e φX (u). Mais apropriadamente, a função caracterı́stica é a
transformada de Fourier da função densidade de probabilidade (veja estes conceitos na
seção 4.8.2).
1.3 Algumas distribuições

Distribuição de Bernoulli Seja X uma variável aleatória que pode assumir os val-
ores 0 e 1. Seja P (X = 1) = p, dizemos que X tem uma distribuição de Bernoulli
com parâmetro p (0 < p < 1)). A média e a variância de X são E (X) = p e
V ar (X) = p (1 − p).
6
Distribuição binominal A função densidade de uma variável aleatória X com dis-
tribuição binomial e parâmetros n e p é dada por

n x
fX (x) = p (1 − p)n−x (1.25)
x
veja no Exemplo 1.1 abaixo o cálculo da função geradora de momentos da distribuição

binomial.
Exemplo 1.2. Encontre a função geradora de momentos da distribuição binomial de-

scrita pela equação (1.25).
Solução: A função geradora, de acordo com a equação (1.18), será dada por
X n
MX (u) = eux px (1 − p)n−x
x
x
X n
MX (u) = (peu )x (1 − p)n−x
x
x
MX (u) = [(1 − p) + peu ]n
Derivando a equação acima em relação a t, temos
MX0 (u) = n [(1 − p) + peu ]n−1 peu
Logo o primeiro momento será µ = E (X) = M 0 (0) = np
A segunda derivada da função geradora é

n−2 2 2u
MX00 (u) = n (n − 1) (1 − p) p2 e2u + peu p e + np [(1 − p) + peu ]n−1 eu

MX00 (0) = n (n − 1) p2 + np
E a variância será
V ar (X) = σ 2 = MX00 (0) − (np)2 = np (1 − p)
Distribuição de Poisson Uma variável aleatória X definida no conjunto {0, 1, . . .}

tem uma distribuição de Poisson com parâmetro λ > 0 se
λx −λ
fX (x) = P (X = x) = e para x = 0, 1, . . . (1.26)
x!
A média e a variância de X são: E (X) = λ e V ar (X) = λ. Em uma distribuição binom-
inal que tenha o parâmetro n suficientemente grande e o parâmetro p muito pequeno, a
mesma pode ser aproximada por uma distribuição de Poisson tal que x p (1 − x)n−x ≈
n x

λx −λ
x!
e e λ = np, x = 0, 1, . . ..
7
Distribuição Normal A distribuição normal é a mais comumente utilizada para de-
screver uma variável aleatória que assume valores no eixo R e que sejams simétricos em
relação à moda. Se X é uma variável aleatória com distribuição Normal escrevemos que
X ∼ N (µ, σ 2 ), onde µ é a média e σ o desvio padrão de X. A sua função densidade é
dada por
" #
1 (x − µ)2
fX (x) = √ exp − x∈R (1.27)
2πσ 2σ 2
A função geradora de momentos e a função caracterı́stica de uma distribuição normal

são respectivamente
σ 2 u2 σ2
M (u) = eµu+ 2 φX (t) = eiµu− 2
u
A Figura 1.1 mostra a função densidade da distribuição normal padronizada, isto é, com
média µ = 0 e desvio padrão σ = 1.
Figura 1.1: Função densidade da distribuição normal padrão
Exemplo 1.3. Encontre os primeiro e segundo momentos de uma variável aleatória

X ∼ N (µ, σ 2 ) usando a função geradora M (u).
8
Solução: Sabemos que os momentos são dados pelas derivadas de M (t). Então temos
que
σ 2 u2

0
µ + σ2u

M (u) = exp µu +
2
2 2
σ 2 u2

00 σ u 2
2
M (u) = exp µu + µ + σ u + exp µu + σ2
2 2
E (X) = M 0 (0) = µ
E X 2 = M 00 (0) = µ2 + σ 2

Distribuição uniforme A distribuição uniforme é utilizada para modelar eventos que

sejam equiprováveis dentro do range de valores que a variável aleatória assume. Se X
é uma variável aleatória com distribuição uniforme escrevemos X ∼ U (a, b), onde b e a
são parâmetros (a < b) tais que
(
1
se x ∈ (a, b)
fX (x) = b−a (1.28)
0 caso contrário.
Exercı́cio 1.2. Calcule a média e a variância de X ∼ U (a, b) conforme definido na

equação (1.28). Calcule a probabilidade P (c ≤ X ≤ d) onde [c, d] é um subintervalo de
[a, b].
Distribuição Lognormal Uma importante distribuição de probabilidade em finanças

é a distribuição Lognormal. Em várias situações a literatura utiliza tal distribuição
modelando os preços de ativos financeiros, tal como os preços de ações no mercado. Os
capı́tulos seguintes tratarão com detalhes este fato. Uma variável aleatória X possui
distribuição lognormal com parâmetros µ e σ se sua função densidade é dada por
" #
1 (ln x − µ)2
fX (x) = √ exp − x>0 (1.29)
xσ 2π 2σ 2
Se X possui distribuição lognormal, então Y = ln (X) é normalmente distribuı́da tal
que Y ∼ N (µ, σ 2 ). A média e a variância de X, são respectivamente,
σ2
E (X) = E eY = eµ+ 2

(1.30)
2
2

V ar (X) = V ar eY = e2µ+σ eσ − 1

(1.31)
A Figura 1.2 mostra a função densidade da distribuição lognormal com parâmetros µ = 0
e σ = 0, 5.
Exercı́cio 1.3. Seja Y = ln (X) onde Y ∼ N (µ, σ 2 ) e portanto X é lognormal. Mostre

que a média e a variância de X são dadas pelas equações (1.30) e (1.31), respectiva-
mente.
9
Figura 1.2: Função densidade da distribuição lognormal
Distribuição Gama Uma variável aleatória X possui distribuição Gama com parâmetros
α > 0 e β > 0 se sua função densidade é tal que
β α α−1 (−βx)
fX (x) = x e x>0 (1.32)
Γ (α)
onde a função Gama é definida por

Z ∞
Γ (u) = xu−1 e−x dx u>0
0
A Figura 1.3 mostra a função densidade da distribuição gama com parâmetros α = 2 e

β = 1.
Exercı́cio 1.4. Seja X uma variável aletória com distribuição Gama com parâmetros
α e β, conforme equação (1.32). Calcule a média e a variância de X. Note que para
α = 1 e β = λ tem-se a distribuição Exponencial.
Distribuição t de Student Tal como a normal, a distribuição t de Student é utilizada

para modelar eventos que assumem valores no eixo R e que sejam simétricos em relação
a moda. Possui um formato análogo ao de uma normal porém apresenta mais peso nas
caudas. Este peso é função do parâmetro ν, denominado graus de liberdade. Exatamente
por possuir esta propriedade, a literatura adota a distribuição t de Student como uma
distribuição que retrata melhor o comportamento dos retornos de ativos financeiros. Um
10
Figura 1.3: Função densidade da distribuição gama
fato estilizado1 nas séries de retornos é a presença de caudas pesadas. Este efeito pode
ser capturado pela distribuição t de Student. Dizemos então que X possui distribuição
t de Student e escrevemos X ∼ St (ν, µ, σ 2 ), onde ν representa o número de graus de
liberdade, µ é a média e σ 2 está relacionado à variância da distribuição. A função
densidade é dada por
!− ν+1
2
Γ ν+1
2
2 1 1 (x − µ)
fX (x) = ν
√ 1+ (1.33)
Γ 2 νπσ ν σ2
p ν
A variância de X, definida para ν > 2, é dada por V ar (X) = ν−2 σ. A assimetria
6
é zero e a curtose, definida para ν > 4, é Ku (X) = 3 + ν−4 . Para ν da ordem de
30 a distribuição t de Student praticamente sobrepôe-se à distribuição normal que tem
os mesmos parâmetros de µ e σ 2 . Baixos valores de ν significam excesso de curtose e
caudas bem mais espessas que a normal. A Figura 1.4 mostra as funções densidades das
distribuições t de Student com parâmetros µ = 0, σ = 1, ν = 3 e normal padronizada.
Observe o efeito das caudas pesadas da distribuição t de Student sobre a normal. Este
efeito diminui à medida que o número de graus de liberdade aumenta. Para ν = 30, por
exemplo, as duas distribuições praticamente se sobrepõem.
1
Os fatos estilizados são regularidades estatı́sticas observadas em um grande número de séries finan-
ceiras de retornos, a partir de estudos empı́ricos em diversos mercados.
11
Figura 1.4: Funções densidades das distribuições t de Student e normal
Distribuição de Cauchy Uma variável aleatória X possui distribuição de Cauchy

com parâmetros µ e σ se sua função densidade é dada por
σ
fX (x) = para x ∈ R (1.34)
π σ + (x − µ)2

2
Os parâmetros µ e σ são tais que −∞ < µ < ∞ e σ > 0. Tal como a distribuição normal
e t de Student, a distribuição de Cauchy está definida em R e distribui-se simetricamete
em relação a moda. É utilizada para modelar eventos extremos já que possui caudas
mais pesadas (excesso de curtose) que as da distribuição t de Student. Os momentos
de X não estão definidos pois os mesmos envolvem a integração da função densidade da
equação (1.34) que não converge. A mediana e a moda de X é o parâmetro µ. A Figura
1.5 mostra as funções densidades das distribuições Cauchy com parâmetros µ = 0, σ = 1;
t de Student com parâmetros µ = 0, σ = 1, ν = 3 e normal padronizada. Observe que
a distribuição Cauchy apresenta caudas mais pesadas que as demais.
Exercı́cio 1.5. Uma variável aleatória possui distribuição Exponencial com parâmetro
λ > 0 se sua função densidade é tal que fX (x) = λ exp (−λx) , x ≥ 0. Calcule a
média e a variância de X. Escreva a função distribuição FX (x).
12
Figura 1.5: Densidades Cauchy, t de Student e normal
1.4 Variáveis aleatórias multidimensionais

Variáveis discretas Considere uma variável aleatória no espaço de dimensão dois es-
crita como um vetor aleatório (X, Y ) em que X e Y podem assumir os valores x0 , . . . , xn
e y0 , . . . , yn , respectivamente.
As distribuições de probabilidade das variáveis aleatórias X e Y são dadas por

pi = P (X = xi ) i = 0, 1, . . . , n (1.35)
qj = P (Y = yj ) j = 0, 1, . . . , n (1.36)
Agora considere o evento em que X = xi e Y = yj . A probabilidade deste evento é
rij = P (X = xi ∩ Y = yj )
em que rij define a distribuição de probabilidade conjunta do vetor aleatório (X, Y ).
Podemos escrever que
n
X n
X
pi = rij i = 0, . . . , n qj = rij j = 0, . . . , n (1.37)
j=0 i=0
As distribuições de probabilidades pi e qj constituem as distribuições marginais da dis-

tribuição conjunta (X, Y ). Pela definição de probabilidade condicional em (1.1), pode-
mos definir as distribuições condicionais de X|Y e de Y |X como
rij
P (X = xi |Y = yj ) = i = 0, 1, . . . , n (1.38)
qj
13
rij
P (Y = yj |X = xi ) = j = 0, 1 . . . , n (1.39)
pi
Uma vez que definimos as distribuições condicionais, podemos definir o valor esperado
condicional
n
X rij
E (X|Y = yj ) = xi (1.40)
i=0
qj
n
X rij
E (Y |X = xi ) = yj (1.41)
j=0
pi
Observe que o valor esperado condicional é uma variável aleatória pois a condição varia,
assim para E (X|Y ) podemos admitir os seguintes valores para esta variável aleatória:
E (X|Y = y0 ), E (X|Y = y1 ) . . . E (X|Y = yn ).
Portanto, se E (X|Y ) é uma variável aleatória, podemos calcular a sua média, ou seja,
E (E (X|Y )). Assim temos
n
X
E (E (X|Y )) = E (X|Y = yj ) P (Y = yj )
j=0
Usando as definições de cada termo do somatório acima dados em (1.40) e (1.36), temos:
n X
n n n
X rij XX
E (E (X|Y )) = xi q j = xi rij
j=0 i=0
qj j=0 i=0
n
X n
X
E (E (X|Y )) = xi rij
i=0 j=0
Usando a equação (1.37) que define o somatório interno acima, temos:

n
X
E (E (X|Y )) = xi pi = E (X)
i=0
Da mesma forma que provamos que E (E (X|Y )) = E (X) prova-se que E (E (Y |X)) =
E (Y ). Da definição de independência entre eventos aleatórios na equação (1.4) temos
que se o evento X = xi é independendete de Y = yi , então a probabilidade conjunta rij
é dada por
rij = P (X = xi ∩ Y = yi ) = P (X = xi ) P (Y = yi ) = pi qi
Exemplo 1.4. Sejam X e Y duas variáveis aleatórias com função densidade conjunta
fXY (x, y) descrita na tabela acima. Encontre as duas funções densidades marginais e
as médias condicionais: E (X|Y = 0), E (X|Y = 1) e E (X|Y = 2).
14
Tabela 1.1: Distribuição Exemplo 1.2
(x, y) (0,0) (0,1) (0,2) (1,0) (1,1) (1,2) (2,0) (2,1) (2,2)
1 2 3 5 6 4 3 2 1
fXY (x, y) 27 27 27 27 27 27 27 27 27
Solução: Usando a notação do texto, temos que pi e qj representam as distribuições

(ou densidades) marginais de X e Y , respectivamente. Logo temos
2
X
pi = rij i = 0, 1, 2
j=0
2
X
qj = rij j = 0, 1, 2
i=0
aqui rij equivale a fXY (x, y). Assim, temos a Tabela 1.2
Tabela 1.2: Distribuição marginal de X

x 0 1 2
6 15 6
pi 27 27 27
A distribuição marginal de Y esta descrita na Tabela 1.3.
Tabela 1.3: Distribuição marginal de Y

y 0 1 2
9 10 8
qj 27 27 27
A distribuição condicional de X|Y = 0 está descrita na Tabela 1.4 e foi calculada

conforme as equações (1.38) e (1.37): O primeiro valor de probabilidade condicional
Tabela 1.4: Distribuição condicional de X|Y = 0

x 0 1 2
1 5 3
P (X|Y = 0) 9 9 9
1
rij
desta tabela é dado por qj
= 27
9 . A distribuição condicional de X|Y = 1 está descrita
27
na Tabela 1.5.
15
x 0 1 2
2 6 2
P (X|Y = 1) 10 10 10

x 0 1 2
3 4 1
P (X|Y = 2) 8 8 8
A distribuição condicional de X|Y = 2 está descrita na Tabela 1.6.

As médias condicionais serão:
1 5 3 11
E (X|Y = 0) = 0 × +1× +2× =
9 9 9 9
2 6 2
E (X|Y = 1) = 0 × +1× +2× =1
10 10 10
3 4 1 6
E (X|Y = 2) = 0 × + 1 × + 2 × =
8 8 8 8
A média incondicional E (X) é a ponderação das médias condicionais acima pelas prob-
abilidades P (Y = 0), P (Y = 1) e P (Y = 2), tal que
11 9 10 6 8
E (X) = × +1× + × =1
9 27 27 8 27
Observe também que a média incondicional E (X) pode ser obtida diretamente da Tabela
1.2 que fornece a distribuição marginal de X:
6 15 6
E (X) = 0 × +1× +2× =1
27 27 27

Variáveis contı́nuas Sejam X e Y variáveis aleatórias do tipo contı́nuo, distribuı́das

tal que x ∈ R e y ∈ R. A função distribuição conjunta de (X, Y ) é dada por
FX,Y = P (X ≤ x, Y ≤ y)
Se as derivadas parciais com relação a x e y existem, então a função densidade conjunta

de (X, Y ) é dada por
∂ 2 FX,Y (x, y)
fXY (x, y) =
∂x∂y
A função distribuição pode ser definida por
Z x Z y
FXY (x, y) = fXY (x, y) dxdy
−∞ −∞
16
Analogamente ao caso discreto, as funções densidades marginais (ou simplesmente as
distribuições marginais) de X e Y são respectivamente:
Z ∞
fX (x) = fXY (x, y) dy (1.42)
−∞
Z ∞
fY (y) = fXY (x, y) dx (1.43)
−∞
Se as variáveis aleatórias são independentes podemos escrever
FXY = FX (x) FY (y)
onde FX (x) e FY (y) são funções distribuições marginais de X e Y , respectivamente.
Da mesma forma, a densidade conjunta é dada por
fXY (x, y) = fX (x) fY (y)
onde fX (x) e fY (y) são as densidades marginais de X e Y , respectivamente.
Seguindo o caso discreto, as funções densidades condicionais são definidas por
fXY (x, y)
fX (x|y) = (1.44)
fY (y)
fXY (x, y)
fY (y|x) = (1.45)
fX (x)
As variáveis aleatórias E (X|Y ) e E (Y |X) são escritas como
Z ∞
E (X|Y = y) = xfX (x|y) dx
−∞
Z ∞
E (Y |X = x) = yfY (y|x) dy
−∞
São válidas as propriedades para as variáveis aleatórias X, Y e Z:
(i) E (E (X|Y )) = E (X) e E (E (Y |X)) = E (Y )
(ii) E (X + Y |Z) = E (X|Z) + E (Y |Z)
(iii) E (XY ) = E (XE (Y |X))
Se X e Y são independentes temos que E (X|Y ) = E (X) e E (XY ) = E (X) E (Y ).
A variância condicional de X dado Y é definida por

Z ∞
2
(x − E (X|y))2 fX (x|y) dx

V ar (X|Y = y) = E (X − E (X|y)) |y =
−∞
17
Também podemos escrever
V ar (X|Y ) = E X 2 |y − (E (X|y))2

Das equações (1.44) e (1.43), temos que

fXY (x, y) fXY (x, y)
fX (x|y) = =R
fY (y) fXY (x, y) dx
Usando a equação (1.45), temos
fY (y|x) fX (x)
fX (x|y) = R (1.46)
fY (y|x) fX (x) dx
A equação (1.46) é o teorema de Bayes que fornece a densidade condicional de X em
termos das densidades condicional de Y e da densidade marginal de X.
Exemplo 1.5. Sejam X e Y duas variáveis aleatórias com função densidade conjunta
dada por (
1
2
se 0 < x < y < 2
fXY (x, y) =
0 caso contrário.
(i) Encontre as funções densidades marginais
(ii) Encontre a funções densidades condicionais
(iii) Calcule a variável aleatória E (X|Y ) (média condicional)
(iv) Calcule a variância condicional V ar (X|Y )
(v) Calcule P 1 < X < 23 |Y = 32 e P 1 < X < 23

Solução: Vamos denominar o espaço onde a função densidade conjunta é definida por
A = {(x, y) : 0 < x < y < 2}.
(i) As densidades marginais de X e de Y são:
Z 2 (
1
1 (2 − x) 0 < x < 2
fX (x) = dy = 2
x 2 0 caso contrário
Z y
1 1
fY (y) = dx = y 0<y<2
0 2 2
(ii) As densidades condicionais de X e Y são
( 1
fXY (x,y)
fY (y)
= y2 = y1 0<x<y 0<y<2
fX (x|y) = 2
0 caso contrário
( 1
fXY (x,y) 1
fX (x)
= 2
2−x = 2−x
0<x<y 0<y<2
fY (y|x) = 2
0 caso contrário
18
(iii) A média condicional E (X|Y ) é dada por
Z Z y
1 y
E (X|Y ) = xfX (x|y) dx = x dx = 0<y<2
0 y 2
(iv) A variância condicional V ar (X|Y )

Z y
2
(x − E (X|y))2 fX (x|y) dx

V ar (X|Y ) = E (X − E (X|Y )) |y =
0
Z y
y 2 1 1
= x− dx = y 2 0<y<2
0 2 y 12
(v) O valor da probabilidade P 1 < X < 32 |Y = 32 é dada por

Z x2
P (x1 < X < x2 |Y = y1 ) = fX (x|y) dx
x1
Z 3
3 3 2 1
P 1 < x < |Y = = dx
2 2 1 y

3 3 1 3 1
P 1 < x < |Y = = 3 × −1 =
2 2 2
2 3
O valor da probabilidade incondicional P 1 < X < 32 é dada por

Z Z
P (x1 < X < x2 ) = fXY (x, y) dxdy
A
3
Z Z 2
3 2 1 3
P 1<X< = dydx =
2 1 x 2 16

Definição 1.1. (Covariância) A covariância entre duas variáveis aletórias X e Y é
dada por
Cov (X, Y ) = E [(X − E (X)) (Y − E (Y ))] (1.47)
Definição 1.2. (Correlação) O coeficiente de correlação é dado por
Cov (X, Y )
ρXY = p p (1.48)
V ar (X) V ar (Y )
O coeficiente de correlação é tal que −1 < ρXY < 1 para quaisquer variáveis
aleatórias X e Y . Se ρXY = ±1 então exite uma relação linear entre X e Y tal que
Y = aX + b, sendo a e b duas constantes. Se X e Y são independentes, ρXY = 0. O
coeficiente de correlação define o quão as variáveis aleatórias X e Y estão associadas
linearmente. Dizemos que X e Y são descorrelatadas se ρXY = 0. Segue da definição de
ρXY que caso X e Y sejam descorrelatadas (ρXY = 0) então E (X, Y ) = E (X) E (Y ),
que é o caso de independência. Portanto, se X e Y são independentes, são também
descorrelatados. Se X e Y são descorrelatados não são necessariamente independentes.
19
Tabela 1.7: Distribuição Exercı́cio 1.5
(x, y) (-1,-2) (-1,0) (-1,2) (0,-2) (0,0) (0,2) (1,-2) (1,0) (1,2)
1 3 1 3 5 3 4 3 4
fXY (x, y) 27 27 27 27 27 27 27 27 27
Exercı́cio 1.6. Sejam X e Y duas variáveis aleatórias com função densidade descrita
na Tabela abaixo. Mostre que ρX,Y = 0 e verifique que X e Y não são independentes.
Exemplo 1.6. A função densidade conjunta de (XY ) é dada por

(
3
(x2 + y 2 ) 0 < x < 1 0 < y < 1
fXY (x, y) = 2
0 caso contrário
Calcule o coeficiente de correlação ρXY .
Solução: A média incondicional é dada por

Z 1Z 1
3 3
x x2 + y 2 dxdy =

E (X) =
0 0 2 8
O segundo momento E (X 2 ) é dado por

Z 1Z 1
2 3 7
x2 x2 + y 2 dxdy =

E X =
0 0 2 15
A variância de X é
2
2
27 5 73
V ar (X) = E X − E (X) = − =
15 8 960
5
A simetria das variáveis aleatórias X e Y permite concluir que E (Y ) = 8
e V ar (Y ) =
73
960
. O momento de E (XY ) é dado por
Z 1 Z 1
3 2 3
x + y 2 dxdy =

E (XY ) = xy
0 0 2 8
A covariância de X e Y é dada por
3 55 1
Cov (X, Y ) = E (XY ) − E (X) E (Y ) = − =−
8 88 64
Finalmente o coeficiente de correlação definido na equação (1.33) é
1
− 64 15
ρXY = q q =−
73 73 73
960 960
20
Exercı́cio 1.7. Calcule o coeficiente de correlação entre X e Y para a função densidade
conjunta definida no Exemplo 1.5.
Exercı́cio 1.8. Considere X e Y variáveis aleatórias com variãncia finita e sejam α e
β ∈ R. Mostre que Cov (X + α, Y + β) = Cov (X, Y ).
Definição 1.3. (Densidade Normal Multivariada) Considere o vetor aleatório mul-
tivariado X = (X1 , X2 , . . . , Xn )> de dimensão n cuja média é o vetor µ = (µ1 , µ2 , . . . , µn )> ;
o vetor x = (x1 , x2 , . . . , xn )> e a matriz de covariância Σ = (σij ). Então x tem uma
distribuição normal multivariada se a densidade conjunta é dada por

1 1 > −1
fX (x) = p exp − (x − µ) Σ (x − µ) (1.49)
(2π)n |Σ| 2
onde |Σ| e Σ−1 representam o determinante e a inversa de Σ e (x − µ)> é o transposto

do vetor x − µ. Cada densidade marginal fXi (xi ) possui distribuição normal tal que
Xi ∼ N (µ, σ 2 ) em que σi2 = Σii . Se as variáveis aleatórias Xi são descorrelatadas a
matriz Σ será diagonal com Σij = 0 para i 6= j.
Considere a distribuição normal multivariada em que o vetor X é separado em dois

conjuntos P e Q com dimensões p e q = n − p, respectivamente. Então escrevemos que

XP µP ΣP ΣP Q
X= µ= Σ=
XQ µQ ΣQP ΣQ
A distribuição marginal de XP é normal tal que XP ∼ N (µP , ΣP ). A distribuição
condicional de XQ dado xP é normal tal que
XQ |xP ∼ N (µQ |xP , ΣQ |xP )
onde
µQ |xP = µQ + ΣQP Σ−1
P (xP − µP )
ΣQ |xP = ΣQ − ΣQP Σ−1

P ΣP Q
Como visto anteriormente duas variáveis aleatórias com distribuição normal conjunta
são independentes se e somente se sua covariância é zero:
(Xi , Xj ) são independentes ⇔ Cov (Xi , Xj ) = 0 (1.50)
Definição 1.4. (Densidade Normal Bivariada) Sejam as variáveis X e Y com
2
distribuições normais tais que X ∼ N (µX , σX ) e Y ∼ N (µY , σY2 ), onde −∞ < µX < ∞,
−∞ < µY < ∞, σX > 0 e σY > 0. Define-se que o vetor aleatório (X, Y ) possui
distribuição normal bivariada se a função densidade conjunta é dada por
1
fXY (x, y) = p ×
2πσX σY (1 − ρ2XY )
( " #)
1 (x − µX )2 2ρ (x − µX ) (y − µY ) (y − µY )2
exp − − +
2 (1 − ρ2XY ) σX2
σX σY σY2
onde −1 < ρXY < 1, x ∈ R e y ∈ R.
21
As funções densidades marginais de X e Y são
" #
2
1 (x − µX )
fX (x) = √ exp − 2
2πσX 2σX
" #
1 (y − µY )2
fY (y) = √ exp −
2πσY 2σY2
Vamos rever a consideração da equação (1.48) sob outra perspectiva. Para que X e Y
sejam independentes é necessário fXY (x, y) = fX (x) fY (y). Isto somente ocorrerá se
ρXY = 0, e isto significa também descorrelação. Portanto, em uma distribuição normal
bivariada, X e Y são independentes se e somente se X e Y são descorrelatados. A
Figura 1.6 mostra a densidade de uma distribuição normal bivariada em que X e Y são
independentes.
Figura 1.6: Densidade normal bivariada com X e Y independentes
A Figura 1.7 mostra na parte superior esquerda o mesmo gráfico da Figura 1.6.
Ainda na parte superior à direita temos uma simulação com 1.000 pontos mostrandos
duas distribuições normais independentes (descorrelacionadas). Na Figura 1.7 na parte
inferior temos uma distribuição normal bivariada em que o coeficiente de correlação é
ρX,Y = 0, 8. No canto inferior direito temos uma simulação com 1.000 pontos em que
ρX,Y = 0, 8.
Exemplo 1.7. Sejam X1 ∼ N (1, 2), X2 ∼ N (2, 1) e ρ1,2 = 0, 5. Escreva a matriz Σ,

defina a função densidade de (X1 , X2 ) e especifique a distribuição condicional de X2 |X1 .
22
Figura 1.7: Distribuição normal: (a) e (b) X e Y independentes, (c) e (d) ρX,Y = 0, 8
Solução: A matriz Σ é dada por

√ !
2

σ12 ρσ1 σ2 2 2
Σ= = √
ρσ1 σ2 σ22 2
1
2
A função densidade é dada por

1
fXY (x, y) = √ √ ×
2π 2 1 − 0, 25
" !#
1 (x1 − 1)2 (x1 − 1) (x2 − 2)
exp × − √ + (x2 − 2)2
2 (1 − 0, 25) 2 2
√

1 1 2 2
fXY (x, y) = √ × exp (x1 − 1) − 2 (x1 − 1) (x2 − 2) + 2 (x2 − 2)
π 6 3
A distribuição condicional X2 |x1 é tal que
X2 |x1 ∼ N µ2 |x1 , σ22 |x1

onde √
2
µ2 |x1 = 2 + (x1 − 1)
4
3
σ22 |x1 =
4

23
Soma de variáveis aleatórias O valor esperado da soma de variáveis aleatórias (do
tipo discreto ou contı́nuo) é igual a soma do valor esperado de cada variável aleatória.
Em outras palavras !
X n X n
E Xi = E (Xi ) (1.51)
i=1 i=1
esta verificação é imediata a partir da definição de valor esperado.
A variância da soma de variáveis aleatórias é dada por

n
! n
X X Xn
V ar Xi = V ar (Xi ) + 2 Cov (Xi , Xj ) (1.52)
i,j=1
i=1 i=1 i<j
Se as variáveis aleatórias são descorrelatadas o termo da covariância desaparece e então

pode-se dizer que a variância da soma de variáveis aleatórias descorrelatadas é igual à
soma das variâncias de cada variável aleatória. Para variáveis aleatórias iid, com média
µ e variância σ 2 , pode-se afirmar
n
! n
!
X X
E = nµ V ar Xi = nσ 2
i=1 i=1
Exemplo 1.8. Considere que os retornos de dois ativos A e B tenham distribuições tais
que RA ∼ N (2, 4) e RB ∼ N (1, 2). A correlação entre A e B é ρ = −0, 4. Encontre a
média e variância de um portfólio formado pelos ativos A e B.
Solução: O valor esperado para o retorno do portfólio formado pelos dois ativos, con-
forme equação (1.51), é E (RA + RB ) = E (RA ) + E (RB ) = 3.
A variância, conforme equação (1.52), é
V ar (RA + RB ) = V ar (RA ) + V ar (RB ) + 2 Cov (RA , RB )

√| {z√ }
=ρ V ar(RA ) V ar(RB )
√ √
= 4 + 2 + 2 × (−0, 4) × 4 2
= 3, 737
1.5 Transformação de densidade de probabilidade

Considere X um vetor aleatório multivariado de dimensão n cuja função densidade é
conhecida. Seja g : Rn → R uma função contı́nua. Desejamos expressar a densidade
g (X) em termos da densidade de X. Os exemplos abaixo esclarecem os procedimentos
para a transformação da função densidade.
Exemplo 1.9. Seja a função densidade de X dada por fX (x) = 1 0 < x < 1. Encontre
a função densidade de Y = X 2 .
24
Solução: Buscamos encontrar a função densidade de Y tal que
√ √
FY (y) = P (Y ≤ y) = P X 2 ≤ y = P (− y ≤ X ≤ y)

Como a variável X está definida no intervalo (0, 1), temos

√
y
√ √
Z
FY (y) = P (Y ≤ y) = P (0 < X ≤ y) = 1dx = y
0
Logo escrevemos 
0
 y≤0
√
FY (y) = y 0<y<1

1 y≥1

A função densidade será

(
1
√
2 y
0<y<1
fY (y) =
0 caso contrário
Exemplo 1.10. Sejam X e Y variáveis aleatórias cuja função densidade conjunta é

dada por (
1 0 < x < 1, 0 < y < 1
fX,Y (x, y) =
0 caso contrário
Encontre a função densidade de Z = X + Y .
Solução: Temos que
FZ (z) = P (Z < z) = P (X + Y < Z) = P [(X, Y ) ∈ A]
onde A = {(X, Y ) : x + y < z}. Então temos para 0 ≤ z < 1 (equivale à área A1 da
Figura 1.8).
Z z Z z−x
z2
Z Z
FZ (z) = P (Z < z) = fX<Y (x, y) dxdy = 1dydx =
A 0 0 2
Para 1 ≤ z < 2, temos (equivale à área A2 na Figura 1.8)

1 1
(2 − z)2
Z Z
FZ (z) = P (Z < z) = 1 − 1dydx = 1 −
z−1 z−x 2
Logo escrevemos: 


 0 z<0
 z2

0≤z<1
2
FZ (z) = (2−z)2


 1− 2
1≤z<2
z≥2

1
25
Figura 1.8: Regiões de integração da função densidade
E a função densidade será


z
 0<z<1
fZ (z) = 2 − z 1≤z<2

0 caso contrário

Exemplo 1.11. Considere o mesmo enunciado do Exemplo 1.10. Encontre a função

densidade Z = XY .
Solução: Vamos encontrar a função distribuição de Z, FZ (z). Esta função dis-

tribuição será zero para z ≤ 0, pois a variável aleatória Z não está definida para tais
valores. Para z ≥ 1 a função distribuição assume valor 1. Resta agora definir a função
para 0 < z < 1, assim temos:
FZ (z) = P (Z < z) = P (XY < z)
Os valores da variável aleatória Z são definidas pelo produto de X e Y , ou seja, y = xz .

Logo
FZ (z) = P (Z < z) = P [(X, Y ) ∈ A]
onde A = {(x, y) : xy < z}. Veja na Figura 1.9 as áreas A1 e A2 que estão sendo
integradas:
26
Figura 1.9: Regiões de integração da função densidade
Z Z
FZ (z) = P (Z < z) = fX,Y (x, y) dxdy = Área A1 + Área A2
z
Z z Z 1 Z 1 Z
x 1
= 1dydx + 1dydx = z + z ln
0 0 z 0 z
Logo a função densidade de Z é dada por
(
ln z1 0≤z<1
fZ (z) =
0 caso contrário
1.6 Desigualdades em probabilidade e teoremas lim-

ites
Definição 1.5. (Desigualdade de Chebyshev) Seja X uma variável aleatória com
média µ e variância σ 2 . Seja também k > 0, então pode-se escrever que
1
P (|X − µ| ≥ kσ) ≤ (1.53)
k2
Em outras palavras, a desiguladade de Chebyshev estabelece um limite superior
para a probabilidade da variável aleatória situar-se em determinada faixa de valores. A
demonstração deste resultado está no Apêndice deste capı́tulo.
27
Definição 1.6. (Desigualdade de Markov) Seja f (x) uma função não negativa e
crescente de uma variável aleatória X definida no intervalo x ≥ 0. Seja c ≥ 0, então
pode-se escrever
E [f (X)]
P (|X| ≥ c) ≤
f (c)
Este também é um resultado que fornece limites para os resultados dos valores da
probabilidade de X situar-se em uma faixa de valores. A demonstração está feita no
Apêndice do capı́tulo.
Definição 1.7. (Desigualdade dos momentos) São válidas as seguintes desigual-
dades:
(i) Desigualdade de Schwarz: [E (XY )]2 ≤ E (|X|2 ) E (|Y |2 )
(ii) Desigualdade de Jensen: Seja f uma função convexa em R. Considere que E (|X|)
e E [|f (X) |] sejam finitas, então f [E (X)] ≤ E [f (X)].
Os teoremas limites estão fundamentados em critérios de convergência para uma
sequência de variáveis aleatórias.
Definição 1.8. (Convergência em Probabilidade) Uma sequência de variáveis
aleatórias {X1 , X2 , . . .} converge em probabilidade para uma variável aleatória X se
para > 0 ocorre
lim P (|XN − X| > ) = 0
N →∞
Definição 1.9. (Convergência de ordem p) Uma sequência de variáveis aleatórias

{X1 , X2 . . .} tal que E [|XN |p ] < ∞, N = 1, 2, . . . converge no primeiro momento com
ordem p (1 ≤ p < ∞) para a variável aletória X, se
lim E [|XN − X|p ] = 0
N →∞
Para o caso em que p = 2 temos o caso da convergência média quadrática. Este con-
ceito de convergência será utilizado para a definição de integral no ambiente estocástico.
Definição 1.10. (Convergência quase certa) Uma sequência de variáveis aleatórias
{X1 , X2 . . .} converge com probabilidade 1 ou quase certamente (q.c.) para X se
h i
P lim XN = X = 1
N →∞
Definição 1.11. (Convergência em distribuição) Seja a sequência de variáveis

aleatórias {X1 , X2 . . .}. Considere que FXi (X) é a função distribuição de Xi . A sequência
acima converge para X com função distribuição FX (x) se
lim FXN = lim P (XN ≤ x) = P (X ≤ x) = FX (x)
N →∞ N →∞
Teorema 1.1. (Lei fraca dos grandes números) Considere X̄N a média de uma
amostra de tamanho N de uma variável aletória X que tem média µ e variânciaP σ 2 . Seja
{X1 , X2 . . .} uma sequencia iid desta variável aleatória. Sabemos que X̄N = N N
1
i=1 Xi .
A sequência {X1 , X2 . . .} converge em probabilidade para µ se
P (|XN − µ| > ) = 0
onde > 0.
28
σ2
Prova. A variância de X̄N é N
. A desigualdade de Chebyshev garante que
1
P [|X − µ| ≥ kσ] ≤
k2

Temos que provar que limN →∞ P |X̄N − µ| > = 0.
1
N2

Considere P |X̄N − µ| > . Então tomando k = σ
, temos

kσ
P |X̄N − µ| > = P |X̄N − µ| ≥ = P |X̄N − µ| > 1
N2
e a desigualdade de Chebyshev garante que tal probabilidade deve ser menor ou igual
1 σ2 σ2

a k2 = N 2 . Logo P |X̄N − µ| > ≤ N 2 . Tomando o limite quanto N → ∞ temos o
resultado desejado. Esta é a lei fraca dos grandes números.
Teorema 1.2. Seja {X1 , X2 . . .} uma sequência de variáveis aleatórias com média µ.
A correspondete sequência X̄1 , X̄2 , . . . converge quase certamente (converge com pro-
babilidade 1) para µ.
Teorema 1.3. Seja {X1 , X2 . . .} uma sequência de variáveis aleatórias com parametros
P∞ σi 2
µi = E (Xi ) e σi2 = V ar (Xi ) sob a condição de que i=1 i < ∞. A sequência
1
PN
{Y1 , Y2 . . .} tal que YN = X̄N − N i=1 µi converge quase certamente (convergência com
probabilidade 1) para zero.
Estes dois últimos teoremas representam a lei forte dos grandes números, pois o
critério de convergência é o critério quase certamente (convergência com probabilidade
1).
O Teorema Central do Limite é um importante resultado da Teoria de Probabilidade

que estabelece que se X1 , X2 , . . . , XN são os elementos de uma amostra aleatória de
tamanho N de qualquer√
distribuição que tenha variância finita σ 2 e média µ, então a
N (X̄−µ)
variável aleatória σ
tem como limite uma distribuição normal com méida zero e
variância 1. A partir deste teorema pode-se inferir probabilidades sobre X̄.
Teorema 1.4. (Teorema Central do Limite) Seja {X1 , X2 . . .} uma sequência de

variáveis aleatórias iid de uma distribuição com média µ e variância σ 2 . Então a
variável aleatória √
PN
X i − N µ N X̄ N − µ
YN = i=1√ =
Nσ σ
tem uma distribuição que tende para uma normal com média zero e variância 1 quando
N → ∞.
Exemplo 1.12. Seja X̄ a média de uma amostra aleatória de tamanho 1800 extraı́da de
uma distribuição Gama de parâmetros α = 2 e β = 3. Avalie o valor de P 5, 8 < X̄ < 6, 2 .
29
Solução: A solução do Exercicio 1.4 fonece o valor da média e variância da distrbuição
Gama. A média é dada por µ = αβ e a variância σ 2 = αβ 2 . Isto é µ = 6 e σ 2 = 18.
Logo pode-se escrever com base no Teorema Central do Limite que
√ √ √ !
N (5, 8 − µ) N X̄ − µ N (6, 2 − µ)
P 5, 8 < X̄ < 6, 2 = P < <
σ σ σ

= P −2 < 10 X̄ − 6 < 2
= 0.9545
Exercı́cio 1.9. Considere X̄ a média de uma amostra aleatória de tamanho 100 extraı́da
tal que U ∼ (0, 2).
de uma distribuição uniforme
Avalie P 1, 95 < X̄ < 2, 05 .
1.7 Inferência estastı́stica

Um importante assunto em finanças é o tratamento de dados obtidos em mercados a
partir de negociações de ativos entre os agentes. Estes dados permitem inferir sobre
as propriedades de determinada variável sobre a qual estamos analisando o comporta-
mento. Por exemplo, podemos a partir de uma série histórica de preços do petróleo
concluir que a distribuição lognormal descreve bem esta variável? Se afirmativo quais
os valores dos parâmetros desta distribuição? Note que buscamos descrever a variável
preço do petróleo inferindo sobre o tipo da distribuição e os parâmetros que a definem.
O assunto que trata tais questões em estatı́stica é denominado inferência estatı́stica.
Nesta seção vamos apenas destacar alguns conceitos relevantes. O Capı́tulo 2 será mais
abrangente e apresentará com detalhes a aplicação de conceitos estatı́sticos aos dados
de preços.
Os conceitos de população e amostra já nos são familiares, vamos definir o conceito
de estatı́stica. Sejam X1 , . . . , XN uma amostra aleatória de uma variável X, qualquer
função que seja dependente
PN unicamente da amostra é denominada de estatı́stica. Por
1
exemplo, X̄ = N i=1 Xi , é uma estatı́stica, a mediana de uma amostra é também
2
uma estatı́stica. Outro exemplo importante é a estatı́stica N1 N
P
i=1 Xi − X̄ que está
relaciona ao segundo momento da distribuição de X.
Seja X1 , . . . , XN uma amostra da variável aleatória X, considere então que as variáveis

X1 , . . . , XN são independentes. Isto significa que cada valor Xi é obtido por um sorteio a
partir da função densidade que representa X independentemente de outro valor sorteado
Xj , i 6= j. Esta amostra é dita iid pois as variáveis aleatórias são independentes e iden-
ticamente distribuı́das (têm a mesma origem).
A partir deste conjunto de variáveis aleatórias ou amostra iid podemos escrever que
a densidade conjunta é o produto das funções densidades individuais à semelhança do
30
conceito de probabilidade de eventos independentes na equação (1.4).
Mais especificamente vamos considerar que cada variável aleatória seja oriunda da
função densidade que tenha θ como parâmetro que define a distribuição. Assim a função
densidade conjunta, será
N
Y
f (x1 , . . . , xN ; θ) = f (xi ; θ) (1.54)
i=1
A função densidade conjunta também é conhecida como função de verossimilhança

de θ. A questão central é definir o parâmetro θ, ou melhor inferir sobre θ, dada a
observação amostral. Então escrevemos que a versossimilhança é
N
Y
L (θ; x) = f (xi ; θ) (1.55)
i=1
A função de verossimilhança será utilizada como uma das metodologias para es-
timação do parâmetro θ. O verdadeiro valor de θ somente poderá ser obtido se tivéssemos
acesso a toda a população dos dados. Na prática isto é impossı́vel, conhecemos apenas
parte da população, ou seja, uma amostra. Por isto que estimação do parâmetro θ é
função da amostra. Dizemos então que θ̂ é um estimador do verdadeiro parâmetro θ.
O range de valores que o estimador pode assumir é denominado de espaço paramétrico
Θ. Se por exemplo o parâmetro que estamos estimando é a média de uma distribuição
normal, o espaço paramétrico será o conjutno dos reais, tal que θ̂ ∈ R. Se o parâmetro
for a variância o espaço paramétrico será o conjunto dos reais positivos, θ̂ ∈ R+ .
Um estimador θ̂ é não tendencioso se o seu valor esperado é o verdadeiro parâmetro

θ, ou seja
E θ̂ = θ (1.56)
Exemplo 1.13. Considere X1 , . . . , XN , uma amostra iid da variável aleatória X de

média µ e variância σ 2 . Seja a estatı́stica
N
1 X
X̄ = Xi
N i=1

Calcule E X̄ e V ar X̄ .
Solução: O valor esperado de X̄ é

" N
# N
1 X 1 X 1
E X̄ = E Xi = E (Xi ) = (N µ) = µ
N i=1 N i=1 N
A variância de X̄
N
! N
1 X 1 X 1 1
V ar (Xi ) = 2 N σ 2 = σ 2

V ar X̄ = V ar Xi = 2
N i=1 N i=1 N N
31
Logo o estimador X̄ é um estimador não tendencioso da média µ da variável aleatória
X.
Exemplo 1.14. Retome o enunciado do Exemplo 1.13. Seja a estatı́stica

N
21 X 2
σ̂ = Xi − X̄
N i=1
Verifique se σ̂ 2 é um estimador não tendencioso da variância σ 2 de X.

h P 2 i
Solução: O valor esperado de σ̂ 2 é E (σ 2 ) = E N1 N
i=1 X i − X̄ . Vamos trabalhar
no somatório acima, tal que o mesmo pode ser obtido conforme abaixo
X X 2
(Xi − µ)2 =

Xi − X̄ + X̄ − µ
X 2 X
= Xi − X̄ − 2 Xi − X̄ X̄ − µ
X 2
+ X̄ − µ
P P
Mas Xi − X̄ = Xi − N X̄ = 0, logo
X X 2 2
(Xi − µ)2 = Xi − X̄ + N X̄ − µ
ou ainda X 2 X 2
Xi − X̄ = (Xi − µ)2 − N X̄ − µ
Então o valor esperado acima pode ser assim reescrito
( " N #)
1 X 2
E σ̂ 2 = E (Xi − µ)2 − N X̄ − µ

N i=1
ou ainda
N
1 X h 2 i
E σ̂ 2 = E (Xi − µ)2 − E X̄ − µ

N i=1
Sabemos que
h 2 i σ2
E (Xi − µ)2 = σ 2 e pelo Exemplo 1.13: E X̄ − µ

= V ar X̄ =
N
Levando estes resultados na última equação, ficamos com
1 σ2
E σ̂ 2 = N σ 2 −

N N
N −1 2
= σ
N
E portanto o estimador σ̂ 2 definido pela estatı́stica acima é tendencioso.
32
2
No exemplo 1.14 se definı́ssemos a estatı́stica Ŝ 2 = N1−1 N
P
i=1 Xi − X̄ encon-

trarı́amos E Ŝ 2 = σ 2 , ou seja, Ŝ 2 é um estimador não tendencioso. Embora σ̂ 2 seja
tendencioso observe que limN →∞ E (σ̂ 2 ) = limN →∞ NN−1 σ 2 = σ 2 , ou seja, assintotica-
mente σ̂ 2 não é tendencioso. Isto significa que para grandes amostras pode-se usar σ̂ 2
ou Ŝ 2 como estimadores para a variância σ 2 de X. Um estimador θ̂ que converge assin-
toticamente para θ é dito um estimador consistente de θ.
Seja X1 , . . . , XN uma amostra aleatória iid de uma variável aleatória X com função
densidade f (x; θ) tal que θ ∈ Θ. A função de verossimilhança é dada pela equação (1.55).
O estimador de máxima verossimilhança é o valor de θ ∈ Θ tal que θ̂ maximiza a função
a função L (θ; x). Na prática iremos maximizar o ln L (θ; x) já que o valor que maximiza
L (·) também maximiza o seu logarı́tmo.
Exemplo 1.15. Seja X1 , . . . , XN uma amostra iid de uma distribuição normal N (θ, 2),
onde θ ∈ R. Determine o estimador de máxima verossimilhança da média.
Solução: A função densidade conjunta é
f (x1 , . . . , xN ) = f (x1 ; θ) f (x2 ; θ) , . . . , f (xN ; θ)

2

onde f (xi ; θ) = 2√12π exp − (xi −θ) 4
. A função verossimilhança é
N
Y
L (θ; x) = f (xi ; θ)
i=1
N N
!
(xi − θ)2

1 X
= √ exp −
2 2π i=1
4
Tomando o logarı́tmo
X (xi − θ)2 N
1
ln L (θ; x) = N ln √ −
2 2π i=1
4
A condição de primeira ordem para o máximo do ln L (θ; x) é

N 2 x − θ̂
d ln L (θ; x) X i
=− (−1) = 0
dθ i=1
4
ou ainda
N N
X 1 X
xi − θ̂ = 0 ⇒ θ̂ = xi = X̄
i=1
N i=1
A condição de segunda ordem é imediata.
33
Exemplo 1.16. Seja X1 , . . . , XN uma amostra aleatória iid de uma variável X com
função densidade dada por
(
θxθ−1 0 < x < 1 e θ ∈ R+
f (x; θ) =
0 caso contrário
Determine o estimador de máxima verossimilhança de θ.
Solução: A função de verossimilhança é

L (θ; x) = θxθ−1
1 . . . θxθ−1
N
N
Y
=θ N
xθ−1
i
i=1
O logarı́tmo da verossimilhança é
N
X
ln L (θ; x) = N ln θ + (θ − 1) ln xi
i=1
Tomando a condição de primeira ordem do máximo

N
d ln L (θ; x) 1 X −N
=N + ln xi = 0 ⇒ θ̂ = PN
dθ θ̂ i=1 i=1 ln xi
A condição de segunda ordem é imediata.
Exercı́cio 1.10. Seja X1 , . . . , XN uma amostra aleatória iid de uma variável aleatória
X com distribuição normal X ∼ (µ, σ 2 ). Mostre que os estimadores de máxima verossim-
2
ilhança θ̂1 e θ̂2 de µ e σ 2 , respectivamente são θ̂1 = X̄ e θ̂2 = N1 N
P
i=1 X i − X̄ , onde
1
PN
X̄ = N i=1 Xi .
Exercı́cio 1.11. Seja X1 , . . . , XN uma amostra aleatória iid de uma variável com dis-
tribuição de Poisson conforme equação (1.26) e aqui reescrita em termos do parâmetro
θ
θx
f (x; θ) = e−θ para x = 0, 1, . . . e θ > 0
x!
Encontre o estimador de máxima verossimilhança de θ.
Além da estimação por máxima verossimilhança, existem outras metodologias para
estimação dos parâmetros, como por exemplo o método dos momentos onde os mo-
mentos amostrais são igualados aos momentos populacionais. Em geral estimação
paramétrica é acompanhada da estimação por intervalo, onde é analisada a distribuição
que o parâmetro θ̂ possui e consequentemente define-se um intervalo de confiança para
o valor estimado do parâmetro. Todos estes tópicos podem ser encontrados nas re-
ferências mencionadas no inı́cio do capı́tulo. Para os objetivos deste livro a estimação
por verossimilhança é suficiente. Sua aplicação à séries financeiras será vista no próximo
capı́tulo.
34
1.8 Apêndice - Desigualdades de Chebyshev e Markov
1.8.1 Desigualdade de Chebyshev
Primeiramente vamos demonstrar uma proposição e em seguida usar tal resultado mostrando
a desiguldade de Chebyshev.
Proposição 1.1. Seja f (X) uma função não negativa de uma variável aleatória X.
Considere que exista o valor esperado E [f (X)] então para c > 0, pode-se escrever
E [f (X)]
P [f (X) ≥ c] ≤
c
Prova. Seja o conjunto A formado por valores de x tais que f (x) ≥ c, isto é, A =
{x|f (x) ≥ c} e seja gX (x) a função densidade de X. Então
Z ∞ Z Z
E [f (X)] = f (z) gX (z) dz = f (z) gX (z) dz + f (z) gX (z) dz
−∞ A Ac
Como os integrandos são funções positivas, o resultado de ambas integrais será um

número positivo. Consequentemente pode-se escrever
Z
E [f (X)] ≥ f (z) gX (z) dz
A
Como esta última integral está no conjunto A e como neste caso f (x) ≥ c, permanece
válida a desigualdade se substituirmos f (x) por c, isto é
Z Z
E [f (X)] ≥ cgX (z) dz = c gX (z) dz = cP (X ∈ A) = cP [f (x) ≥ c]
A A
Então como primeiro resultado pode-se escrever

E [f (x)]
P [f (x) ≥ c] ≤
c
Proposição 1.2 (Desigualdade de Chebyshev). Seja X uma variável aleatória com

média µ e variância σ 2 . Seja também k > 0, então pode-se escrever que
1
P (|X − µ| ≥ kσ) ≤
k2
Prova. Agora vamos usar o resultado da proposição anterior. Considere que a função
não negativa seja f (x) = (x − µ)2 e que c2 = k 2 σ 2 , onde σ 2 é a variância de X. Então
temos de acordo com o resultado acima
E (X − µ)2

2 2 2
P (X − µ) ≥ k σ ≤
k2σ2
Observe que a função f (x) foi escolhida de tal modo que o numerador do lado direito
resultasse na variância. Temos então
1
P (X − µ)2 ≥ k 2 σ 2 ≤ 2

k
35
ou ainda
1
P [|X − µ| ≥ kσ] ≤
k2
que é o esultado da desigualdade de Chebyshev. Apesar da demonstração ter sido feita
para a variável aleatória X em tempo contı́nuo, a mesma demonstração pode ser feita
para o caso discreto.
1.8.2 Desigualdade de Markov

Proposição 1.3 (Desigualdade de Markov). Seja f (x) uma função não negativa e
crescente de uma variável aleatória X definida no intervalo x ≥ 0. Seja c ≥ 0, então
pode-se escrever
E [f (X)]
P (|X| ≥ c) ≤
f (c)
Prova. O valor esperado E [f (|X|)] está calculado abaixo
Z ∞
E [f (|X|)] = f (|z|) gX (z) dz
−∞
Separando o segundo membro em duas integrais, temos:

Z ∞ Z −c
E [f (|X|)] ≥ f (|z|) gX (z) dz + f (|z|) gX (z) dz
c −∞
Esta desigualdade deve-se ao fato de que f (x) é não negativa em x ≥ 0. Por outro lado
o segundo membro acima é maior ou igual que
Z ∞ Z −c
f (|c|) gX (z) dz + f (|c|) gX (z) dz
c −∞
Esta desigualdade deve-se ao fato de que f (x) é crescente em x ≥ 0. O último resultado

é igual a Z ∞ Z −c

f (|c|) gX (z) dz + gX (z) dz =
c −∞
f (|c|) P (|X| ≥ c)
Reescrevento o resultado temos
E [(f (x))]
P (|X| ≥ c) ≤
f (c)
Note que a desigualdade de Chebyshev pode ser obtida da desigualdade de Markov para
os casos especı́ficos em que f (x) é crescente.
36
Capı́tulo 2
Econometria em Finanças
O Capı́tulo 1 foi dedicado a uma breve revisão de alguns conceitos fundamentais de teo-
ria de probabilidade e matemática estatı́stica que são úteis no desenvolvimento de um
curso em processos estocásticos e por conseguinte em finanças. Este segundo capı́tulo
apresenta os conceitos básicos em processos estocásticos com enfoque em econometria de
séries financeiras. Iniciaremos com os conceitos de forma intuitiva sem o formalismo que
se apresenta em muitos textos. Nosso objetivo final é usar estes conceitos para modelar
variáveis tais como preços, retornos, volatilidade, etc. Veremos o processo estocástico
básico denominado passeio aleatório, em seguida virão os processos auto-regressivos
e média-móveis e formalizaremos a metodologia Box-Jenkins. Passaremos então pela
análie de alguns fatos estilizados em séries financeiras. Ao final o leitor estará apto a
modelar séries financeiras por modelos AR-GARCH (auto-regressivo com volatilidade
GARCH). Dada a relevância da volatilidade no apreçamento de derivativos, entendemos
que os conceitos aqui expostos são fundamentais para a compreensão mais abrangente
da teoria em finanças. Este capı́tulo representa os conceitos fundamentais de disciplinas
como séries temporais e econometria de séries financeiras.
A literatura nestas disciplinas é vasta. O leitor pode aprofundar os conceitos prelim-

inares deste capı́tulo em referências como Campbell, Lo e McKinlay (1997) [19], Enders
(1995) [35], Franses e van Dijk (2000) [39], Gourieroux (2001) [44], Tsay (2002) [98],
Hamilton (1994) [46], dentre outros. Em lı́ngua portuguesa referimo-nos a Morettin e
Toloi (2004) [76].
2.1 Processos estocásticos

Definição 2.1. (Série temporal) Série temporal é qualquer conjunto de observações
ordenado no tempo. A abordagem da análise pode ser no domı́nio do tempo com modelos
paramétricos ou no domı́nio da frequência com modelos não paramétricos.
As séries temporais podem ser classificadas em:
(i) Discretas - quando o conjunto de observações for finito ou infinito enumerável;
(ii) Contı́nuas - quando o conjunto for infinito não enumerável;
(iii) Estocásticas - quando houver um componente aleatório;
37
(iv) Determinı́stica - quando não houver componente aleatório e o modelo puder ser
definido por funções determinı́sticas;
(v) Multivariadas - quando a série temporal é representada por um vetor;
(vi) Multidimensional - quanto t assume dimensão superior a 1.
Definição 2.2. (Processo estocástico) Um processo estocástico X é uma coleção de

variáveis aleatórias
(Xt , t ∈ [0, T ]) = (Xt (ω) , t ∈ [0, T ] , ω ∈ Ω)
definidas em algum espaço Ω. O conjunto [0, T ] representa um conjunto infinito de

instantes de tempo.
O valor de X está associado ao instante de tempo t e a possı́veis realizações ω. Estas

realizações representam os estados da natureza. Assim, para um instante de tempo t
fixo a variável aleatória é
Xt = Xt (ω), ω ∈ Ω
Para um determinado estado da natureza, ω ∈ Ω, a variável aleatória é uma função do
tempo
Xt = Xt (ω), t ∈ [0, T ]
esta função é denominada realização, trajetória ou caminho do processo de X.
Exemplo 2.1. Seja Yt o nı́vel de um reservatório de um tanque de combustı́vel medido

em relação a um marco zero. A medição do nı́vel do reservatório é feita diariamente.
O nı́vel do combustı́vel oscila a cada dia de acordo com o consumo e com a reposição
do mesmo. A Figura 2.1 apresenta a evolução da variável Yt . Esta realização mostra
a evolução do nı́vel para um estado da natureza, digamos ω1 em que a economia não
apresentará grandes oscilações. Portanto, este estado da natureza representa um cenário
em que a demanda é normal. Está representada outra evolução do nı́vel para um estado
ω2 mostrando o caso em que a demanda é maior, referente a um cenário mais favorável
da economia. As evoluções estão defasadas no nı́vel por um valor que representa o
aquecimento da demanda por combustı́vel. Temos portanto que para cada instante de
tempo t existem dois estados possı́veis para o nı́vel do reservatório: Yt (ω1 ) e Yt (ω2 ).
Definição 2.3. (Ruı́do branco) Seja {t } uma sequência de variáveis aleatórias
independentes e identicamente distribuı́das (iid) com média zero e variância σ2 . Esta
sequência é denominada ruı́do branco (RB). Assim temos t ∼ iid tal que E (t ) = 0;
V ar (t ) = σ2 ; Cov (t , t+k ) = 0 ∀k 6= 0.
Definição 2.4. (Passeio aleatório) Considere t um ruı́do branco tal que t ∼ iid (0, σ2 ).
Considere yt tal que
yt = yt−1 + t (2.1)
O processo descrito por yt define um passeio aleatório (random walk).
38
Figura 2.1: Exemplo da evolução da variável Yt
Seja o valor inicial de yt igual a y0 . Então seus valores subsequentes serão:
y1 = y0 + 1
y2 = y0 + 1 +2
| {z }
y1
..
.
yt = y0 + 1 + . . . + t
Ou seja, temos que
t
X
yt = y0 + i (2.2)
i=1
A Figura 2.2 mostra a realização de dois passeios aleatórios conforme a equação (2.1),
ambos iniciando em y0 = 5.
2.2 Conceitos básicos em séries temporais

Definição 2.5. (Autocovariância) Autocovariância γk : É a covariância entre duas
variáveis da série defasadas por k intervalos de tempo, isto é:
γk = Cov (yt , yt−k ) = E [(yt − E (yt )) (yt−k − E (yt−k ))] (2.3)
39
Figura 2.2: Duas realizações do passeio aleatório yt = 5 + t
A definição na equação (2.3) é equivalente a
γk = Cov (yt , yt−k ) = E (yt yt−k ) − E (yt ) E (yt−k )
Em um processo estacionário as médias E (yt ) e E (yt−k ) são iguais: E (yt ) = E (yt−1 ) =

µ. Neste caso a equação (2.3) pode ser assim reescrita
γk = Cov (yt , yt−k ) = E [(yt − µ) (yt−k − µ)]
Para uma amostra y1 , y2 , . . . , yN , temos o estimador de γk :

N −k
1 X
γˆk = (yt − ȳ) (yt+k − ȳ) (2.4)
N t=1
1
PN
onde ȳ = N t=1 yt e γˆk é um estimador não tendencioso1 de γk na equação (2.3).
Definição 2.6. (Função de autocorrelação) Função de autocorrelação (FAC) é

definida por
γk Cov (yt , yt+k )
ρk = = . (2.5)
γ0 V ar (yt )
onde γ0 é a variância da série.
1
Um estimador θ̂ é dito um estimador não tendencioso de θ se o valor esperado de θ̂ é igual ao
verdadeiro valor θ, ou seja, E θ̂ = θ.
40
O estimador de ρk é
γˆk
ρˆk = (2.6)
γˆ0
Observe que para o processo {t } (RB) temos que γk = 0 ∀k 6= 0, consequentemente
6 0.
ρk = 1 se k = 0 e ρk = 0 se k =
Definição 2.7. (Função de autocorrelação parcial) A função de autocorrelação

parcial (FACP) é a correlação entre as variáveis yt e yt+k dado que são conhecidos
yt+1 ,yt+2 ,. . . , yt+k−1 .
Veja no Apêndice detalhes sobre o cálclulo da FACP. Veremos na seção testes es-
tatı́sticos para identificação da FAC e FACP.
Exemplo 2.2. Seja yt um passeio aleatório como definido nas equações (2.1) e (2.2).
Calcule E (yt ), V ar (yt ).
Solução: Média E (yt ); aplicando o operador valor esperado em ambos os lados da

equação (2.2), podemos escrever
t
!
X
E (yt ) = E (y0 ) + E i
i=1
t
X
= y0 + E (i )
i=1
= y0 pois a média do RB é zero por definição
Variância V ar (yt ); aplicando o operador variância a ambos os lados da equação (2.2),

podemos escrever
V ar (yt ) = V ar (y0 + 1 + . . . + t )
t
X
= V ar (i )
i=1
= tσ2
Em séries temporais é usual trabalhar com operadores que defasam uma variável.
Define-se então o operador lag L como um operador linear tal que:
Li yt = yt−i (2.7)
São válidas as seguintes propriedades do operador L:
(i) O lag de uma constante é a própria constante Lc = c
(ii) O operador lag segue a propriedade distributiva em relação à soma (Li + Lj ) yt =

Li yt + Lj yt = yt−i + yt−j
41
(iii) É válida a propriedade associativa da multiplicação Li Lj yt = Li (Lj yt ) = Li (yt−j ) =
yt−i−j . Ou ainda Li Lj yt = Li+j yt = yt−i−j
(iv) Potências negativas de L significam um operador de avanço, L−i yt = Lj yt fazendo

j = −i. Então L−i yt = Lj yt = yt−j = yt+i
yt
(v) Se |a| < 1 a soma infinita (1 + aL + a2 L2 + . . .) yt = 1−aL
(vi) Se |a| > 1 a soma infinita 1 + (aL)−1 + (aL)−2 + . . . yt = − 1−aL

aL

yt
Exercı́cio 2.1. Mostre a validade das propriedades (v) e (vi) acima, do operador L.
2.3 Estacionariedade
Definição 2.8. (Estacionariedade) Quando o processo estocástico que gerou a série
de observações é invariante no tempo diz-se que é estacionário. Um processo é estri-
tamente estacionário se a distribuição conjunta de y1 , . . . , yt é idêntica a distribuição
conjunta de y1+k , . . . , yt+k para todo t, sendo k é um inteiro positivo. Ou seja, a estaci-
onariedade estrita requer que a função distribuição conjunta de y1 , . . . , yt seja a mesma
mediante uma defasagem no tempo.
Esta é uma definição rigorosa para a estacionariedade. Uma definição menos rigorosa
de estacionariedade é denominada de estacionariedade de segunda ordem ou estacionari-
edade fraca. Um processo é estacionário de segunda ordem se a média e a variância de yt
são idênticas para qualquer t e a covariância é função apenas da defasagem. Em outras
palavras, a estacionariedade de segunda ordem requer: (i) E (yt ) = µ, seja constante e
(ii) Cov (yt , yt−k ) = γk , seja função apenas de k.
Exemplo 2.3. Considere o processo estocástico t ∼ RB (0, σ2 ). O que dizer da estaci-
onariedade de segunda ordem de t ?
Solução: Observe que µ = E (t ) = 0, V ar (t ) = σ2 e ainda Cov (t , s ) = 0 para
t 6= s são constantes, logo o ruı́do branco é estacionário de segunda ordem.
Exemplo 2.4. Considere o processo estocástico passeio aleatório definido por yt =

yt−1 + t . O que dizer da estacionariedade de segunda ordem?
Solução: O Exemplo 2.2 apresentou o cálculo da média e variância do processo de yt .

Foi visto que V ar (yt ) = tσ2 , portanto o segundo momento é uma função do tempo não
sendo pois constante (ou seja, não é invariante). Consequentemente o processo de yt
não é estacionário.
42
Vamos verificar o que ocorre com dados empı́ricos no que se refere à definição de
estacionariedade. Tomemos uma série financeira. Seja então uma amostra dos preços
diários do petróleo (primeiro contrato futuro) negociados no NYMEX desde janeiro de
1985 até maio de 2008. Esta amostra contém 5853 dados de preços. A Figura 2.3
mostra a evolução dos preços neste perı́odo. Agora vamos dividir a amostra completa
Figura 2.3: Preços do petróleo de jan 1985 a mai 2008
em duas sub-amostras de tamanhos iguais. A primeira sub-amostra abrange o perı́odo

de janeiro de 1985 a agosto de 1996 e a segunda sub-amostra, desta última data até
o final do perı́odo. A média e o devio padrão dos preços da primeira subamostra são
µ1 = US$19, 9/barril e σ1 = US$4, 28/barril, respectivamente. Para a segunda sub-
amostra os mesmos parâmetros são µ2 = US$38, 4/barril e σ2 = US$22, 4/barril. Estes
resultados eram esperados já que é visı́vel pela Figura 2.3 que os preços têm uma alta
vertiginosa na parte final da amostra. As duas sub-amostras têm mêdias completamente
diferentes e o mesmo pode ser dito com respeito ao desvio padrão.
A Figura 2.4 mostra o histograma das duas sub-amostras: Fig 2.4(a) refere-se à
primeira sub-amostra e a Fig 2.4(b) refere-se à segunda. Pode-se notar que os padrões
destes histogramas são bem diferentes. Isto significa que a amostra completa quando di-
vidida não guardou nenhuma similaridade em termos dos histogramas das sub-amsotras.
Todos estes fatos são sugestivos de que a distribuição dos preços não é estacionária (ou
invariante). Está bem clara uma tendência crescente dos preços na segunda sub-amostra,
fato este traduzido pela sua maior média.
Vejamos o que ocorre com a distribuição dos retornos. O retorno de um ativo entre
os instantes t é t − 1 é definido por Rt = PtP−P t−1
t−1
. Na seção 2.5 definiremos o retorno
43
Figura 2.4: Histograma das sub-amostras dos preços
com mais detalhes. A distribuição completa dos retornos possui 5852 dados. A Figura
2.5 mostra a evolução da distribuição completa dos retornos. A média da distribuição
dos retornos µR e o desvio padrão σR são 0, 0267% e 2, 41%, respectivamente.
Adotando o mesmo procedimento que fizemos com a distribuição dos preços, vamos
dividir a amostra dos retornos em duas sub-amostras. A primeira sub-amostra tem re-
torno e desvio padrão iguais a µR1 = −0, 0051% e σR1 = 2, 5%, respectivamente. Para a
segunda amostra encontra-se µR2 = 0, 059% e σR2 = 2, 32%. Nota-se que as médias são
praticamente as mesmas, aproximadamente zero para as duas sub-amostras. Os desvios
padrões são bem similares. Conclusão idêntica chega-se ao compararmos as médias e
desvios das sub-amostras com a amostra completa. A Figura 2.6 mostra os histogramas
das sub-amostras dos retornos. Observe que ambas possuem similaridades quanto às for-
mas. Estes fatos são sugestivos de que a distribuição de retorno é invariante no tempo.
Ou seja, as sub-amostras preservam os momentos (média e variância) e o histograma das
distribuições possuem formas bastante aproximadas. É um fato bem conhecido empiri-
camente que a distribuição de retorno dos ativos financeiros é estacionária. Voltaremos
a este assunto na seção 2.5.
44
Figura 2.5: Retornos do petróleo de jan 1985 a mai 2008
2.4 Formulação dos modelos Box e Jenkins

A motivação para o estudo de séries temporais é definir o processo gerador de dados,
fazer previsões futuras da série, identificar ciclos, tendências ou sazonalidades de forma
que a decisão que envolve a variável em questão seja a mais acurada possı́vel. Neste
sentido apresentamos nesta seção os fundamentos da metodologia Box e Jenkins. As
bases desta formulação podem ser encontradas no texto Box e Jenkins (1970).
A metodologia Box e Jenkins é a interpretação e análise de uma série temporal como

sendo oriunda de uma realização de um processo estocástico. O objetivo é inferir sobre
o processo gerador de dados. Busca-se identificá-lo baseado nas informações contidas na
série levando-se em consideração a parcimônia do modelo, ou seja, tratando o modelo
com o menor número de parâmetros possı́vel. A estratégia envolve a repetição do pro-
cesso de indenficação até encontrar o modelo que seja mais satisfatório.
Os modelos Box e Jenkins são tais que a série yt é escrita como
Φp (L) yt = Θq (L) t (2.8)
onde L é o operador lag, Φ e Θ são polinôminos de graus p e q, respectivamente e t é

RB (0, σ2 ). Mais apropriadamente
Φp (L) = 1 − φ1 L − φ2 L2 − . . . − φp Lp (2.9)
Θq (L) = 1 − θ1 L − θ2 L2 − . . . − θq Lq (2.10)
45
Figura 2.6: Histograma das sub-amostras dos retornos
O polinômio Φp (L) define a parte auto-regressiva (AR) do modelo enquanto o polinômio

Θq (L) define a parte denominada média móvel (MA). Assim, o modelo na equação (2.6)
é denominado ARM A(p, q). Por exemplo, o modelo ARM A(2, 3) é escrito como
Φ2 (L) yt = Θ3 (L) t
Escrevendo em termos dos polinômios definidos nas equações (2.9) e (2.10), fica
1 − φ1 L − φ2 L2 yt = 1 − θ1 L − θ2 L2 − θ3 L3 t

Aplicando o operador L a cada termo, teremos
yt − φ1 yt−1 − φ2 yt−2 = t − θ1 t−1 − θ2 t−2 − θ3 t−3
Finalmente isolando yt obtem-se
yt = φ1 yt−1 + φ2 yt−2 − θ1 t−1 − θ2 t−2 − θ3 t−3 + t
No caso em que Θq (L) = 1 temos o modelo ARM A(p, 0) ou melhor AR(p). Da mesma
forma, para o caso em que Φp (L) = 1 temos o modelo ARM A (0, q) ou simplesmente
M A (q).
A condição de estacionariedade de um modelo AR (p) deve ser tal que as raı́zes do

polinômio Φp (L) = 0 devem estar fora do cı́rculo unitário. Para os modelos M A (q)
a estacionariedade é trivial já que se trata de uma soma de ruı́dos brancos todos esta-
cionários. Para um modelo ARM A (p, q) as condições de estacionariedade são aquelas
46
de um modelo AR(p).
A condição de inversibilidade de um modelo AR(p) é trivial. Para um modelo M A(q)

a inversibilidade ocorre sempre que as raı́zes do polinômio Θq (L) = 0 estiverem fora
do cı́rculo unitário. Já um modelo ARM A (p, q) tem a inversibilidade sob as mesmas
condições de um M A (q).
Pode-se resumir no quadro abaixo o comportamento dos modelos com relação a es-
tacionariedade e inversiblidade.
Modelo Condições
Φp (L) yt = t Φp (L) = 0 ⇒ raı́zes fora do cı́rculo unitário
⇒ estacionário e trivialmente inversı́vel.
yt = Θq (L) t Θq (L) = 0 ⇒ raı́zes fora do cı́rculo unitário
⇒ inversı́vel e trivialmente estacionário.
Φp (L) yt = Θq (L) t Φp (L) . . . raı́zes fora do cı́culo unitário ⇒ estacionário.
Θq (L) . . . raı́zes fora do cı́rculo unitário ⇒ inversı́vel.
Exemplo 2.5. Considere o modelo AR(1): yt = φyt−1 + t , onde |φ| < 1 e t ∼

RB (0, σ2 ).
(i) o modelo é estacionário?
(ii) o modelo é inversı́vel?
(iii) calcule a média µ = E (yt )
(iv) calcule γ0 , γ1 , . . . , γk e ρ0 , ρ1 , . . . , ρk
(v) escreva o modelo sob a forma inversa.
Solução:
(i) Estacionariedade: escrevendo o processo em termos do polinômio Φ (L):
yt = φyt−1 + t ⇒ yt − φyt−1 = t ⇒ (1 − φL) yt = t
Logo temos que Φ (L) = 1−φL = 0 ⇒ L = φ1 . Então L > 1 se 0 < φ < 1 e L < −1
se −1 < φ < 0. Neste caso as raı́zes do polinômio estão fora do cı́rculo unitário e
o processo é estacionário, isto é, a estacionariedade ocorre se −1 < φ < 1. Como
|φ| ≤ 1 o processo é estacionário.
(ii) Um processo auto-regressivo AR (p) é trivialmente inversı́vel.
(iii) Média incondicional
E (yt ) = φE (yt−1 ) + E (t )

E (yt ) = φE (yt−1 ) mas E (yt ) = E (yt−1 ) pois é estacionário, logo
E (yt ) = 0
47
(iv) Covariâncias e correlações
Variância γ0 :
γ0 = Var (yt ) = φ2 Var (yt−1 ) + σ2
Como Var (yt ) = Var (yt−1 ) devido a estacionariedade, temos
σ2
γ0 = Var (yt ) =
1 − φ2
Covariância γk :
γk = Cov (yt , yt−k ) = E (yt yt−k ) − E (yt ) E (yt−k ) = E (yt yt−k )
Substituindo acima a expressão de yt , temos
γk = E (yt yt−k )
= E [(φyt−1 + t ) yt−k ]
= E [φyt−1 yt−k + t yt−k ]
Para k = 1, temos:
γ1 = E [φyt−1 yt−1 + t yt−1 ]
2

= φE yt−1 + E (t yt−1 ) = φγ0
γ1
Consequentemente temos ρ1 = γ0
= φ.
Para k = 2, temos:
γ2 = E [φyt−1 yt−2 + t yt−2 ]
= φE (yt−1 yt−2 ) = φγ1 = φ (φγ0 ) = φ2 γ0
γ2
Consequentemente temos ρ2 = γ0
= φ2 .
Para um k genérico, temos:
γk = E [φyt−1 yt−k + t yt−k ]
= φE [yt−1 yt−k ] + E [t yt−k ]
= φγk−1 = φ φk−1 γ0 = φk γ0

γk
Consequentemente temos ρk = γ0
= φk
(v) Invertendo o processo auto-regressivo

1
(1 − φL) yt = t ⇒ yt = t
1 − φL
Mas sabemos das propriedades do operador L acima que
1
= 1 + φL + φ2 L2 + . . .

1 − φL
Então fazendo a substituição, temos:
yt = 1 + φL + φ2 L2 + . . . t

= t + φt−1 + φ2 t−2 + . . .
Ou seja, o processo AR(1) pode ser escrito como um M A (∞) observando que
|φ| < 1.
48

Exemplo 2.6. Seja o processo AR(1) dado por yt = 0, 6yt−1 + t , onde t ∼ N ID (0, 2),
calcule a V ar (yt ) e a FAC.
Solução: Pelo Exemplo 2.5 temos que a variância é dada por

σ2 22
V ar (yt ) = = = 6, 25
1 − φ2 1 − 0, 62
O cálculo da FAC fornece ρ0 = 1, ρ1 = 0, 6, ρ2 = 0, 36, . . . , ρk = 0, 6k . Sendo φ = 0, 6,

os valores de ρk decrescem com o lag k. A Figura 2.7 mostra o processo yt : a Fig
2.7(a) apresenta três trajetórias do processo iniciando em y0 = 1 e a Fig 2.7(b) mostra
o gráfico da FAC com o intervalo de confiança de 95%.
Figura 2.7: Processo yt = 0, 6yt−1 + t : (a) simulações, (b) FAC
Exercı́cio 2.2. Considere o modelo AR(1): yt = β + φyt−1 + t onde |φ| < 1 e t ∼

RB (0, σ2 ):
(i) calule a média µ = E (yt )
(ii) calcule a variância γ0 = V ar (yt )
(iii) calcule as covariâncias γ1 , . . . , γk

Exercı́cio 2.3. Considere o modelo M A(1): yt = t + t−1 , onde t ∼ RB (0, σ2 ):
49
(i) calcule a média µ = E (yt )
(iii) calcule a FAC
(iv) analise a inversibilidade
Exercı́cio 2.4. Suponha que a receita das vendas de petróleo Rt seja modelada pelo
seguinte processo estocástico Rt = β + Rt−1 + t onde t ∼ N (0, σ2 ). O que dizer da
tendência da receita? Se o processo fosse modelado por Rt = β +ϕRt−1 +t onde |ϕ| < 1,
você mudaria a sua resposta?
Exercı́cio 2.5. Considere o modelo M A(1): yt = t − θt−1 , onde t ∼ RB (0, σ2 )

(i) calcule a média µ = E (yt )
(iii) calcule a FAC
Exercı́cio 2.6. Considere o modelo, onde onde t ∼ RB (0, σ2 )
yt = 0, 8yt−1 − 0, 3t−1 + t
(i) verifique se é estacionário e inversı́vel

(ii) calcule a média e a variância
(iii) calcule a FAC
(iv) escreva o modelo como um MA(∞)
Na prática os processos sobre os quais fazemos inferência através de uma série tem-
poral, são geralmente não estacionários. Trataremos dos processos não estacionários
homogêneos, ou seja, processos cuja a diferenciação produz processos estacionários. A
diferenciação é definida por ∆yt = yt − yt−1 = (1 − L) yt .
Seja então Zt um processo não estacionário e yt um processo estacionário obtido de

Zt por diferenciação sucessivas. Inversamente, pode-se dizer que Zt é obtido a partir de
yt por integração. Tem-se que
∆d Zt = yt (2.11)
onde d representa o número de diferenciações. O processo estacionário yt pode ser
representado por um modelo ARM A(p, q), logo Φp (L) yt = Θq (L) t , ou então
Φp (L) ∆d Zt = Θq (L) t (2.12)
Dizemos que o modelo Zt é auto-regressivo-integrado-médias móveis, ou ARIM A(p, d, q).
Exemplo 2.7. Seja o processo do passeio aleatório definido por yt = yt−1 + t , onde
t ∼ N ID (0, σ2 ). Obtenha o processo diferenciado de yt .
50
Solução: A série diferenciada é obtida fazendo-se
(1 − L) yt = yt − yt−1 = t
Ou seja, ∆yt = t é o ruı́do branco, que é estacionário por definição.
Exercı́cio 2.7. Considere o modelo yt = 1, 5yt−1 − 0.5yt−2 + t + 0, 6t−1 .
(i) identifique o modelo
(ii) escreva o modelo como um AR (∞).
Uma questão que se apresenta rotineira para um analista de séries temporais é a

identificação do modelo, ou melhor do processo gerador de dados. Para os modelos
ARM A(p, q) a estratégia de idenficação da ordem p e q mais apropriada é através da
função de auto-correlação parcial FACP. Desta forma busca-se a idenficação do modelo
comparando-se a FAC e FACP teóricas com aquelas oriundas do modelo.
As séries temporais que apresentam comportamento não estacionários são diferenci-

adas até que seja identificada a estacionariedade. Os testes de estacionariedade, comu-
mente referidos como testes da raı́z unitária, veremos adiante mais detalhes.
No caso de um ou mais modelos serem selecionados, baseados nos critérios da FAC

e FACP, pode-se investigar qual o modelo apresenta melhor ajuste dentro da amostra.
Infelizmente a medida R2 não é útil para os modelos de séries temporais lineares por
estar relacionado somente aos valores dos parâmetros. Os critérios de seleção mais
apropriados são os critérios de informação de Akaike (1974) [1] e Schwarz (1978) [90].
O critério de Akaike é referido como AIC (Akaike Information Criteria). O critério de
Schwarz é referido como BIC (Bayesian Information Criteria). Estes critérios comparam
o ajuste dentro da amostra, que é medido pela variância dos resı́duos, contra o número
de parâmetros estimados. O critério de Akaike é
AIC (k) = N ln σ̂ 2 + 2k (2.13)
onde k = p + q + 1, σ̂ 2 = N1 N ˆ2t , sendo ˆt os resı́duos do modelo ARMA. Os valores

P
t=1
de p e q que minimizam AIC (k) são as ordens apropriadas do modelo ARM A.
O cirtério de Schwarz (critério BIC) é calculado por
BIC (k) = N ln σ̂ 2 + k ln N (2.14)
Como ln N > 2 para N > 8, a introdução de parâmetros é mais penalizada pelo critério
BIC que pelo critério AIC. Portanto, usando o critério BIC o modelo selecionado
tende a ser mais parciomonioso que aquele oriundo do critério AIC.
A modelagem de séries temporais por modelos lineares ARM A deve seguir as seguintes
etapas:
51
(i) cálculo de estatı́sticas básicas para série temporal;
(ii) comparar o valor de tais estatı́sticas com valores teóricos caso estes sejam adequa-
dos;
(iii) estimar os parâmetros para o modelo sugerido no passo anterior, observando caso
necessário, os critérios AIC e BIC: deve-se buscar modelos que minimizem estes
critérios de informação
(iv) avaliar o modelo usando as medidas diagnósticas: deve-se analisar a série de
resı́duos verificando se as propriedades são coerentes com a distribuição teórica
de t (tipo da distribuição, independência e descorrelação da séries).
(v) caso não esteja adequado reespecificar o modelo;
(vi) usar o modelo para descrever a variável e fazer previsões.
Como dito anteriormente, os modelos ARIM A requerem previamente a identificação
do parâmetro d (ordem de diferenciação) através de testes de estacionariedade. A maio-
ria dos softwares econométricos possuem os procedimentos diagnósticos tais como os
testes de normalidade, independência e as funções de auto-correlações (FAC e FACP).
2.5 Séries financeiras

Esta seção analisa o comportamento das séries financeiras. As séries financeiras ap-
resentam comportamentos tı́picos como fraca dependência linear e forte dependência
não-linear. Além disso, apresentam caudas pesadas ou excesso de curtose. Os testes
aqui descritos têm por objetivo identificar tais caracterı́sticas e os modelos propostos na
literatura buscam descrever estes comportamentos. O objetivo final é que o leitor seja
capaz de especificar um modelo para o comportamento dos retornos financeiros a partir
de testes realizados com os dados empı́ricos.
2.5.1 Séries de retornos

A maior parte dos estudos financeiros concentra-se na análise da série de retornos ao
invés do uso da série de preços. A razão desta preferência, conforme Campbell, Lo e
McKinlay (1997) [19], está relacionada a dois fatos. Em primeiro lugar o retorno de um
ativo financeiro contém as informações que atendem aos interesses dos investidores. Em
segundo lugar a série de retornos possui propriedades estatisticamente mais atrativas
que a série de preços.
O retorno de um ativo entre os instantes de tempo entre t − 1 e t é dado por

Pt − Pt−1
Rt = (2.15)
Pt−1
Ou ainda podemos escrever
Pt Pt
Rt = − 1 ⇒ 1 + Rt =
Pt−1 Pt−1
52
O retorno em k perı́odos entre os intervalos t − k e t é dado por
Pt − Pt−k Pt Pt Pt−1 Pt−k+1
Rt (k) = ⇒ 1 + Rt (k) = = × × ... ×
Pt−k Pt−k Pt−1 Pt−2 Pt−k
Ou ainda
k−1
Y
1 + Rt (k) = (1 + Rt−i ) (2.16)
i=0
O retorno capitalizado continamente significa que os instantes t e t − ∆t tornam-se

muito próximos com ∆t sendo infinitesimal. Neste caso Rt << 1. Definimos então o
log-retorno como:

Pt
rt = ln (1 + Rt ) = ln = ln Pt − ln Pt−1 ∼
= Rt (2.17)
Pt−1
O retorno multiperı́odo capitalizado continuamente entre t − k e t é dado por:
rt (k) = ln (1 + Rt (k)) = ln [(1 + Rt ) (1 + Rt−1 ) . . . (1 + Rt−k+1 )]
ou ainda
rt (k) = ln (1 + Rt ) + ln (1 + Rt−1 ) + . . . + ln (1 + Rt−k+1 )
o que resulta em
rt (k) = rt + rt−1 + . . . + rt−k+1 (2.18)
Definição 2.9. (Fatos estilizados) Os fatos estilizados são regularidades estatı́sticas

observadas em um grande número de séries financeiras de retornos, a partir de estudos
empı́ricos em diversos mercados.
Pode-se resumir os principais fatos estilizados em:
(i) estacionariedade;
(ii) fraca dependência linear e dependência não linear;
(iii) caudas pesadas da distribuição ou excesso de curtose;
(iv) comportamento heterocedástico condicional.
O comportamento heterocedástico condicional reúne caracterı́sticas como aglomera-

dos de volatilidade e efeito alavanca. O efeito alavanca aponta para o efeito do compor-
tamento dos choques. Choques negativos afetam a volatilidade condicional em maior
magnitude que os choques positivos.
Os fatos estilizados serão tratados ao longo desta subseção através de testes es-
tatı́sticos. Como os modelos de volatilidade condiconal constituem um assunto extenso
e são muito relevantes na modelagem das séries de retornos, dedicamos inteiramente a
seção 2.5.1 para a sua análise.
A distribuição dos retornos escrita de forma mais geral envolve a análise das séries
de retornos {rit } onde i = 1, 2, . . . , N representa cada ativo e t = 1, . . . , T . Em vários
53
modelos tal como o CAP M (Capital Asset Pricing Model ) o foco é a análise seccional
(cross-section) onde observam-se os retornos em um instante de tempo {r1t , . . . , rN t }.
Para a análise do comportamento de um ativo especı́fico {rit }Tt=1 . Iremos nos deter
neste caso. É usual o tratamento do retorno como variáveis aleatórias contı́nuas e neste
a função de densidade conjunta é dada por;
f (ri1 , ri2 , . . . , riT ; θ) = f (ri1 ) f (ri2 |r1t ) . . . f (riT |riT −1 . . . r1i )

T
Y
f (ri1 , ri2 , . . . , riT ; θ) = f (ri1 ; θ) f (rit ; rit−1 . . . ri1 ; θ) (2.19)
t=2
O aspecto relevante é a observação de como as distribuições do ativo evoluem no tempo,

ou seja, a especificação da distribuição condicional. Por exemplo, uma das versões do
passeio aleatório RW , que será vista adiante, pressupõe que a distribuição condicional é
igual à distribuição incondicional f (rit |·) = f (rit ). Assim, os retornos são independentes
e consequentemente não previsı́veis.
Exercı́cio 2.8. Uma consideração usual para a distribuição de retornos rt é
rt ∼ N ID µ, σ 2

Portanto, Rt será uma distribuição log-normal iid. Calcule a média e a variância de Rt .
2.5.2 Modelos para as séries de retornos

Os modelos para os retornos das séries financeiras estão associados a sua capacidade
de previsibilidade. Os modelos e a previsibilidade dos retornos constituem fatos intri-
gantes em finanças ao qual muitos pesquisadores têm devotado atenção. Não há uma
conclusão definitiva sobre a questão e o debate acadêmico continua aberto. A análise
da previsibilidade é considerada diante das informações passadas dos retornos e conse-
quentemente da distribuição dos retornos. Seguiremos a classificação de Campbell, Lo e
McKinlay (1997) [19]. Esta classificação baseia-se nos vários tipos de passeio aleatório
e na propriedade martingal. Assim, modelos para os retornos são classificados como
RW 1, RW 2, martingal e RW 3.
Modelo RW 1: O modelo RW 1 é a versão mais simples dentre as apresentadas

acima e pressume que os retornos são normais e iid. Em outras palavras:
ln Pt = β + ln Pt−1 + t (2.20)
onde t ∼ N ID (0, σ 2 ). Os logarı́tmos dos preços constituem um passeio aleatório com

tendência (drift). Escrito de outra forma, temos:
rt = β + t (2.21)
Sob esta condição não há possibilidade nenhuma de previsão quer seja na média ou nos
momentos superiores. Este modelo considera que a distribuição dos retornos é a mesma
em qualquer instante t. O modelo RW 1 contraria dois fatos estilizados quais sejam: a
54
distribuição dos retornos não é normal e os retornos apresentam variância condicional
variando com o tempo.
Modelo RW 2 : O pressuposto de que os retornos são iid no modelo RW 1 é ques-

tionável como visto anteriormente. A hipótese de que os retornos são identicamente
distribuı́dos é relaxada no modelo RW 2. Porém a condição de independência é man-
tida. Então podemos escrever:
ln Pt = β + ln Pt−1 + t (2.22)
onde t ∼ IN ID (0, σt2 ) onde IN ID significa independente não identicamente dis-
tribuı́do. Ou ainda:
rt = β + t (2.23)
O modelo RW 2 acomoda a possibilidade da variância ser diferente ao longo do tempo
que é uma caracterı́stica empı́rica das séries de retorno.
Modelo martingal: O modelo martingal está relacionado ao jogo justo onde considera-
se que é impossı́vel lucrar em um jogo dadas as informações passadas. Ou melhor, o
processo martingal considera que a melhor previsão para o valor da variável aleatória
amanhã é o seu valor hoje. Formalmente definimos o modelo martingal abaixo.
Definição 2.10. Seja {rt }Tt=1 um processo descrito pela variável aleatória rt , dizemos
que rt é martingal com relação às informações por ele geradas se:
(i) E (|rt |) < ∞
(ii) rt contém todas as informações geradas pelo seu processo
(iii) E (rt |rt−1 , rt−2 . . .) = rt−1
A condição (iii) estabelece que a previsão do valor de rt dada as informações em t − 1
é o seu valor em t − 1, ou seja, rt−1 . Ainda podemos dizer que E (rt − rt−1 |rt−1 ) = 0,
então é usual denominá-lo de diferença martingal. Esta é a interpretação do jogo justo
onde os ganhos incrementais em qualquer instante de tempo, dada as informações pas-
sadas do jogo, é zero.
Exercı́cio 2.9. Considere o modelo rt = β + σt t onde t ∼ N ID (0, 1) e σt2 = ω0 +

2
ω1 rt−1 . Mostre que o processo rt − β é uma diferença martingal.
Modelo RW 3: O modelo RW 3 relaxa a hipótese de independência do modelo RW 2
considerando a dependência e a descorrelação
dos incrementos. Assim, pode-se dizer que
2 2
Cov (t , t−k ) = 0, porém Cov t , t−k 6= 0. Este processo é descorrelatado mas não
independente pois os quadrados dos resı́duos são correlacionados.
Exercı́cio 2.10. Seja o modelo ln Pt = β + ln Pt−1 + νt onde νt = c2t−1 + t , onde

t ∼ N ID (0, σ2 ), e c é constante. Mostre que:
(i) Cov (νt , νt−k ) = 0
(ii) Cov (rt , rt−k ) = 0
55
2.5.3 Testes para estacionariedade
Na seção 2.3 vimos o conceito de estacionariedade. Entretanto apresentamos este con-
ceito sob o aspecto qualitativo. Agora necessitamos formalizar os testes estatı́sticos que
permitem identificar a estacionariedade de uma série de retorno. O teste mais usual
para verificação da estacionariedade é o teste da raı́z unitária. Considere inicialmente o
modelo
yt = yt−1 + t (2.24)
onde t ∼ RB (0, σ 2 ). Já vimos que o processo yt é um passeio aleatório. Se o coeficiente
de yt−1 do processo que se está investigando é de fato 1 tem-se o que se chama de raı́z
unitária e fica caracterizada a não estacionariedade. Seja então
yt = ρyt−1 + t (2.25)
A equação (2.25) pode ser expressa de outra forma como
∆yt = yt − yt−1 = (ρ − 1) yt−1 + t
ou ainda por
∆yt = δyt−1 + t (2.26)
onde δ = ρ − 1 e a equação (2.26) define a série yt diferenciada. Na série diferen-
ciada a hipótese da raı́z unitária é δ = 0 ou ρ = 1 e neste caso ∆yt = t , ou seja, a
primeira diferença de yt é RB, que é estacionário. A série yt é dita integrada de ordem 1.
Testes DF e ADF
Os testes da raı́z unitária são conhecidos na literatura por DF (Dickey e Fuller, seus
autores), e ADF (Augmented Dickey e Fuller). O teste DF requer a verificação das
regressões descritas abaixo:
∆yt = δyt−1 + t (2.27)
∆yt = β1 + δyt−1 + t (2.28)
∆yt = β1 + β2 t + δyt−1 + t (2.29)
As hipóteses nulas para as regressões acima são respectivamente:
(i) H0 : δ = 0, yt é um passeio aleatório
(ii) H0 : δ = 0, yt é um passeio aleatório com drift
(iii) H0 : δ = 0, yt é um passeio aleatório com drift e tendência

A hipótese alternativa para cada um dos casos acima é bilateral, HA : δ 6= 0.
Se o ruı́do t é auto-correlacionado os testes anteriores devem ser modificados para
m
X
∆yt = β1 + β2 t + δyt−1 + αi ∆yt−i + t (2.30)
i=1
Este é o teste ADF e a hipótese nula é a mesma, ou seja, H0 : δ = 0 ou ρ = 1.
56
Dickey e Fuller (1979) [27] provaram que a estatı́stica de teste não é a estatı́stica-t
convencional. Eles definiram os valoes crı́ticos com base na simulação de Monte-Carlo.
Mais recentemente MacKinnon (1991) [68] apresentou valores crı́ticos e p-valores para
um espectro maior de cenários.
Teste Phillips-Perron (PP)
O teste PP utiliza uma correção na estatı́stica de teste baseado em um ajuste não

paramétrico na forma desta estatı́stica, o qual corrige a presença de heterocedasticidade
e/ou autocorrelação nos resı́duos. As regressões são as mesmas descritas acima sem a
presença do somatório do teste ADF. Os valores crı́ticos permanecem os mesmos.
2.5.4 Testes para autocorrelação

Já vimos anteriormente que os testes Box-Pierce e Ljung-Box são utilizados para detec-
tar autocorrelação. Iremos detalhar os procedimentos para realizá-los.
Testes Box-Pierce e Ljung-Box
Primeiramente escolha o lag k para verificar a autocorrelação. As hipósteses dos testes

são:
H0 : ρ1 = ρ2 = . . . = ρk = 0
HA : pelo menos um ρ não é nulo
Calcule as estatı́sticas:
k
X
Q (k) = N ρ̂2j (ˆ) (2.31)
j=1
k
X
LB (k) = N (N + 2) (N − j)−1 ρ̂2j (ˆ) (2.32)
j=1
onde ˆt representa o resı́duo do modelo e ρ̂j (ˆ) é dado por

PN
t=j+1
ˆt ˆt−j
ρ̂j (ˆ) = PN 2
t=1
ˆt
para j = 1, 2, . . .. Em um modelo ARM A (p, q) as estatı́sticas em (2.31) e (2.32)

distribuem-se como uma qui-quadrado com k − p − q graus de liberdade. Escolha o
nı́vel de significância α. Rejeite H0 se as estatı́sticas acima forem superiores que o valor
crı́tico τ = χ2α (k − p − q). Os testes acima são plenamente válidos se a distribuição é
normal e estacionária. Em caso de uma (ou as duas) premissa(s) não se verificar(em) a
potência do teste fica reduzida.
57
2.6 Volatilidade condicional
Na teoria de finanças a incerteza ocupa um espaço preponderante. O risco, que quan-
tifica a incerteza, está presente em muitos modelos dentre os quais podemos mencionar
o CAPM (Capital Asset Pricing Model ). Em geral a noção de risco está associada à
variânica dos retornos (como no CAPM) ou ao seu desvio padrão que se define como
sendo a volatilidade histórica da série de retornos. A volatilidade é um dos parâmetros
de maior relevância no apreçamento de opções. É uma variável não observável direta-
mente. Além disso, está relacionada a algumas propriedades ou a alguns fatos estilizados
que são bem estabelecidos na literatura. Pode-se citar, por exemplo, que a volatilidade
em séries financeiras não é constante ao longo do tempo, e portanto responsável pelo seu
comportamento heterocedástico. Perı́odos de alta volatilidade são seguidos por perı́odos
de alta volatilidade. Já aos perı́odos de baixa volatilidade seguem-se perı́odos amenos.
Isto confere a propriedade a que a litereatura se refere como aglomerados de volatilidade.
Estas caracterı́sticas peculiares da volatilidade são capturadas pelos modelos heterocedásticos

condicionais ARCH (Autoregressive Conditional Heterocedasticity) proposto por En-
gel (1982) [36] e extendido por Bollerslev (1986) [10] e então denominado de GARCH
(Generalized Autoregressive Conditional Heterocedasticity). Não obstante, algumas pro-
priedades do comportamento da volatilidade ficaram ao largo dos modelos GARCH
clássicos. Por exemplo, o seu comportamento assimétrico não é capturado pelos mod-
elos GARCH. Esta assimetria refere-se ao comportamento da volatilidade frente aos
diferentes efeitos de choques positivos ou negativos. Os choques negativos trazem maior
impacto à volatilidade. Estas constatações trouxeram novos modelos dentro da cate-
goria de modelos GARCH e foram denominados GARCH não lineares. Assim é que a
pesquisa no final da década de 80 e inı́cio dos anos 90 foi profı́cua em tais modelos.
Além dos modelos de volatilidade, acima mencionados, será apresentado o modelo de
volatilidade estocástica.
Até o momento os modelos estuados eram da forma
yt = E (yt |It−1 ) + νt (2.33)
onde It−1 representa o conjunto de informações2 até o instante t−1 e νt é o resı́duo (aquilo
que não é explicado pelo modelo) que é homocedástico condicional e incondicionalmente,
isto é
E νt2 = E νt2 |It−1

Agora admitiremos que a variância condicional varie com o tempo. Este é um dos
fatos estilizados das séries financeiras. Aos perı́odos de alta volatilidade seguem-se
perı́odos de volatilidade alta. Aos perı́odos de baixa volatilidade seguem-se momentos
de baixa volatilidade. A figura 2.5 mostra a presença dos aglomerados de volatilidade
na série de preços do petróleo. O que esta seção trata essencialmente é a descrição deste
comportamento. Então podemos escrever a volatilidade condicional como
E νt2 |It−1 = ht

(2.34)
2
It−1 são as informações contidas e reveladas pela série yt até o instante t − 1, ou seja
yt−1 , yt−2 , . . . , y0 .
58
onde ht representa a variância do resı́duo no instante t dadas as informações até o
instante t − 1. Assim o modelo em (2.31) torna-se
1
yt = E (yt |It−1 ) + ht2 t (2.35)
onde t ∼ N ID (0, 1). Assim podemos dizer que νt |It−1 ∼ N (0, ht ).
2.6.1 Modelos de volatilidade condicional lineares

Esta seção trata de alguns modelos da famı́lia GARCH que foram denominados GARCH
lineares por não capturarem os efeitos assimétricos dos choques. Tratam-se pricipale-
mente dos modelos clássicos propostos por Engle (1982) [36] e Bollerslev (1986) [10].
Modelo ARCH
O modelo de Engle (1982) [36] considera que a volatildade em t é uma função linear do
quadrado do choque em t − 1, assim denominado ARCH(1).
1
yt = ht2 t (2.36)
2
ht = ω + αyt−1
onde ω > 0 e α ≥ 0 são condições que garantem a positividade de ht . Mais genericamente
pode-se considerar o modelo ARCH(1) escrito como na equação (2.36)
yt = a0 + a1 yt−1 + νt (2.37)
1
νt = ht2 t
2
ht = ω + ανt−1
onde t e νt−1 são independentes.
O modelo ARCH(1) pode ser analisado sob a ótica de um processo autoregressivo em

νt2 . Somando e subtarindo νt2 na variância ht , temos:
ht + νt2 = ω + ανt−1
2
+ νt2
2
νt2 = ω + ανt−1 + ut (2.38)
onde ut = νt2 − ht = ht 2t − ht = ht (2t − 1). Ainda E (ut |It−1 ) = E (ht ) E (2t − 1) = 0.
Em (2.38) o processo para νt2 é estacinário de segunda ordem se α < 1. Neste caso os
momentos em t e t − 1 são iguais, ou seja
E νt2 = ω + αE νt−1 2

ω
E νt2 =

(2.39)
1−α
Ainda note que E (νt ) = 0. Observe também em (2.36) que valores grandes de yt−1
(positivos ou negativos) são seguidos por valores grandes de yt . O mesmo ocorre para
59
valores pequenos. Ou seja, o modelo captura os aglomerados de volatilidade. Além
disso, a curtose de yt é dada por
3 (1 − α2 )
Ky = (2.40)
1 − 3α2
onde 1 > 3α2 e Ky será maior que 3 o que significa que o modelo captura o excesso de
curtose, um dos fatos estilizados das séries de retornos financeiros.
Exercı́cio 2.11. Mostre que para o modelo em (2.36) que a curtose é dada por
3 (1 − α2 )
Ky =
1 − 3α2
Exercı́cio 2.12. Seja o modelo dado em (2.37):
(i) calcule a média condicional de yt
(ii) calcule a variância condicional de yt
(iii) calcule a média incondicional de yt
(iv) calcule a variância incondicional de yt
Exercı́cio 2.13. Seja o modelo em (2.36).
(i) escreva o modelo AR(1) para yt2
(ii) calcule a FAC para yt2
Uma extensão natural do modelo ARCH(1) em (2.36) é o modelo ARCH(q) onde a

variância é escrita como:
2 2 2
ht = ω + α1 yt−1 + α2 yt−2 + . . . + αq yt−q (2.41)
Da mesma forma que anteriormente o modelo pode ser escrito como um AR(q) para yt2 .
Neste caso a variância incondicional de yt será:
ω
E yt2 =

(2.42)
1 − α1 − . . . − αq
uma vez que sejam atendidas as condições de estacionariedade de segunda ordem.
Exercı́cio 2.14. Mostre que a variância incondicional de yt é dada pela equação (2.42).
Para trabalhar com os modelos ARCH, modelando a volatilidade condicional das

séries de retorno, deve-se utilizar grandes valores de q o que torna os modelos poucos
parciomoniosos trazendo complexidade para a estimação dos parâmetros. Esta com-
plexidade é oriunda das restrições que se deve impor aos parâmetros para evitar a não
negatividade da variância e buscando a estacionariedade do modelo.
Modelo GARCH
60
Bollerslev (1986) [10] propôs o modelo GARCH (Generalized Autoregressive Conditional
Hetercedasticity) através da inclusão da variância do instante anterior ao modelo ARCH.
O objetivo foi o de obter um modelo mais parciomonioso e sem os problemas de es-
timação do modelo ARCH. Seja então o modelo na forma da equação (2.36) para o
modelo GARCH(1,1):
1
yt = ht2 t (2.43)
2
ht = ω + αyt−1 + βht−1
onde ω > 0, α > 0 e β ≥ 0 garantindo que ht ≥ 0. Fazendo substituições recursivas
do termo ht−1 em (2.43) mostra-se a equivalência deste modelo com o modelo ARCH(∞).
Acrescentando yt2 em ambos os lados da expressão de ht temos que

2
yt2 = ω + αyt−1 + βht−1 − ht + yt2
yt2 = ω + αyt−1
2
+ βht−1 + ut
onde ut = yt2 − ht e ut−1 = yt−1
2
− ht−1 , fazendo a substituição
yt2 = ω + αyt−1
2 2

+ β yt−1 − ut−1 + ut
yt2 = ω + (α + β) yt−1
2
− βut−1 + ut (2.44)
E o processo GARCH(1,1) pode ser escrito como um ARMA(1,1) que será estacionário
de segunda ordem se α + β < 1.
Exercı́cio 2.15. Seja o modelo descrito em (2.43)
(i) calcule a média e a variância condicionais de yt
(ii) calcule a média e a variância incondicionais de yt
(iii) calcule a autocorrelação ρ1 do modelo em (2.44)

Exercı́cio 2.16. Mostre que a curtose de yt no modelo em (2.43) é dada por
3 1 − (α + β)2

Ky =
1 − (α + β)2 − 2α2
O modelo GARCH pode ser extendido para ordens superiores. Assim é modelo
GARCH(p,q) dado por
q p
X X
2
ht = ω + αi yt−i + βj ht−j (2.45)
i=1 j=1
Alternativamente o modelo pode ser escrito como:
ht = ω + α (L) yt2 + β (L) ht (2.46)
onde
α (L) = α1 L + . . . + αq Lq
61
β (L) = β1 L + . . . + βp Lp
O modelo em (2.45) ou (2.46) será estacionário de segunda ordem caso as raı́zes do
polinômio 1 − α (L) − β (L) estiverem fora do cı́rculo unitário. A seleção da ordem p, q
do modelo deve ser feita minimizando os critérios de informação tais como o AIC e BIC
descritas pelas equações (2.13) e (2.14). Na maior parte dos casos práticos o modelo
GARCH(1,1) atende as necessidades de modelagem.
Estimação do modelo GARCH(1,1)
O modelo GARCH(1,1) na equação (2.43) está aqui reescrito

1
yt = ht2 t (2.47)
2
ht = ω + αyt−1 + βht−1
onde são observadas as mesmas restrições dos parâmetros e t ∼ N ID (0, 1).
A função distribuição conjunta do modelo é dada por
f (y1 , y2 , . . . , yN ) = f (y1 ) f (y2 ; y0 , y1 ) . . . f (yN ; y0 , . . . , yN −1 )

N
Y
f (y1 , y2 , . . . , yN ) = f (y1 ) f (yt ; y0 , . . . , yt−1 ) (2.48)
t=2
A função verossimilhança do modelo é

N
X
L (Θ; y) = ln f (y1 , y2 , . . . , yN ) = ln f (y1 ) + ln f (yt ; y0 , . . . , yN −1 )
t=2
onde Θ representa o vetor dos parâmetros Θ = [ω, α, β]. E a função de verossimilhança

dado y1 será:
XN
L (Θ; y) = ln f (yt |y0 , . . . , yN −1 ) (2.49)
t=2
Por outro lado temos que a função densidade de t é

1 1 2
f (t |yt−1 ) = √ exp − t
2π 2
Da equação (2.47) temos que
yt 1
g (yt ) = 1 e g0 (yt ) = 1 (2.50)
ht2
ht 2
E a função f (yt ; y0 , . . . , yN −1 ) será escrita por
f (yt ; y0 , . . . , yN −1 ) = f (g (yt )) g0 (yt ) (2.51)
Usando a equação (2.50) na equação (2.51), teremos:

yt 1
f (yt ; y0 , . . . , yN −1 ) = f 1 1 (2.52)
h 2 ht2
62
Levando a equação (2.52) na equação (2.49), temos
N
! N
X yt X − 12
L (Θ; y) = ln f 1 + ln ht (2.53)
t=2 ht 2
t=2

1/2 y2
Mas f yt /ht = √1 exp − 12 htt e o seu logarı́tmo é
2π
!
yt 1 1 y2
ln f 1 = − ln 2π − t
ht2 2 2 ht
Levando este resultado em (2.53), finalmente teremos:
N N
1 yt2

X 1 1X
L (Θ; y) = − ln 2π − − ln ht
t=2
2 2 ht 2 t=2
N N
N 1X 1 X yt2
=− ln 2π − ln ht − (2.54)
2 2 t=2 2 t=2 ht
Os parâmetros em Θ são obtidos pela maximização da função L (Θ; y) em (2.54).
A suposição em (2.47) de que t ∼ N ID (0, 1), pode ser modificada. Bollerslev (1987)
[11] sugere o uso de distribuição com caudas mais pesadas para capturar o excesso de
curtose. Considerando uma variável aleatória x com distribuição t de Student com ν
graus de liberdade (veja equação (1.33)) e ainda t = √ x , a função densidade de t
ν(ν−2)
é
− ν+1
Γ ν+1

2t
2
2
f (t ; ν) = p 1 + (2.55)
Γ ν2 ν−2

(ν − 2) π
R∞
para ν > 2 onde Γ(z) = 0 y z−1 e−y dy. E seguindo as mesmas etapas anteriores chegare-
mos a
N − ν+1
Γ ν+1

yt2

Y
2 1 2
f (yt ; y0 , . . . , yN −1 ) = p 1 + (2.56)
Γ ν2 (ν − 2) π h1/2 (ν − 2) ht

t=2 t
Se o valor dos graus de liberdade fôr uma variável exógena tem-se para a função verossim-
ilhança:
N
yt2

X ν+1 1
L (Θ; y) = − ln 1 + + ln ht (2.57)
t=2
2 (ν − 2) ht 2
Se o número de graus de liberdade estiver sendo estimado, acrescente-se à função ante-

rior a parcela que se segue ao produtório em (2.56).
63
2.6.2 Modelos de volatilidade condicional não lineares
Os efeitos dos choques na volatilidade condicional são diferentes para choques positivos
ou negativos. Este é um fato estilizado. O efeito na volatilidade condicional de um
choque negativo é mais acentuado do que o de um choque positivo. Entretanto os
modelos ARCH e GARCH nas equações (2.36) e (2.43) respectivamente, consideram o
choque em t−1 elevado ao quadrado. Neste caso, os modelos são indiferentes ao sinal do
choque e o efeito constatado empiricamente não é capturado pelos modelos. Este efeito
foi observado por Black (1976) [8]. Quando a ação de uma empresa cai, a relação entre
a dı́vida e o capital próprio aumenta, sugerindo um aumento da alavancagem. Simul-
tanearmente a ação fica mais volátil. Estes dois fatos ficaram associados e o fenômeno
ficou conhecido como efeito alavanca. Os modelos GARCH não lineares, que serão ap-
resentados, foram estabelecidos com a finalidade de capturar o efeito alavanca.
1
Nos modelos que se seguem considere yt = ht2 t e a variância ht será especificada em
cada modelo.
Modelo EGARCH
O modelo EGARCH (ou exponential GARCH) foi proposto por Nelson (1991) [79].
O EGARCH(1,1) é descrito por:
ln ht = ω + αyt−1 + γ (|yt−1 | − E (|yt−1 |)) + β ln ht−1 (2.58)
que ainda pode ser escrito por
ln ht = ω + g (yt−1 ) + β ln ht−1 (2.59)
onde α, ω, β e γ são constantes e g (yt ) é dada por
g (yt ) = αyt + γ (|yt | − E (|yt |)) (2.60)
O uso do logarı́tmo da variância no modelo EGARCH flexibiliza as restrições de posi-

tividade imposta aos parâmetros. Vejamos os efeitos em ht para choques positivos ou
negativos em t − 1:
(
(α + γ) yt−1 − γE (|yt−1 |) para yt−1 > 0
g (yt−1 ) =
(α − γ) yt−1 − γE (|yt−1 |) para yt−1 < 0
Note que a assimetria dos choques ocorre se γ 6= 0 e a presença do efeito alavanca ocorre
quando γ < 0. A função g (yt ) possui média zero pois tanto yt como |yt | − E (|yt |)
possuem média zero. A assimetria dos choques é garantida
q pela especificação da função
g (yt ) em (2.60). Se t ∼ N ID (0, 1) então E (||) = π2 . Se t é uma distribuição t de
Student padronizada dada em (2.55), então
√
2 ν − 2 Γ ((ν + 1) /2)
E (|t |) = √
(ν − 1) Γ (ν/2) π
Modelo TARCH
64
O modelo TARCH (Threshold ARCH) também foi concebido para considerar as diferenças
na volatilidade condicional causadas por choques positivos e negativos. Na literatura
por vezes este modelo ora aparece com o nome GJR devido a Glosten, Jagannathan e
Runkle (1993) [42] ora simplesmente TARCH devido a Zakoı̈an (1994) [103]. Essencial-
mente os dois modelos têm a mesma finalidade e aqui serão tratados indistintamente de
TARCH. O modelo TARCH(1,1) é escrito por
2 2
ht = ω + αyt−1 + βht−1 + γyt−1 (1 − I (yt−1 > 0)) (2.61)
Se o choque em t − 1 fôr positivo, yt−1 > 0, então I (yt−1 ) = 1 e o impacto na variância

será devido a α. Caso o choque seja negativo I (yt−1 = 0) o impacto na variância será
α + γ. O efeito assimétrico fica caracterizado se γ 6= 0 e se γ > 0 fica constatado o efeito
alavanca. O modelo mais geral como TARCH(p,q) pode ser escrito por
q p r
X X X
2 2
ht = ω + αi yt−1 + βj ht−j + γk yt−k (1 − I (yt−k > 0)) (2.62)
i=1 j=1 k=1
onde r representa a ordem do choque que impacta a volatilidade.
Modelo QGARCH
O modelo QGARCH (ou quadratic GARCH) também captura os efeitos de choques

de diferentes sinais. Foi proposto por Sentana (1995) [91] e pode ser escrito por
2
ht = ω + γyt−1 + αyt−1 + βht−1 (2.63)
Deferencia do GARCH tradicional pela introdução do termo γyt−1 . O modelo em (2.63)

pode ser escrito por
γ 2
ht = ω + + α yt−1 + βht−1 (2.64)
yt−1
Para γ < 0 os choques negativos causarão um impacto em ht superior aos choques pos-
itivos. Neste modelo o tamanho do choque também é capturado como influenciando a
variância.
Além dos modelos aqui apresentados existem muitos outros que tornam a famı́lia
GARCH muito extensa. Citamos alguns outros modelos dentro dos GARCH não lin-
eares:
(i) LSTGARCH (Logistic Smooth Transition Garch) - Enquanto no modelo TARCH

o efeito do choque positivo para o negativo é devido à mudança abrupta de α para
α + γ, neste modelo há uma mudança suave de uma situação para outra através da
função logı́stica. Foi proposto por Hagerud (1997) [45] e Gonzáles-Rivera (1998)
[43].
(ii) GARCH com mudança de regime - Outros modelos de volatilidade condicional

levam em consideração a possibilidde de mudança de regime. Rabemananjara e
Zakoı̈an (1993) [84] argumentam que choques negativos aumentam a volatilidade
65
condicional somente se o choque negativo (em valor absoluto) é grande em mag-
nitude. Observaram que choques negativos e pequenos têm menor impacto sobre
a volatilidade que choques positivos de magnitude igual. Nesta linha de trabalho
podemos ainda citar Fornari e Melle (1997) [38] e Anderson, Nam e Vahid (1999)
[2].
2.6.3 Teste para GARCH linear

O teste para detectar heterocedasticidades condicional ou efeito ARCH nos resı́duos
de uma regressão foi proposto por Engle (1982) [36]. A volatilidade condicional será
constante se todos os αi do modelo ARCH(q) em (2.41), aqui reescrito
q
X
2
ht = ω + αi yt−i
i=1
forem nulos.
Teste ARCH-LM
Fazendo-se uma regressão em que

q
X
ê2t =ω+ αi ê2t−i + νt (2.65)
i=1
onde êt são os resı́duos estimados da regressão, podemos testar a hipótese nula:
H0 : α1 = α2 = . . . = αq = 0 (sem efeito ARCH)
HA : presença do efeito ARCH

O teste é baseado no princı́pio dos multiplicadores de Lagrange. A estatı́stica LM é
LM = N × R2 distribuindo-se assitoticamente como uma χ2α (q) sendo α o nı́vel de
significância.
2.6.4 Teste para GARCH não linear

Os testes propostos por Engle e Ng (1993) [37] verificam a presença do efeito assimétrico
dos choques na volatilidade.
Teste do sinal do choque
Este teste verifica se magnitude do quadrado do choque em t é afetado pelo sinal do

choque em t − 1. Considere uma variável dummy Nt−1 em que Nt−1 = 1 se o choque em
t − 1 é negatio, isto é yt−1 < 0, e zero caso contrário. Faça a regressão
ê2t = α0 + α1 Nt−1 + νt (2.66)
Considere as hipóteses:
H0 : α1 = 0
66
HA : α1 6= 0
Para α1 = 0 não existe assimetria ou efeito alavanca. A estatı́stica de teste é a estatı́stica
t tradicional. Rejeite H0 se estatı́stica t > tα (N − 2) onde α é o nı́vel de significância e
N o tamanho da série.
Teste do tamanho do choque
Neste teste é verificado se além do sinal, o tamanho do choque em t − 1 afeta o quadrado

do choque em t. Faça a regressão
ê2t = α0 + α1 Nt−1 êt−1 + νt (2.67)
Nesta regressão é investigado se o choque negativo e se sua magnitude afetam ê2t e con-
sequentemente a variância condicional, o teste é analisado sob a estatı́stica t.
Faça também a regressão

ê2t = α0 + α1 Pt−1 êt−1 + νt (2.68)
onde Pt−1 = 1 − Nt−1 . Neste caso investiga-se se o sinal e a magnitude do choque posi-
tivo em t − 1 afetam simultâneamente a variância condicional.
Também pode-se realizar o teste conjunto proposto em (2.66), (2.67) e (2.68). Faça
a regressão
ê2t = α0 + α1 Nt−1 + α2 Nt−1 êt−1 + α3 Pt−1 êt−1 + νt (2.69)
As hipóteses são
H0 : α1 = α2 = α3 = 0
HA = pelo menos um αi 6= 0
A estatı́stica de teste é LM = N × R2 e é assitoticamente distribuı́da sob uma dis-
tribuição χ2 (3). Rejeite H0 caso LM > χ2α (3) sendo α o nı́vel de significância.
Variantes do teste de Engle e Ng (1993) [37] podem ser facilmente consideradas para os
diversos modelos GARCH não lineares.
2.6.5 Testes de adequação do modelo

A suposição de que os resı́duos são independentes e identicamente distribuı́dos deve ser
testada após o ajuste do modelo de variância condicional. Assim os resı́duos padroniza-
dos ˆt nos modelos (2.36) e (2.43) devem ser testados. Verifique a independência através
do teste Brock, Dechert, Scheinkman e LeBaron (1986) [16]. Verifique também a pre-
sença de descorrelação serial entre os resı́duos estimados ao quadrado (ˆ2t ) através dos
testes de McLeod e Li (1983) [72] ou através do teste ARCH-LM de Engle (1982) [36].
Estes testes apontam para presença do efeito ARCH remanescente no modelo ajustado.
Obviamente o teste para identificar o tipo da distribuição de ˆt deve ser analisado sob a
hipótese da distribuição adotada para os resı́duos.
67
2.7 Volatilidade estocástica
Os modelos até então analisados consideram que a volatilidade em t é função dos choques
e volatilidades passados. Portanto, dadas as informações em t − 1 a volatilidade condi-
cional é determinı́stica. Além deste fato, os choques na série yt e na volatilidade ht
possuem a mesma natureza.
No modelo de volatilidade estocástica os choques simultâneos na média da série yt e

na volatilidade ht são governados por processos descorrelatados. O modelo de volatil-
idade estocástica foi proposto por Taylor (1986). Este modelo recebeu pouca atenção
devido às dificuldades de estimação. No entanto, com a evolução computacional e a
redução do tempo de processamento, novas técnicas de estimação têm sido utilizadas
recentemente. Desta forma, o modelo de volatilidade estocástica tem recebido especial
atenção principalmente no que se refere a metodologias de estimação.
O modelo pode ser escrito como:

yt = σt t (2.70)
σt2 = k eht
ht = γht−1 + ηt

onde t ∼ N ID (0, 1), ηt ∼ N ID 0, ση2 , |γ| < 1, E (t ηt−s ) = 0 para s ≥ 0 e k é um
fator de escala. Isto significa que o processo seguido por ht é estacionário.
Exercı́cio 2.17. Seja o modelo de volatilidade estocástica formulado em (2.70).

(i) calcule a média e variância incondicionais de ht
(ii) calcule a média e variância condicional de yt
(iii) calcule a média e a variância incondicional de yt
(iv) calcule o quarto momento de yt e a curtose Ky
(v) calcule os demais momentos pares de yt , isto é, o sexto, oitavo, ... e o 2m-ésimo
momento.
(vi) calcule a covariância de yt
(vii) calcule a correlação de yt2

Comparando os resultados do exercı́cio 2.15 (iii) e do exercı́cio 2.17 (vii) observamos
que os modelos GARCH(1,1) e volatilidade estocástica possuem FACs que são um de-
caimento exponencial para zero. Veja em Carnero, Pena e Ruiz (2004) [20]. um estudo
comparativo entre os modelos GARCH e volatilidade estocástica. A maior diferença
entre os modelos GARCH e volatilidade estocástica recai sobre a estimação. No mod-
elo GARCH a estimação é feita pela maximização da verossimilhança. A função de
verossimilhança é construı́da a partir de informações passadas de yt . No modelo de
volatilidade estocástica yt |It−1 não pode ser construı́da a partir das informações pas-
sadas de yt uma vez que ht está sujeita a um processo de choques diferentes de yt .
68
Dentre as metodologias de estimação para o modelo de volatilidade estocástica podemos
mencionar:
(i) método dos momentos
(ii) métodos de máxima verossimilhança, através de simulação numérica usando amostragem

ponderada e Monte-Carlo cadeia de Markov (veja Shepard e Pitt (1997) [92], Sand-
man e Koopman (1998) [87], Polson, Jacquier e Rossi (2002) [83] e Kim, Shephard
e Chibb (1998) [61]).3
(iii) método de quase-máxima verossimilhança (QMLE) (veja Nelson (1988) [78], Har-
vey, Ruiz e Shephard (1994) [50]). Em Ruiz (1994) [85] veja que o QMLE é
consistente e assintoticamente normal.
(iv) métodos de linearização
O método de quase máxima verossimilhança está implementado no software STAMP.

O modelo realiza a estimação dos componentes não observáveis através do filtro de
Kalman dentro da abordagem da metodologia espaço-estado (veja Durbin e Koopman
(2002) [33] e Harvey (1989) [49]).
Reescrevemos o modelo da equação (2.70) tal qual foi implementado no software acima
(veja Koopman, Harvey e Doornik (2000) [65]). Combinando a primeira e a segunda
equações temos:
1
yt = k 2 t exp (ht /2) (2.71)
ht = γht−1 + ηt
Elevando ao quadrado a equação e tomando o logarı́tmo, temos:
ln yt2 = ln k + ln 2t + ht
Somando e subtraindo E (ln 2t )
ln yt2 = ln k + E ln 2t + ln 2t − E ln 2t + ht

ln yt2 = κ + ht + ξt (2.72)
onde ξt = ln 2t − E (ln 2t ) e κ = ln k + E (ln 2t ). Observe que não há necessidade de
assumir uma distribuição particular de t . O método de quase-máxima verossimilhança
ignora qual a correta distribuição de ln yt2 ou ξt e adota como sendo normalmente dis-
tribuı́da. Fuller (1996) [40] propôs a seguinte transformação para yt :
∼ cs2y
ln yt2 = ln yt2 + cs2y −

para t = 1, . . . , N
yt2 + cs2y
onde s2y é a variância amostral de yt e c é uma constante adotada como 0, 02 em vários

estudos, veja Breidt e Carriquiry (1996) [15] e Bollerslev e Wright (2001) [12].
3
Broto e Ruiz (2002) [17] apresentam uma resenha sobre as metodologias de estimação do modelo
de volatilidade estocástica.
69
2.8 Aplicações
2.9 Resumo e considerações finais

O segundo capı́tulo deste texto foi dedicado a uma breve introdução à econometria de
séries financeiras. Este é um capı́tulo que é pouco usual em textos dedicados as disci-
plinas de processos estocáticos, cálculo estocástico e afins. O objetivo deste capı́tulo é
o de fazer uma ligação entre o será apresentado no futuro e a disciplina de econometria.
Os conceitos da econometria clássica foram gradativamente ampliados e hoje pode-se
dizer que há uma disciplina de econometria de séries financeiras que é uma extensão dos
modelos Box-Jenkins para séries temporais. Os modelos originais ARCH/GARCH de
Engle (1982) e Bollerslev (1986) expandiram-se enormemente gerando modelos que hoje
são referenciados como modelos da famı́lia GARCH. Este modelos constituem o ponto
mais relevante da modelagem de séries financeiras. Destacamos atenção aos modelos de
volatilidade estocástica que mais recentemente têm sido muito utilizados e revisitados
por pesquisadores que buscam solucionar os problemas referentes à sua estimação. Os
resultados favoráveis têm possibilitado o seu uso mais frequente.
A relevância dos conhecimentos aqui apresentados está no fato de que os modelos de

preços para tı́tulos, ações, commodities, etc necessitam ser estimados para validar sua
adequação aos dados empı́ricos históricos. Da mesma forma, os derivativos embutem
em seus preços um prêmio de risco que pode ser estimado similarmente. Essencialmente
uma série histórica financeira é uma realização de um processo estocástico. O mod-
elo assim ajustado a esta realização pode ser útil em simulações e previsões futuras da
variável modelada. A finalidade destas previsões são variadas sendo úteis, inclusive,
para o apreçamento de derivativos através da simulação de Monte-Carlo, por exemplo.
A comparação da adequação de dois modelos diferentes a uma determinada realização

(série histórica da variável preço) deve considerar diferentes aspectos. Devem ser com-
parados: (i) os critérios de informação AIC e BIC, (ii) a verossimilhança dos modelos,
(iii) os êrros de previsão dentro e fora da amostra (iv) a estrutura a termo de preços
e volatilidades. Somente após a ponderação destes diferentes aspectos deve-se optar
por um dos modelos. Em suma, busca-se na análise de um processo estocástico, mode-
los capazes de reproduzir os principais fatos estilizados presentes nas séries financeiras
empı́ricas, tornando-os aptos a fazer previsões na suposição de que tais fenômenos são
permanentes e ocorrerão no futuro.
2.10 Apêndice - Função de Autorcorrelação Parcial

2.10.1 Função de Autocorrelação Parcial
A FACP para um processo estacionário com média zero pode ser obtido a partir da
regressão
yt+k = φk1 yt+k−1 + φk2 yt+k−2 + . . . + φkk yt + t+k
70
Multiplicando ambos os lados por yt+k−j e calculando o valor esperado e dividindo pela
variância, tem-se
ρj = φk1 ρj−1 + φk2 ρj−2 + . . . + φkk ρk−j
Então para j = 1, 2, . . . , k, temos:
ρ1 = φk1 ρ0 + φk2 ρ1 + . . . + φkk ρk−1
ρ2 = φk1 ρ1 + φk2 ρ0 + . . . + φkk ρk−2

..
.
ρk = φk1 ρk−1 + φk2 ρk−2 + . . . + φkk ρ0 (2.73)
Para k = 1 ⇒ φ̂11 = ρ1
Para k = 2 ⇒ ρ1 = φ21 + φ22 ρ1 e ρ2 = φ21 ρ1 + φ22
Ou podemos escrever a última equação em notação matricial:

ρ1 1 ρ1 φ21
=
ρ2 ρ1 1 φ22
cuja solução para o estimador ρ̂22 é dada pela regra de Cramer:

1 ρ1

ρ1 ρ2
φ̂22 =
1 ρ1
ρ1 1
Para k = 3 temos as equações:
ρ1 = φ31 + φ32 ρ1 + φ33 ρ2
ρ2 = φ31 ρ1 + φ32 + φ33 ρ1

ρ3 = φ31 + φ32 ρ1 + φ33
Em notação matricial temos:
    
ρ1 1 ρ1 ρ2 φ31
 ρ2  =  ρ1 1 ρ1   φ32 
ρ3 ρ2 ρ1 1 φ33
cuja solução para o estimador φ̂33 é dada por:

1 ρ1 ρ1

ρ1 1 ρ2

ρ2 ρ1 ρ3
φ̂33 =
1 ρ1 ρ2

ρ1 1 ρ1

ρ2 ρ1 1
E assim sucessivamente.
71
72
Capı́tulo 3
Cálculo Estocástico
A teoria de finanças em tempo contı́nuo apoia-se essencialmente na disciplina de cálculo

estocástico. O cálculo estocástico é a linguagem atual do apreçamento e gerencia-
mento de riscos. Por isto é parte integrante da indústria financeira, seguros e atuária.
É a matéria fundamental para a pesquisa acadêmica em finanças nos seus diversos
ramos. Este capı́tulo é dedicado aos conceitos introdutórios desta disciplina. Desta
forma o Capı́tulo 3 contém os principais conceitos necessários para o desenvolvimento
de metodologias que fazem uso desta disciplina. O destaque neste texto é o seu uso
para o apreçamento. A sua compreensão é fundamental para o entendimento dos de-
mais capı́tulos. Para tal, apresentamos os conceitos sem o rigorismo matemático que
muitas vezes torna o texto enfadonho dificultando a sua leitura. Não obstante, algum
formalismo é requerido, e entendemos que aquilo que se segue é o mı́nimo necessário.
Definiremos o processo Browniano, o conceito de esperança condicional e a propriedade

martingal. A seguir veremos o conceito de integração em ambiente estocástico e a
fórmula (lema) de Itô1 . Finalizaremos com a solução de algumas equações diferenciais
estocásticas embora haja um capı́tulo neste texto dedicado a este assunto. Tal como nos
capı́tulos anteriores apresentamos vários exemplos e propomos outros tantos exercı́cios.
Encorajamos o leitor a resolver todos eles para que o desenvolvimento subsequente fique
facilitado.
A literatura nesta área além de vasta apresenta diferentes abordagens, desde os textos
puramente teóricos aos mais básicos. Recomendamos ao leitor interessado em aprofun-
dar seus conhecimentos que consulte preferencialmente os textos dedicados às aplicações
em finanças tais como Mikosh (1999) [75], Neftci (2000) [77], Joshi (2003) [59], Baz e
Chacko (2004) [6], Baxter e Rennie (1996) [5]. Outros textos relevantes para o apren-
dizado da disciplina e acessı́veis são Shreve (2004) [94], Øksendal (2003) [80], Steele
(2000) [97], Elliot e Kopp (2005) [34], Björk (2004) [7] e Klebaner (2001) [62].
1
Seguindo a mesma observação de Jarrow e Protter (2004) [58] preferimos a designação de fórmula
de Itô ao invés de lema como difundido da literatura. O termo fórmula ressalta a importância do
conceito para o cálculo estocástico.
73
3.1 Processo Browniano
Antes da definição do processo Browniano vejamos duas definições que ajudarão na sua
compreensão. Sugerimos que o leitor reveja a definição de processos estocásticos na
seção 2.1
Definição 3.1. Seja X = (Xt , t ∈ [0, T ]) um processo estocástico. X é dito ser um

processo com incrementos estacionários se
d
Xt − Xs = Xt+h − Xs+h
para todo t, s ∈ [0, T ] e t + h, s + h ∈ [0, T ].
d
A igualdade = significa igualdade em distribuição, ou seja, os processos definidos em
ambos os lados desta igualdade possuem a mesma distribuição.
Definição 3.2. Seja X = (Xt , t ∈ [0, T ]) um processo estocástico. X tem incrementos

independentes se para todo t1 < t2 . . . < tn , n > 1
Xt2 − Xt1 , . . . , Xtn − Xtn−1
são variáveis aleatórias independentes.
O movimento Browniano ou processo padrão de Wiener é um importante conceito

para o desenvolvimento da teoria de processos estocásticos e consequentemente para a
construção da teoria de finanças em tempo contı́nuo.
Definição 3.3. (Processo Browniano padrão) Um processo estocástico B = (Bt , t ∈ [0, ∞))
é dito Browniano ou processo padrão de Wiener se:
(i) inicia em zero: B0 = 0,
(ii) tem incrementos estacionários e independentes,
(iii) para todo t > 0, Bt ∼ N (0, t),
(iv) as realizações são contı́nuas, sem saltos.
As variáveis aleatórias Bt − Bs e Bt−s possuem distribuição N (0, t − s) para s < t.

Este fato decorre da estacionariedade dos incrementos. Isto é, Bt − Bs tem a mesma
distribuição que Bt−s − B0 = Bt−s que é normal com média zero e variância t − s.
d
Enfatizamos que a identidade em distribuição Bt (ω) − Bs (ω) = Bt−s (ω) não significa
que os valores sejam iguais. Em geral Bt (ω) − Bs (ω) 6= Bt−s (ω). Isto significa que não
d
podemos substituir = por =.
74
3.1.1 Propriedades do processo Browniano
Dentre as propriedades do processo Browniano vamos examinar primeiramente aquelas
oriundas diretamente da definição acima, ou seja, aquelas relacionadas diretamente aos
primeiros momentos do processo:
(i) a média de Bt é zero, isto é, E (Bt ) = 0,
(ii) a variância de Bt é V ar (Bt ) = E (Bt − E (Bt ))2 = E [Bt2 ] = t,

(iii) a covariância de Bt e Bs é dada por
Cov (Bt , Bs ) = E [(Bt − E (Bt )) (Bs − E (Bs ))]

= E [Bt Bs ]
= E [((Bt − Bs ) + Bs ) Bs ]
= E [(Bt − Bs ) Bs ] + E Bs2

= E (Bt − Bs ) E (Bs ) + E Bs2

= 0 + s = s para 0 ≤ s < t
Na terceira igualdade somamos e subtraı́mos Bs considerando a suposição de que s < t.

Note que a passagem da quarta para a quinta igualdade foi realizada sob a condição de
que os processos Bt − Bs e Bs são independentes, uma vez que s < t. Se a suposião
fosse t > s o resultado acima seria t, então podemos escrever que
Cov (Bt , Bs ) = E (Bt Bs ) = min (t, s) (3.1)
A Figura 3.1 mostra uma trajetória do processo Browniano. A Figura 3.2 mostra
um conjunto de dez trajetórias para o processo Browniano. Observando uma trajetória
qualquer, é fácil reconhecer as irregularidades presentes. Estas irregularidades são con-
senquências da propriedade de que o processo Browniano possui incrementos indepen-
dentes. Por outro lado, sabemos que sob o ponto de vista do cálculo clássico uma função
é diferenciável em um ponto se os limites à esquerda e à direita neste ponto são iguais
(a função tem um formato de uma curva “suave”. Examinando uma trajetória do movi-
mento Browniano pode-se constatar que tal fato não ocorre.
Disto decorre que o processo Browniano não é integrável sob o ponto de vista clássico.
Então temos a necessidade do desenvolvimento de conceitos que permitam a integração
de tais trajetórias. Tais conceitos foram reunidos na disciplina da matemática denom-
inada cálculo estocástico ou cálculo de Itô. Sob a abordagem desta disciplina, a inte-
gração das variáveis estocásticas não é a integral de Riemann que usualmente conhece-
mos. O conceito de integração estocástica será apresentado ainda neste capı́tulo.
Outra propriedade do processo Browniano é auto-similaridade. Esta propriedade

quer dizer que se fizermos sucessivas ampliações para vizualizarmos um trecho (ou
porção) de uma trajetória do processo Browniano, iremos observar que as figuras ap-
resentarão formas similares, porém não idênticas. Em resumo, podemos acrescentar às
propriedades anteriores duas outras:
75
Figura 3.1: Trajetória do processo Browniano
(iv) o processo Browniano não é diferenciável em nenhum trecho de sua trajetória,

(v) o processo Browniano é auto-similar.
Diante da existência da integral estocástica, admitiremos (inicialmente sem demon-
strar) que faz sentido o conceito de diferencial do processo Browniano. Usaremos para
tal a notação dBt , que significa o incremento do movimento Browniano. Analogamente
ao processo Browniano Bt , o seu incremento é definido por dBt ∼ N (0, dt), assim temos:
E (dBt ) = 0 (3.2)
2

V ar (dBt ) = E dBt = dt (3.3)
Para o melhor entendimento da equação (3.3) veja o conceito de variação quadrática
na seção seguinte. Veja também a demonstração da variação quadrática do Browniano
feito no Apêndice deste capı́tulo.
As trajetórias do processo Browniano não possuem variações limitadas no intervalo

[0, T ]. Isto significa dizer que
n
X
sup Bt (ω) − Bt (ω) = ∞ (3.4)
i i−1
τ
i=1
onde o supremo é avaliado para todas as possı́veis partições
τ : 0 = t0 < t1 < . . . tn = T
76
Figura 3.2: Gráfico com dez trajetórias do processo Browniano
Esta última propriedade completa o conjunto das principais propriedades do processo

Browniano:
(vi) o processo Browniano não é de variação limitada.
Em resumo, podemos dizer que o movimento Browniano possui as seguintes pro-

priedades:
(i) B0 = 0,
(ii) Bt é contı́nuo em t tal que Bt ∼ N (0, t),
(iii Bt não é diferenciável sob o ponto de vista clássico,
(iv) Bt não é um processo de variação limitada,
(v) Bt − Bs e Bt−s são iguais em distribuição e possuem média zero e variância t − s.
3.1.2 Variação quadrática

Definição 3.4. (Variação quadrática) Seja f (t) uma função definida em 0 ≤ t ≤ T .
Seja τ uma partição
τ : 0 = t0 < t1 < . . . tn = T
77
seja δ = max0≤i≤n−1 (ti+1 − ti ). A variação quadrática de f no intervalo [0, T ] é definida
por [f, f ] (T ) tal que
n−1
X
[f, f ] (T ) = lim [f (ti+1 ) − f (ti )]2 (3.5)
δ→0
i=0
O processo Browniano, além das propriedades já enunciada, possui variação média
quadrática, ou seja o limite da equação (3.5) existe. Tratamos desta importante pro-
priedade neste seção e a destacamos na forma do teorema abaixo.
Teorema 3.1. (Variação quadrática do Browniano) Seja Bt , 0 ≤ t ≤ T , uma

processo Browninao padrão, então [B, B] (T ) = T , ou seja
n−1
X 2
[B, B] (T ) = lim Bti+1 − Bti =T (3.6)
δ→0
i=0
A demonstração do teorema 3.1 está apresentada no Apêndice deste capı́tulo. Esta

propriedade é a convergência média quadrática ou convergência L2 . Na seção 1.6 vimos
a definição de convergência de ordem p, isto é Lp . Voltaremos a este assunto na definição
da integral de Itô.
3.1.3 Regras básicas de operacionalização

Apresentaremos nesta subseção as regras fundamentais para operacionalização de cálculos
no ambiente estocástico. Todas elas decorrem das propriedades do processo Browniano
vistas acima, das equações (3.2) e (3.3) e da variação quadrática do processo Browniano.
Assim podemos escrever que
E (dtdBt ) = dtE (dBt ) = 0 (3.7)
Tal qual usualmente utilizamos no cálculo clássico aqui vamos considerar que potências
de dt superiores a um serão aproximadamente iguais a zero, ou seja, (dt)n ∼ = 0 para
n > 1. Assim podemos prosseguir um pouco mais e escrever
V ar dBt2 = E dBt4 − E 2 dBt2 = 3dt2 − dt2 = 0

(3.8)
A igualdade acima é oriunda do fato de que o quarto momento de uma normal é 3

multiplicado pela variância ao quadrado (veja equação (1.13)). Podemos ainda escrever
que
E (dBt dt)2 = E dBt2 dt2 = 0

(3.9)
Desta última equação e da equação (3.7) podemos escrever que
V ar (dBt dt) = E (dBt dt)2 − E 2 (dBt dt) = 0 − 0 = 0

(3.10)
Considere agora uma função do Browniano, f (Bt ). Observe que o valor esperado de
uma variável que tem variância nula é a própria variável (é portanto determinı́stica e
não é uma variável aleatória). Em outras palavras
E [f (Bt )] = f (Bt ) se V ar [f (Bt )] = 0 (3.11)
78
Agora com as propriedades acima podemos concluir sobre as regras básicas de opera-
cionalização para utilização em cálculos no ambiente estocástico. Da equação (3.10)
vemos que a variância de dBt dt é zero. Por outro lado, o valor esperado de dBt dt é zero.
Portanto da equação (3.11) tiramos a primeira regra básica:
Regra 1: dBt dt = 0 (3.12)
A segunda regra básica decorre das equações (3.3) e (3.8) e pelas mesmas razões
explı́citas em (3.11) temos
Regra 2: dBt2 = dt (3.13)
A terceira regra básica já foi apresentada e utilizada acima. Aqui apenas enfatizamos
a sua aplicação no caso mais usual
Regra 3: dt2 = 0 (3.14)
Exemplo 3.1. Ponte Browniano (Brownian bridge):
Considere o processo Xt = Bt − tB1 , para 0 ≤ t ≤ 1. Calcule a média e a função
covariância de Xt .
Solução: Pela definição acima o tempo t, onde está definido o processo, assume val-
ores entre zero e um: 0 ≤ t ≤ 1. Então vamos calcular os valores X0 e X1 :
X0 = B0 − 0 × B1 = 0
X1 = B1 − 1 × B1 = 0
O processo X assume os mesmos valores no instante inicial e final. Todas as trajetórias
ligam estes dois pontos, por isto o nome de ponte. O valor esperado de X é:
E (Xt ) = E (Bt − tB1 ) = 0
O segundo momento de X é dado por
E Xt2 = E (Bt − tB1 )2

= E Bt2 + t2 B12 − 2tBt B1

= E Bt2 + t2 E B12 − 2tE (Bt B1 )

= t + t2 − 2 × t × t = t − t2
Logo a variância de X será
V ar (Xt ) = E Xt2 − E 2 (Xt ) = t − t2

A covariância entre Xt e Xs , t < s, t < 1, e s ≤ 1, será

Cov (Xt , Xs ) = E (Xt Xs ) = E [(Bt − tB1 ) (Bs − sB1 )]
= E Bt Bs − sB1 Bt − tB1 Bs + stB12

−s E (B1 Bt ) −t E (B1 Bs ) +st E B12

= E (Bt Bs )
| {z } | {z } | {z } | {z }
veja equação (3.1) t<1 s<1 =1
= min (t, s) − st − ts + st
= min (t, s) − st
79
Observe que se t = s, então Cov (Xt , Xs ) = V ar (Xt ) = t − t2 .
Definição 3.5. (Processo aritmético Browniano) O processo aritmético Browni-

ano (ou processo aritmético Browninano com drift) é definido por Xt = x + µt + σBt ,
para t ≥ 0, σ > 0, X0 = x e µ ∈ R. Os parâmetros µ e σ definem e a tendência e a
volatilidade do processo, respectivamente.
Exercı́cio 3.1. Seja o processo aritmético Xt definido acima. Calcule o valor esperado e
a função covariância para Xt . Faça a simulação de uma trajetória do processo aritmético
Browniano plotando-o em um gráfico St versus t.
Definição 3.6. (Processo geométrico Browniano) O processo geométrico Browni-

ano (ou movimento geométrico Browniano) é definido por Xt = x exp (µt + σBt ), para
t ≥ 0, µ ∈ R, σ > 0 e X0 = x. Os parâmetros µ e σ definem e a tendência e a
volatilidade do processo, respectivamente.
O processo estocástico geométrico Browniano é um processo que ocupa um papel

de destaque na teoria de finanças. Foi utilizado pioneiramente por Black e Scholes
(1973) e Merton (1973) para modelar a evolução ou a dinâmica do preço de uma ação.
Xt representa o preço de uma ação que é uma função exponencial, logo será sempre
positivo. O expoente é um processo aritmético Browniano tal qual definido acima. Note
que o expoente é uma distribuição normal que tem média µt e variância σ 2 t.
Exemplo 3.2. Seja Xt um processo geométrico Browniano como acima. Calcule o valor
esperado e a função covariância para Xt . Considere X0 = x = 1.
Solução: De acordo com a equação (1.30) podemos escrever que o valor esperado de
Xt é

1
E (Xt ) = E [exp (µt + σBt )] = exp E (µt + σBt ) + V ar (µt + σBt )
2

1
= exp µ + σ 2 t
2
A covariância entre Xt e Xs envolve um pouco mais de trabalho algébrico, vejamos

então:
Cov (Xt , Xs ) = E [(Xt − E (Xt )) (Xs − E (Xs ))]

= E (Xt Xs ) − E (Xt ) E (Xs )
80
A segunda parcela do segundo membro da última equação já foi calculada anteriormente.
Abaixo vamos calcular a primeira parcela do segundo membro.
E (Xt Xs ) = E [exp (µt + σBt ) exp (µs + σBs )]

= E [exp (µ (t + s) + σ (Bt + Bs ))]

1
= exp E (µ (t + s) + σ (Bt + Bt )) + V ar (µ (t + s) + σ (Bt + Bs ))
2

1 2
= exp µ (t + s) + σ (t + s + 2 min (s, t))
2
considerando s ≤ t, temos:

1 2
= exp µ (s + t) + σ (t + s + 2s)
2
Agora podemos calcular a covariância:

1 2
Cov (Xt , Xs ) = exp µ (s + t) + σ (t + 3s)
2

1 2 1 2
− exp µ + σ t exp µ + σ s
2 2
trabalhando algebricamente a expressão acima chegaremos a

1 2
= exp µ + σ (t + s) exp σ 2 s − 1 para s ≤ t

2
Note que se t = s teremos
1 2
h 2 i
Cov (Xt , Xs ) = V ar (Xt ) = e(µ+ 2 σ )(2t) eσ t − 1
2
h 2 i
= e2µt+σ t eσ t − 1

Exercı́cio 3.2. Considere o processo Xt = Bt+δδ−Bt , onde δ > 0 é uma constante.
Calcule a média e a função covariância de Xt .
Vimos que o processo aritmético Browniano é dado por Xt = µt + σBt , onde t ≥ 0,
σ > 0 e µ ∈ R. O parâmetro µ fornece a tendência (drift) do processo. O parâmetro
σ é a volatilidade do processo e está associado à dispersão de Xt em relação à média
E (Xt ). A média e a variância de Xt são µt e σ 2 t, respectivamente; em outras palavras,
Xt ∼ N (µt, σ 2 t). Desta forma, os valores de Xt podem ser positivos ou negativos.
Assim é claro que este processo não é um bom modelo para representar preços de ativos.
Outra forma de expressar o processo aritmético Browniano é escrevê-lo em sua forma
diferencial.
dXt = µdt + σBt para t ≥ 0 (3.15)
O processo na equação (3.15) está descrito na forma de uma equação diferencial es-
tocástica (EDE). Podemos discretizar esta equação entre dois instantes de tempo tk e
tk−1 , como
Xtk − Xtk−1 = µ (tk − tk−1 ) + σ Btk − Btk−1
81
Ou ainda podemos escrever ∆Xt = µ∆t + σ∆Bt . Se tomarmos o instante inicial tk−1
como zero (fazendo X0 = x = 0) e o instante tk como um instante genérico t, teremos
Xt = µt + σBt (3.16)
Desta forma é fácil ver que as duas formas de expressar o processo aritmético Browniano
se equivalem.
O processo geométrico Browniano também pode ser descrito na forma de uma

equação diferencial estocástica por
dXt
= µdt + σdBt para t ≥ 0 e X0 = x (3.17)
Xt
onde µ ∈ R e σ > 0. Veremos adiante que a solução da EDE (3.17) é o processo descrito
por
Xt = xe(µ−0,5σ )t+σBt
2
(3.18)
O segundo membro da equação (3.17) é o processo aritmético Browniano em sua forma
diferencial. Se discretizarmos a equação (3.17) para os instantes tk e tk−1 temos
Xtk − Xtk−1
= µ (tk − tk−1 ) + σ Btk − Btk−1
Xtk−1
Se Xt representa o preço de um ativo em t tal qual definido em (3.17), então o primeiro

membro representa o retorno de um ativo entre os instantes tk e tk−1 . O segundo mem-
bro representa o processo aritmético Browniano na forma diferencial. O retorno deste
ativo (primeiro membro) é normalmente distribuı́do com média µ∆t e variância σ 2 ∆t
(segundo membro), onde ∆t é o intervalo de tempo para o qual o retorno é calculado.
É imediato pelas definições que a distribuição de preços é lognormal.
A Figura 3.3 mostra o gráfico do processo geométrico definido por Xt = e0,05t+0,1Bt ,

com X0 = x = 1 onde foram simuladas cinco trajetórias. O gráfico também mostra a
tendência de Xt , ou seja E (Xt ) (linha reta pontilhada). p
Além disso estão traçadas as
envoltórias (linhas sólidas) representadas por E (Xt ) ± 2 V ar (Xt ), ou seja, a média
mais ou menos dois desvios. Note a clara tendência (drift) do processo.
Exemplo 3.3. Considere que X seja o preço de uma ação que segue um processo
geométrico Browniano com drift α ∈ R e volaltilidade σ > 0. Da mesma forma Y
representa outra ação que segue um processo geométrico Browniano com drift β ∈ R e
volatilidade ν > 0. A correlação entre os Brownianos dos dois processos é ρ, ou melhor,
dBX dBY = ρdt. Resolva os itens abaixo:
(i) Escreva as equações dos dois processos na forma diferencial,
(ii) Calcule a correlação entre os retornos dos dois ativos,

(iii) Calcule o valor esperado E dX Xt
t
+ dYt
Yt
e a variância V ar dXt
Xt
+ dYt
Yt
.
82
Figura 3.3: Trajetórias do processo geométrico Browniano
Solução:
(i) As equações dos processos geométricos na forma diferencial para t ≥ 0 são
dXt dYt
Ativo X: = αdt + σdBXt Ativo Y: = βdt + νdBYt
Xt Yt
(ii) A correlação é calculada a partir da covariância entre os retornos, que por sua vez
é dada pela covariância entre dXXt
t
e dY
Yt
t
, isto é

dXt dYt
Cov (RX , RY ) = Cov , = Cov [αdt + σdBXt , βdt + νdBYt ]
X t Yt
= σνCov (dBXt , dBYt )
= σνρdt
Agora podemos calcular a correlação:
Cov (RX , RY )
Cor (RX , RY ) = p p
V ar (RX ) V ar (RY )
σνρdt
= 1 1
σdt 2 νdt 2
=ρ
83
(iii) O valor esperado e a variância são dados por:

dXt dYt
E + = (α + β) dt
Xt Yt

dXt dYt dXt dYt dXt dYt
V ar + = V ar + V ar + 2Cov ,
Xt Yt Xt Yt Xt Yt
= σ 2 dt + ν 2 dt + 2σνρdt
= σ 2 + ν 2 + 2σνρ dt

3.2 Valor esperado condicional

O conceito de valor esperado condicional é o alicerce para o apreçamento de contratos em
finanças. Usaremos doravante este conceito em vários tópicos ao longo deste texto. Isto
mostra a sua importância. Dividiremos esta seção em quatro subseções. Na primeira
subseção vamos recordar o que vimos no capı́tulo 1, isto é o conceito básico de valor
esperado condicional. Na subseção dois daremos uma breve noção do conceito de σ-
álgebra. Na subseção três trabalharemos especificamente o conceito de valor esperado
condicional que é usado nas técnicas de apreçamento. Por último introduziremos os
conceitos de espaço e medida de probabilidade.
3.2.1 Conceito básico

Vimos na seção 1.2 o conceito de probabilidade condicional. Na equação (1.1) vimos
que a probabilidade de ocorrência de um evento A dado que ocorreu outro evento B é
definido por
P (A ∩ B)
P (A|B) =
P (B)
A interpretação do resultado acima significa que a ocorrência do evento B restringe o
espaço de ocorrênica do resultado, ou seja, a ocorrência de A fica restrita às possı́veis
ocorrênicas do conjunto B. Por esta razão o resultado deve ser normalizado pelo valor
da probabilidade de B. Sugerimos que leitor reveja o exemplo 1.2.
A seção 1.4 define o valor esperado condicional de uma variável aleatória X dado que
conchecemos o valor da variável aleatória Y . Veja a equação (1.40). O valor esperado
condicional E (X|Y ) é uma variável aleatória, isto porque a variável aleatória Y pode
assumir diferentes valores. O valor esperado condicional assumirá tantos valores quanto
aqueles que assumir a variável aleatória Y . Assim se Y assume poucos valores a variável
aleatória E (X|Y ) ficará restrita também a poucos valores. O valor esperado da variável
aleatória E (X|Y ) é o valor esperado incondicional de X. Este resultado foi provado na
seção 1.4. Escrevendo-o novamente temos
E (E (X|Y )) = E (X)
Intuitivamente significa dizer que o valor esperado de X dado Y é uma aproximação do
valor esperado de X. O exemplo 1.6 mostra esta propriedade, volte um pouco e reveja-o.
84
3.2.2 Noção de σ-álgebra
O conceito de valor esperado condicional de X dada a ocorrência de uma variável
aleatória Y foi definido anteriormente. A variável aleatória E (X|Y ) foi construı́da
sob o conceito de uma variável aleatória discreta. Vamos imaginar agora que tenhamos
o valor esperado condicional para cada variável aleatória associada a um estado ωi da
natureza, tal que ωi ∈ Ω. Vamos imaginar uma coleção de estados ω e a esta coleção
vamos denominar por σ (Y ). Esta coleção de valores de Y em função dos estados da
natureza revela a informação sobre a variável aleatória Y em função de cada estado
ωi ∈ Ω. Assim o valor esperado condicional pode ser escrito mais genericamente sob a
forma
E (X|Y ) = E (X|σ (Y ))
Esta coleção de valores σ (Y ) é denominada de σ-álgebra. Podemos então formalizar
este conceito.
Definição 3.7. (σ-álgebra) Define-se a σ-álgebra F, por um coleção de subconjuntos

de Ω satisfazendo:
(i) Não é vazio: ∅ ∈ F e Ω ∈ F,
(ii) Se A ∈ F, então Ac ∈ F,
∞
[ ∞
\
(iii) Se A1 , A2 , . . . , ∈ F, então Ai ∈ F e Ai ∈ F.
i=1 i=1
Por exemplo a coleção F 1 = {∅, Ω} é uma σ-álgebra. A coleção F 2 = {∅, Ω, A, Ac }

é outra σ-álgebra. Para uma variável aletória Y , assumindo valores discretos, denom-
inamos por σ (Y ) a σ-álgebra gerada por Y . Agora imagine o caso em que a variável
aletória Y é uma variável aletória multivariada, Y, neste caso a σ-álgebra σ (Y) é a
σ-álgebra gerada pelo vetor aletório Y. E assim esta σ-álgebra contém a informação
essencial sobre a estrutura deste vetor aleatório. Vamos mais além um pouco. Imagine
um processo estocástico Y definido na seção 2.1, denominamos de σ (Y ) a σ-álgebra
gerada por Yt (ω) que contém as informações geradas pelos estados ωi ∈ Ω em cada
instante de tempo t ∈ [0, T ].
Seja por exemplo o processo Browniano B = (Bs , s ≤ t) definido em [0, T ]. Podemos

escrever que a σ-álgebra gerada por B até o instante t como F t = σ (B) = σ (Bs , s ≤ t).
Esta σ-álgebra contém a informação essencial sobre a estrutura do processo estocástico
B em [0, t].
Seja para uma variável aletória Y , um vetor aleatório Y, ou um processo estocástico

Y a σ-álgebra σ (Y ) contém as informações geradas por Y .
3.2.3 Valor esperado

O conceito de valor esperado condicional de X foi estabelecido em termos da ocorrência
da variável aleatória Y . Agora passaremos a considerar o valor esperado condicional
85
em termos das informações gerada pela variável aletória Y , pelo vetor multivariado Y
ou pelo processo estocástico Y . Denominaremos este valor esperado condicional por
E (X|F). Novamente, este valor esperado é uma variável aleatória, pois F contém
as informações geradas por pela ocorrência dos possı́veis estados da natureza ωi ∈ Ω.
Da mesma forma que anteriormente, o valor esperado E (X|F) é uma aproximação de
E (X). Agora podemos escrever de forma mais geral que
E (X|Y ) = E (X|σ (Y )) = E (X|F) (3.19)
Podemos dizer que calcular o valor esperado está associado à noção de prever o valor
de uma variável aleatória. O valor esperado condicional é precisamente a operação que
busca calcular a previsão, dada uma quantidade de informação associada à variável.
Esta informação é a coleção de subconjuntos de Ω denominados σ-álgebra.
Por exemplo, seja St um processo estocástico que descreve o preço de um ativo em

cada instante de tempo t. Suponha que desejamos prever o preço deste ativo em u > t
condicionada às informações disponı́veis até o tempo t. Escrevemos para tal E(Su |F t ).
Podemos entender o conceito acima como o valor esperado condicional às informações
geradas pelo processo estocástico de St (até o instante t).
3.2.4 Espaço e medida de probabilidade

Duas importantes definições que unem os conceitos de eventos na teoria de probabili-
dade e o de σ-álgebra são o de medida de probabilidade e o de espaço de probabilidade.
Definição 3.8. (Medida de probabilidade) Considere que F é uma σ-álgebra definida

em Ω. A medida de probabilidade P é uma função P : F → [0, 1] tal que
(i) P (Ω) = 1
(ii) Ai ∩ Aj = ∅ para i 6= j, então P (A1 ∪ A2 . . .) = P (A1 ) + P (A2 ) + . . .
A tripla (Ω, F, P ) é chamada de espaço de probabilidade e os conjuntos pertencentes

a F são denominados eventos. Diz-se que o evento A ocorre quase certamente (q.c.)
sempre que P (A) = 1.
3.2.5 Regras básicas de operacionalização

A seguir iremos colocar algumas propriedades do valor esperado condicional de tal
forma que possamos realizar a maior parte das operações que envolvem este conceito.
Primeiramente considere que o valor esperado do módulo da variável aleatória X é finito,
E (|X|) < ∞. A partir deste fato garante-se a existência de E (X|F). De certa forma
as regras abaixo generalizam alguns dos conceitos que usamos no capı́tulo 1. Não nos
preocuparemos em demonstrá-las mas o leitor pode fazê-lo como exercı́cio; algumas são
imediatas aplicações de definições e outras já foram demonstradas ao longo do texto.
86
(i) O valor esperado condicional é uma operação linear no sentido que
E [(c1 X1 + c2 X2 ) |F] = c1 E(X1 |F) + c2 E(X2 |F) (3.20)
(ii) O valor esperado da variável E (X|F) é o valor esperado incondicional de X
E (X) = E [E (X|F)] (3.21)
(iii) Se X e F são independentes
E (X|F) = E (X) (3.22)
(iv) Se a σ-álgebra gerada pela variável aleatória X está contida em F então esta última
contém toda a informação sobre e X e os valores assumidos por X não possuem
informação adicional sobre esta variável. Toda a incerteza existente acerca de X
foi revelada por F e portanto X é uma variável determinı́stica.
E (X|F) = X (3.23)
(v) Se F e G são σ-álgebras tais que F ⊂ G, então
E (X|F) = E [E (X|G) |F] (3.24)
E (X|F) = E [E (X|F) |G] (3.25)
Os exemplos que se seguem são importantes aplicações das regras acima. Entenda-os
claramente pois teremos aplicações semelhantes corriqueiramente.
Exemplo 3.4. Suponha que St seja um processo estocástico que descreve o preço de um
ativo em cada instante t ∈ [0, T ]. Como se relacionam as informações geradas por St
para cada instante tk , k ∈ N?
Solução: Vamos denominar de F tk o conjunto de informaçãoes relativas até o instante

tk . À medida que transcorre o tempo, a evolução do preço do ativo St gera as informações
inerentes à sua realização. Assim para tk+1 as informações são mais abrangentes e
contêm aquelas relativas ao instante tk , ou seja, F tk ⊂ F tk+1 . Então para t0 , t1 , . . . , tk . . .
podemos escrever
Ft0 ⊆ Ft1 . . . ⊆ Ftk ⊆ Ftk+1 ⊆ . . .
Exemplo 3.5. Seja B o processo Browniano padrão tal qual definido na seção 3.1.
Considere uma estrutura de informação crescente como no exemplo 3.4. Denomine cada
estrutura de informação pela σ-álgebra Fs = σ (Bx , x ≤ s). A notação usada significa
dizer que a σ-álgebra foi gerada pelo Browniano até o instante s. Avalie a esperança
condicional E (Bt |Fs ).
87
Solução: Note que o instante t pode ser tal que s ≥ t ou s < t. Então vamos avaliar
a esperança condicional sob estas duas considerações:
(i) Considere s ≥ t e neste caso Fs ⊇ Ft . Ou seja a informação suportada pela

σ-álgebra é mais abrangente que as informações geradas pelo Browniano até t e
portanto conhecemos tudo sobre o processo estocástico. Neste caso trata-se de uma
variável determinı́stica. A equação (3.23) aplica-se a esta situação, então
E (Bt |Fs ) = Bt
(ii) Considere s < t. Agora vamos usar um artifı́cio de somar e diminuir Bs :
E (Bt |Fs ) = E {[(Bt − Bs ) + Bs ] |Fs }
Usando o fato de que o valor esperado condicional é linear, veja a equação (3.62),
podemos escrever:
E (Bt |Fs ) = E [(Bt − Bs ) |Fs ] + E (Bs |Fs )
Vamos analisar cada parcela do segundo membro separadamente. Na primeira

parcela temos que o incremento do Browniano Bt − Bs é independente das in-
formações geradas por Bs , ou ainda, pelas informações contidas na σ-álgbra Fs .
Assim a regra contida na equação (3.22) se aplica, isto é
E [(Bt − Bs ) |Fs ] = E (Bt − Bs ) = 0
A segunda parcela recae novamente no caso da equação (3.23) onde toda a in-
formação gerada pelo processo está contida na σ-álgebra, ou seja, σ (Bs ) ⊂ Fs ,
portanto:
E (Bs |Fs ) = Bs
Juntando o que apuramos nos itens (i) e (ii) concluimos que o valor esperado condicional
do Browniano dependerá de t e s, prevalecendo o que for menor:
E (Bt |Fs ) = Bmin(t,s)
Exemplo 3.6. Considere o processo estocástico aritmético Browniano Xt = µt + σBt

onde µ ∈ R, X0 = x = 0 e σ > 0. Avalie a esperança condicional E (Xt |Fs ).
Solução: Usando a propriedade de linearidade do valor esperado condicional, temos:
E (Xt |Fs ) = E [(µt + σBt ) |Fs ]

= µt + σE (Bt |Fs )
usando o resultado do exemplo anterior
= µt + σBmin(s,t)
88
Seguem duas definições úteis para o entendimento da próxima seção bem como para
ajudar a compreensão dos exemplos seguintes.
Definição 3.9. (Filtração) Uma coleção de σ-álgebras Ft em Ω é denominada uma

filtração se, para todo 0 ≤ s ≤ t, temos Fs ⊂ Ft . Isto significa que em uma filtração
cada σ-álgebra subsequente abrange a anterior em termos do conteúdo de informação.
Seja F uma σ-álgebra. Então qualquer conjunto de F é dito mensurável. Uma função
X (ω) em Ω é dita F-mensurável se todos os conjuntos {X (ωi ) = xi } , i = 1, . . . , k são
membros de F. Em outras palavras, a informação contida em F é suficiente para
descrever (ou para determinar) X.
Definição 3.10. (Processo adaptado) Dizemos que um processo estocástico Zt é

adaptado à filtração Ft se a σ-álgebra gerada por Z está contida em F, ou seja, σ (Zt ) ⊂
Ft . Todo processo estocástico Zt é sempre adaptado à sua filtração natural, ou seja,
Ft = σ (Zs ) para s ≤ t. Um procsso estocástico Z é adaptado se, para todo t, Zt é
Ft -mensurável.
Exemplo 3.7. Seja X um processo estocástico definido por Xt = σBt . Seja Zt = Xt2
calcule o valor esperado condicional de Zt considerando a filtração Ft = σ (Bs , s ≤ t),
isto é, avalie E (Zt |Fs ).
Solução: A informação gerada pelo processo Z está diretamente relacionada ao do

processo X que por sua vez está atrelada ao Browniano Bt . A filtração natural de
Z é digamos Gt = σ (Zs , s ≤ t). O problema pede que calculemos o valor esperado
condicional à filtração natural do Browniano. Podemos notar que para cada instante
de tempo t temos que Gt ⊂ Ft . De fato, com as informações de Zt conseguimos saber
Bt2 ou ainda |Bt |. Isto significa que não recuperamos a informação de Bt , ou seja Ft é
mais abrangente pois temos as informações geradas pelo processo Bt . Assim a filtração
natural de Bt contém aquela de Zt . Dito isto, vamos aos cálculos com esta filtração
mais abrangente.
E (Zt |Fs ) = E Xt2 |Fs

= E σ 2 Bt2 |Fs

= σ 2 E Bt2 |Fs

somando e subtraindo Bs , temos

= σ 2 E [(Bt − Bs ) + Bs ]2 |Fs

= σ 2 E (Bt − Bs )2 + Bs2 + 2Bs (Bt − Bs ) |Fs

aplicando a linearidade equação (3.62)

= σ 2 E (Bt − Bs)2 |Fs + σ 2 E Bs2 |Fs + 2σ 2 E {[Bs (Bt − Bs )] |Fs }

analisando cada termo separadamente
(i) O primeiro termo é σ 2 E (Bt − Bs )2 |Fs . O termo (Bt − Bs )2 é independente de

Fs , logo temos
σ 2 E (Bt − Bs )2 |Fs = σ 2 E (Bt − Bs )2 = σ 2 (t − s)

89
(ii) O segundo termo é imediato
σ 2 E Bs2 |Fs = σ 2 Bs2

(iii) O terceiro termo envolve Bs que é adaptado à filtração natural Fs , logo temos
2σ 2 E {[Bs (Bt − Bs )] |Fs } = 2σ 2 Bs E [(Bt − Bs ) |Fs ]

Bt − Bs é independente de Fs
= 2σ 2 Bs E (Bt − Bs )
=0
Em resumo temos que

E (Zt |Fs ) = σ 2 (t − s) + σ 2 Bs2

Exercı́cio 3.3. Considere o processo estocástico Xt = Bt2 − t, avalie o valor esperado
condicional E (Xt |Fs ) onde Ft = σ (Bs , s ≤ t). (Sugestão: considere as mesmas etapas
do exemplo 3.5 justificando cada operação realizada).
3.3 Processos martingais

Na subseção 2.5.2 apresentamos o modelo para série de retornos em finanças sob a ótica
da propriedade martingal. Na oportunidade a propriedade martingal foi utilizada como
um dos possı́veis modelos para descrever a série de retornos. Nesta seção iremos apro-
fundar os conceitos de que necessitamos para tratarmos desta importante propriedade
para o apreçamento de contratos de derivativos em finanças.
Historicamente o conceito de apreçamento de derivativos iniciou-se pelo que chamare-

mos de metodologia clássica com os artigos seminais de Black e Scholes (1973) e Merton
(1973). Posteriormente ganhou uma direção diferente e nesta direção a propriedade
martingal tem um papel fundamental. Teremos a oportunidade de nos aprofundarmos
nos detalhes de ambas metodologias e os capı́tulos 4 e 5 são dedicados a estes temas.
O valor esperado condicional relativo a uma filtração (ou conjunto de informações)

pode alterar se mudarmos a filtração. Imagine que estejamos calculando a previsão de
X segundo um conjunto de informações G, isto é E (X|G). Se X e G não são relaciona-
dos a previsão de X será cercada de incerteza. Melhor se tivéssemos um conjunto de
informações F que estivesse relacionada aos valores passados de X. O conjunto de in-
formações que conta sobre o passado de X certamente ajudará a prever melhor o futuro
de X, reduzindo a incerteza na previsão.
Como foi dito anteriormente a propriedade martingal está relacionada ao jogo justo.
Por outro lado sabemos que o valor esperado está relacionado à previsão de realizações
futuras da variável aleatória ou do processo estocástico. O valor esperado, condicional às
informações existentes fornece o valor da previsão sujeita a tais informações. Quando a
melhor previsão que podemos fazer de uma variável, acerca de seu valor futuro, é o valor
90
atual desta variável dizemos que se trata de um processo martingal. Ou tecnicamente
E (Xt |Fs ) = Xs para s < t.
Definição 3.11. (Processo martingal) Um processo estocástico Y = (Yt , t ≥ 0) é

denominado martingal com respeito à filtração (Ft , t ≥ 0) se:
(i) E (|Yt |) < ∞ para t ≥ 0
(ii) Y é adaptado a Ft
(iii) E (Yt |Fs ) = Ys para 0 ≤ s < t.
Exemplos e exercı́cios para a verificação da propriedade martingal são necessários

para a fixação deste conceito.
Exemplo 3.8. Verifique se o processo Browniano Bt é martingal em relação à filtração

natural Fs = σ (Bx , x ≤ s).
Solução: No exemplo 3.5 calculamos o valor esperado condicional em relação à fil-

tração natural do Browniano. Para o caso em que s < t encontramos E (Bt |Fs ) = Bs .
As demais condições da definição acima são satisfeitas e portanto o Browniano é mar-
tingal em relação a sua filtração natural.
Exemplo 3.9. Verifique se o processo Bt2 é martingal em relação à filtração Ft =

σ (Bs , s ≤ t).
Solução: Estamos diante de uma situação análoga a do exemplo 3.7. A diferença é

que não temos o parâmetro σ associado ao processo. Para o caso em s < t chegaremos
ao resultado E (Bt2 |Fs ) = t − s + Bs2 . Claramente o processo não é martingal pois a
condição (iii) da definição acima não foi atendida.
Definição 3.12. (Processo submartingal e supermartingal) Seja (Ω, F, P ) um espço de

probabilidade, Ft uma filtração e Mt um processo estocástico adaptado e 0 ≤ t ≤ T :
(i) Se E (Mt |Fs ) ≥ Ms para 0 ≤ s ≤ t, diz-se que o processo é submartingal;
(ii) Se E (Mt |Fs ) ≤ Ms para 0 ≤ s ≤ t, diz-se que o processo é supermartingal.
Considere que Y é martingal como definido acima. Considere a previsão das variações
de Y em um intervalo de tempo ∆t > 0. Podemos escrever E (Yt+∆t − Yt |Ft ) =
E (Yt+∆t |Ft ) − E (Yt |Ft ). Sabemos que E (Yt |Ft ) = Yt . Como Y é martingal temos
E (Yt+∆t |Ft ) = Yt , logo E (Yt+∆t − Yt |Ft ) = 0. Isto significa que a melhor previsão
para as variações de Y é zero. Ou seja, que as direções de futuros movimentos são
91
impossı́veis de prever. Em outras palavras, se as trajetórias de determinado processo
exibem tendências, o processo não é martingal. Isto significa dizer que o valor esperado
de um processo martingal é constante. Outra forma para este resultado pode assim ser
escrita E (Ys ) = E [E (Yt |Fs )] = E (Yt ). Vimos no exemplo 3.9 que o processo Bt2 exibe
uma tendência. Para retirarmos a tendência do processo Bt2 basta subtrairmos o termo
t e o novo processo Zt = Bt2 − t é um processo martingal. Portanto para s < t o valor
esperado será
E (Zt |Fs ) = E Bt2 − t|Fs = Bs2 − s = Zs

E assim tem-se o processo martingal. Portanto temos uma regra prática adicional. Se
verificarmos que o processo não é martingal (seu valor esperado condicional não é cons-
tante e exibe uma tendência), para torná-lo martingal, basta retirarmos esta tendência.
Um processo martingal é sempre definido com relação a um conjunto de informações

(σ-álgebra) e com relação a uma distribuição de probabilidade (ou medida de probabili-
dade). Se alterarmos o conjunto de informações e/ou a distribuição de probabilidade, o
processo que é martingal sob a condição anterior pode deixar de sê-lo sob a(s) nova(s)
condição(ões). Da mesma forma, se um processo não é martingal, pode-se mudar a
distribuição de probabilidade para que o seja. Voltaremos a este assunto com maiores
detalhes e veremos que no apreçamento de derivativos é sempre conveniente obtermos
processos que sejam martingais. Isto porque calcular o valor esperado condicional de um
processo martingal é imediato e consequentemente o apreçamento torna-se uma tarefa
mais fácil.
Exercı́cio 3.4. Seja o processo aritmético Browniano St = µt + σBt onde µ ∈ R e
σ > 0. Verifique que St não é martingal em relação a filtração Fs = σ (Bx , x ≤ s) para
s < t. Obtenha um processo martingal a partir de St .
Exercı́cio 3.5. Verifique se são martingais os seguintes processos para t e s ∈ [0, T ] e s <
t, em relação a filtração Ft = σ (Bs , s ≤ t):
(i) Zt = 2Bt + t
(ii) Zt = Bt3 − 3tBt
(iii) Zt = Bt4
(iv) Zt = exp −αBt − 12 α2 t , α 6= 0

3.4 Integração estocástica

No inı́cio deste capı́tulo vimos na seção 3.1.1 que o processo Browniano não é difer-
enciável em nenhum ponto de sua trajetória. Isto porque as trajetórias não são suficien-
temente suaves para que as derivadas a esquerda e a direita em determinado ponto sejam
iguais. Também vimos que o processo Browniano é de variação não limitada. Estas duas
razões fazem com os métodos clássicos de integração não sejam aplicáveis às trajetórias
do processoR t Browniano. Mais especificamente, estamos interessados em avaliar integrais
da forma 0 f (u) dBu (ω), onde (Bt (ω) , t ≥ 0) é uma trajetória do movimento Browni-
ano e f uma função determinı́stica ou uma trajetória de um processo estocástico. Para
92
lidar com tais questões teremos que desenvolver o conceito da integral estocástica de
Itô. Sob a ótica da existência desta integral, faz sentido o conceito de diferenciação.
Mencionamos anteriormente alguns processos estocásticos escritos sob a forma diferen-
cial. Naquela oportunidade evitamos entrar nos detalhes do sentido da diferenciação que
usamos. Ao final desta e da próxima seção os conceitos de diferenciação e integração
em ambiente estocástico estarão compreendidos pelo leitor. Também deverá estar bem
clara a regra de diferenciação, em ambiente estocástico, que é conhecida como fórmula
(lema) de Itô. Antes de chegar neste ponto vamos rever rapidamente os conceitos da
integração clássica nas primeiras subseções.
A maior parte dos conceitos aqui apresentados deve-se a Kyosi Itô (1915-2008). Ele
foi um dos pioneiros no campo da teoria da probabilidade e devido as suas contribuições
originou-se um ramo da matemática denominado de cálculo estocástico ou cálculo de
Itô. As aplicações do cálculo de Itô abrangem vários campos como fı́sica, engenharia
(controle estocástico), biologia (genética populacional) e economia (finanças). De acordo
com a citação da National Academy of Sciences a famosa fórmula (lema) de Itô está
para a análise estocástica assim como os teoremas fundamentais de Newton estão para
a análise clássica. Veja maiores detalhes sobre o trabalho de Itô em uma nota da Amer-
ican Mathematical Society no site
http://www.ams.org/notices/200706/tx070600744p.pdf
Recomendamos também aos leitores interessados o artigo de Jarrow e Protter (2004)

[58] que apresenta uma breve história da integração estocástica e sua aplicação em fi-
nanças.
3.4.1 Integral de Reimann

Considere f uma função real definida em um intervalo [a, b]. Considere uma partição
deste intervalo
τn : a = t0 < t1 < . . . tn−1 < tn = b
Vamos definir ∆ti = ti − ti−1 , i = 1, . . . , n. Uma sub-partição δn é definida por valores

de yi tais que ti−1 ≤ yi ≤ ti para i = 1, . . . , n. Para as partições δn e τn definimos a
soma de Riemann como
n
X n
X
Sn = Sn (τn , δn ) = f (yi ) (ti − ti−1 ) = f (yi ) ∆ti (3.26)
i=1 i=1
n
X
Definição 3.13. (Integral de Reimann) Se o limite S = lim Sn = lim f (yi ) ∆ti
n→∞ n→∞
i=1
existe e S é independente das partições utilizadas, então
R b S é definida como a integral de
Riemann de f no intervalo [a, b]. Escrevemos S = a f (t)dt.
93
3.4.2 Integral de Reimann-Stieltjes
Agora estamos interessados em integrar R Tuma função em relação à outra. Ou seja, bus-
camos a interpretação para a integral 0 f (t) dg (t). Considere uma partição tal que
τn : 0 = t0 < t1 < . . . tn−1 < tn = T
Considere também uma sub-partição δn tal que
δn : ti−1 ≤ yi ≤ ti i = 1, . . . , n
Sejam f e g duas funções reais definidas em [0, T ] e considere
∆g (ti ) = g (ti ) − g (ti−1 ) i = 1, . . . n
A soma de Riemann-Stieltjes é dada por

n
X n
X
Sn = Sn (τn , δn ) = f (yi ) ∆g (ti ) = f (yi ) [g (ti ) − g (ti−1 )] (3.27)
i=1 i=1
Definição 3.14. (Integral de Reimann-Stieltjes) Se o limite

n
X
S = lim Sn = lim f (yi ) ∆g (ti )
n→∞ n→∞
i=1
existe e S é independente das partições utilizadas,

R T então S é definida como integral de
Riemann-Stieltjes em [0, T ]. Escrevemos S = 0 f (t) dg (t).
RT
Podemos considerar também o caso da integral 0 g (xt ) dFX (xt ). Se X é uma
variável aleatória e FX (xt ) a sua função distribuição, então uma integral deste tipo é o
valor esperado de g (x) para um t fixo:
Z ∞
E [g (xt )] = g (xt ) dFX (xt )
−∞
A questão que surge é saber quando é que existe a integral de Riemann-Stieltjes. Além
disso, a função g pode ser substituı́da pelo movimento Browniano? Na seção 3.1.1 con-
sideramos o conceito de função com variação limitada. Porém nos restringimos ao caso
do Browniano examinando a situação em que a ordem era p = 1. Agora ampliaremos
este conceito.
Definição 3.15. (Variação limitada de ordem p) Uma função h definida em [0, 1]

tem variação limitada de ordem p > 0, se
n
X
sup |h (ti ) − h (ti−1 ) |p < ∞
τ
i=1
onde o supremo é avaliado sobre todas as partições τ em [0, 1].
94
As condições para a existência da integral de Riemann-Stieltjes são: (i) as funções f
e g não devem ter descontinuidades no mesmo ponto t ∈ [0, T ], (ii) a função f deve ter
variação limitada de ordem p > 0 e a função g de ordem q > 0,R tal que p−1 + q −1 > 1.
T
Com estas consideraçãoes podemos dizer que a integral I = 0 Bt (ω) dBt (ω) existe
sob o conceito de Riemann-Stieltjes? O movimento Browniano somente tem variação
limitada para p > 2, então p2 não será maior que 1. Logo, sob o conceito de Riemann-
Stieltjes a integral acima não existe.
3.4.3 Integral de Itô

A questão de avaliar a integral I, definida acima, ainda não está definitivamente clara.
Em outras palavras, sob que condições podemos definir uma integral de tal natureza?
Vamos voltar um pouco e retomar o movimento Browniano com drift. Considere o
processo estocástico aritmético Browniano Xt = µt + σBt , para t ≥ 0, σ > 0 e µ ∈ R.
Vamos considerar o processo escrito sob a forma diferencial. Além disto, se tomarmos
uma partição τn
τn : 0 = t0 < t1 < . . . < tn−1 < tn = T
e avaliarmos St para cada ti e em seguida tomarmos a diferença, teremos
Xti − Xti−1 = µ∆ti + σ∆Bti
onde ∆ti = ti − ti−1 e ∆Bti = Bti − Bti−1 para i = 1, . . . , n. Esta equação para intervalos
infinitesimais de tempo torna-se
dXt = µdt + σdBt (3.28)
que é a equação diferencial estocástica (EDE) vista anteriormente.
Agora vamos considerar a equação (3.28) de forma mais geral. Vamos admitir que os
parâmetros µ e σ sejam funções do tempo e da variável aleatória Xt . Assim escrevemos
dXt = µ (St , t) dt + σ (St , t) dBt (3.29)
A equação (3.29) escrita sob a forma discreta é

Xti − Xti−1 = µ Xti−1 , ti ∆ti + σ Xti−1 , ti ∆Bti i = 1, . . . n
Se somarmos os incrementos ∆Sti , teremos

n
X n
X n
X

Xti − Xti−1 = µ Xti−1 , ti ∆ti + σ Xti−1 , ti ∆Bti
i=1 i=1 i=1
Vamos definir a integral de Xt ao longo de toda a trajetória como sendo o limite quando
n → ∞. Assim temos
Z T ( n n
)
X X
dXu = lim µ Xti−1 , ti ∆ti + σ Xti−1 , ti ∆Bti (3.30)
0 n→∞
i=1 i=1
95
Cada somatório do lado direito de (3.30) é uma integral. Observe que a primeira integral
não envolve nenhum termo estocástico quando temos uma informação em ti . Além disso,
a integral (ou somatório) é tomado em relação às variações ∆ti , que é determinı́stico. Isto
significa que a primeira integral é definida no sentido de Riemann-Stieltjes. A segunda
integral envolve termos que são estocásticos em ti−1 . Ou seja, dada as informações em
ti−1 , o termo ∆Bti = Bti − Bti−1 não é conhecido, e é uma variável aleatória. Como
a segunda soma envolve uma variável aleatória, o resultado dever ser uma variável
aleatória e o conceito da soma de Riemann-Stieltjes não se aplica. Deparamo-nos com
a questão de definir qual o significado da soma
n
X
σ Xti−1 , ti ∆Bti (3.31)
i=1
Na seção 1.6 vimos a definição de convergência de ordem p. Agora vamos reapresentá-la

para o caso em que p = 2. Já definimos também a variação quadrática (veja seção 3.1.2)
e a variação quadrática do Browniano (veja o teorema 3.1).
Definição 3.16. (Convergência média quadrática) Seja X = (Xt , t ≥ 0) uma

variável aleatória. Então Xt converge para X no sentido médio quadrático se
lim E (Xt − X)2 = 0

t→∞
Isto significa que quando t → ∞ a variância do erro t (t = Xt − X) tende a zero.

A soma em (3.31) é uma variável aleatória que possui convergência média quadrática.
O valor para o qual esta soma converge é definida como a integral de Itô. Em termos
da definição acima podemos escrever:
 " #2 
 Xn Z t 

lim E σ Xti−1 , ti ∆Bti − σ (Xu , u) dBu =0
n→∞  0 
i=1
Definição 3.17. (Integral de Itô) Considere o processo Browniano B = (Bt , t ≥ 0)

e a correspondente filtração natural Ft = σ (Bt , t ≥ 0). Considere σ = (σt , t ∈ [0, T ])
um processo estocástico atendendo as seguintes condições:
(i) σt é uma função de Bs , s ≤ t;
R
T
(ii) O processo σt não é explosivo, ou seja E 0
[σ (Bu )]2 du < ∞.
Todos os processos considerados estão definidos no mesmo espaço de probabilidade (Ω, F, P ),

onde P é a medida de probabilidade em relação à σ-álgebra F.
RT
A integral de Itô σ (Bu , u) dBu é o limite médio quadrático quando n → ∞
0
 " #2 
 n
X Z T 

lim E σ Bti−1 , ti ∆Bti − σ (Bu , u) dBu =0
n→∞  0 
i=1
96
A condição (i) é fundamental para a integral de Itô. Ela significa que a função
que
R T está sendo integrada deve ser não antecipativa. Se estamos considerando a integral
0
σu (Bu , u) dBu , então podemos escolher a partição
τn : 0 = t0 < t1 . . . < tn−1 < tn = T

A função σ (·), no integrando, é adaptada a Fti−1 , ou seja σ é função do movimento

Browniano até o tempo ti−1 . Caso contrário, os termos σti e ∆Bti = Bti − Bti−1 pode-
riam ser correlacionados inviabilizando a existência da convergência média quadrática.
Pode-se demonstrar a existência da integral de Itô sob estas condições. Em geral, não
é possı́vel calcular o valor limite da soma média quadrática. Um caso simples, que no
entanto é algebricamente oneroso, é a integral
Z T
Bu (ω) dBu (ω)
0
cujo resultado é
Z T
1 2
Bs (ω) dBs (ω) = BT (ω) − T (3.32)
0 2
Se tivéssemos usado o cálculo clássico usando o limite da soma de Riemann encon-
trarı́amos 12 Bt2 (ω). Este exemplo mostra o quanto diferem os resultados de uma inte-
gração em ambiente estocástico e convencional. Não se preocupe se ainda não está claro
como resolver a integral acima. Aprenderemos um pouco mais adiante como chegar ao
resultado da equação (3.32).
2
Pode-se também demonstrar que o termo (∆Bti )2 = Bti − Bti−1 converge no sen-
tido médio quadrático para T . Formalmente escrevemos
 " #2 
 Xn−1 Z T 
2 2
lim E (∆Bti ) − (dBu ) =0
n→∞  0 
i=0
e o valor da integral estocástica de Itô é

Z T
(dBu )2 = T (3.33)
0
Este resultado é coerente com o conceito visto anteriormente de que (dBt )2 = dt, ou
seja
Z T Z T
2
(dBu ) = du = T (3.34)
0 0
Definição 3.18. (Processo de Itô univariado) Considere Bt um processo Browniano

e Ft = σ (Bx , x ≤ t), para t ≥ 0. O processo de Itô é definido por
Z t Z t
Xt = x + µ (Xu , u) du + σ (Xu , u) dBu (3.35)
0 0
97
onde X0 = x representa o valor inicial do processo e os processos µ (Xt , t) e σ (Xt , t)
são adaptados à filtração natural de Bt , ou seja, à Ft . Ainda mais as funções µ (·) e
σ (·) devem atender as condições
Z t Z t
µ (Xu , u) ds < ∞ q.c. e |σ (Xu , u) |du < ∞ q.c.
0 0
onde as iniciais q.c. referem-se ao termo quase certamente.
A primeira integral do segundo membro é uma integral de Reimann-Stiltjes e a

segunda é uma integral estocástica de Itô. Na forma diferencial o processo de Itô é
assim escrito
dXt = µ (Xt , t) dt + σ (Xt , t) dBt (3.36)
para o caso especial em que µ (Xt , t) = µXt e σ (Xt , t) = σXt temos o processo
geométrico Browniano definido anteriormente na equação (3.17). O termo σ (·) é de-
nominado difusão do processo.
Considere f e g duas funções que atendam as condições estabelecidas na definição da

integral de Itô. Admita que 0 ≤ s < t < T . Então são válidas as seguintes propriedades
para a integral de Itô:
RT Rt RT
(i) s
f dBu = s
f dBu + t
f dBu
RT RT RT
(ii) s
(cf + g) dBu = c s
f dBu + s
gdBu
hR i
T
(iii) E s
f dBu = 0
2 hR i
RT T 2
(iv) Isometria de Itô: E s
f dBu =E s
f du
Ainda mais relevante é o fato de que a integral de Itô é martingal em relação à filtração
natural do movimento Browniano Ft , t ∈ [0, T ], ou seja,
Z t Z s
E σ (Su , u) dBu |Fs = σ (Su , u) dBu
0 0
Em geral a avaliação de integrais estocásticas usando o conceito de convergência média

quadrática é muito onerosa em termos dos cálculos algébricos envolvidos. Geralmente
avaliamos as integrais estocásticas a partir do uso da fórmula (lema) de Itô. Por esta
razão deixaremos os exercı́cios e exemplos para a próxima seção.
Agora entendemos o sentido da integral estocástica. Com isto aprenderemos, na

próxima seção, o conceito de diferenciação de um processo estocástico. Após, estare-
mos aptos a resolver as principais equações diferenciais estocásticas que rotineiramente
modelam os processos em finanças.
98
3.5 Fórmula de Itô
A seção anterior apresentou em que sentido é válido o conceito de integração quando
lidamos com variáveis estocásticas. Nesta seção apresentaremos o conceito da fórmula
(lema) de Itô que por sua vez está relacionado ao conceito de convergência média
quadrática. Da mesma forma que no caso de integração, o conceito de convergência
média quadrática provocará uma modificação da regra de diferenciação que conhecemos
do cálculo clássico. A fórmula (lema) de Itô permite que possamos trabalhar difer-
enciando variáveis em um ambiente estocástico. Se sabemos que St é um processo
estocástico pode-se escrever uma função F (St ). A fórmula (lema) de Itô permitirá
que calculemos o diferencial dF (St ), medindo o que acontece com F quando ocorrem
pequenas variações na variável St .
Exercı́cio 3.6. Considere um tı́tulo que pague $1 em sua maturação T . O valor deste
tı́tulo em t ∈ [0, T ] é f (Rt , t) = e−Rt (T −t) . Calcule o diferencial total d [f (Rt , t)], con-
siderando as variáveis determinı́sticas.
Antes da definição da fórmula (lema) de Itô vamos rever o desenvolvimento de uma
função f (x) em série de Taylor em torno de x0 . Considere que f seja uma função com
derivadas até ordem n + 1 tal que:
1
f (x) = f (x0 ) + f 0 (x0 ) (x − x0 ) + f 00 (x0 ) (x − x0 )2 + R (∆x)
2
onde R (∆x) refere-se aos termos subsequentes e ∆x = x − x0 . Ou ainda podemos
escrever
1
f (x) − f (x0 ) = ∆f = f 0 (x0 ) ∆x + f 00 (x0 ) (∆x)2 + R (∆x)
2
Tomando ∆x como pequenos incrementos de x, temos
df = f 0 (x) dx
onde todos o termos de ordem igual ou superior a dois são muito pequenos e desprezı́veis.
Este é o conceito de diferencial de f no cálculo clássico para a função de uma variável.
Para duas variáveis terı́amos a expansão em série de Taylor em torno do ponto (x0 , y0 ):
∂f ∂f 1 ∂ 2f
f (x, y) = f (x0 , y0 ) + (∆x) + (∆y) + (∆x)2 +
∂x ∂y 2 ∂x2
1 ∂ 2f 2 ∂ 2f
(∆y) + (∆x) (∆y) + R (∆x, ∆y)
2 ∂y 2 ∂x∂y
onde as derivadas parciais são calculadas no ponto (x0 , y0 ). Podemos ainda escrever
1
f (x, y) − f (x0 , y0 ) = ∆f = fx ∆x + fy ∆y + fxx (∆x)2 +
2
1
fyy (∆y)2 + fxy (∆x) (∆y) + R (∆x, ∆y)
2
Tomando pequenos incrementos de ∆x e ∆y e desprezando o termos de ordem superior
a dois, temos
∂f ∂f
df = dx + dy = fx dx + fy dy
∂x ∂y
99
Este é o conceito de diferencial total para uma função de duas variáveis no cálculo
clássico.
Vamos verificar o que acontece quando lidamos com variáveis estocásticas. Seja a
equação diferencial estocástica (3.29) aqui reescrita
Na forma discreta temos

∆Xti = Xti − Xti−1 = µ Xti−1 , ti ∆ti + σ Xti−1 , ti ∆Bti (3.38)
onde os termos do lado direito já foram definidos. Isto significa que em ti−1 a variável
Xti−1 é conhecida.
Agora considere a função f (Xt , t) e admita que f (·) seja uma função contı́nua e difer-
enciável duas vezes em relação a x e uma vez em relação a t. Desejamos calcular
d (f (Xti , ti )) em torno do ponto Xti−1 , ti−1 usando a expansão de Taylor:
∂f ∂f
∆fti = f (Xti , ti ) − f Xti−1 , ti−1 = ∆Xti + ∆ti +
∂x ∂t
1 ∂ 2f 2 1 ∂ 2f 2 ∂ 2f
(∆X ti
) + (∆ti ) + (∆Xti ) (∆ti ) + R (∆Xti , ∆ti ) (3.39)
2 ∂x2 2 ∂t2 ∂x∂t
Os termos de segunda ordem que não envolvem variáveis estocásticas são desprezados
conforme a mesma consideração do cálculo clássico. Assim (∆ti )2 → 0. Vamos examinar
o termo de segunda ordem (∆Xti )2 . A partir da equação (3.38) e simplificando a notação,
temos:
(∆Xti )2 = (µti ∆ti + σti ∆Bti )2 =
(µti )2 (∆ti )2 + (σti )2 (∆Bti )2 + 2µti σti ∆ti ∆Bti
O primeiro termo do lado direito é desprezı́vel. O segundo termo (∆Bti )2 tende a ∆ti no
sentido da convergência média quadrática, conforme os argumentos desenvolvidos entre
as equações (3.32) e (3.34). O último termo é da ordem (∆ti )3/2 e também tende a zero.
O termo cruzado de segunda ordem em (3.39) (∆Xti ) (∆ti ), é dado por

(∆Xti ) (∆ti ) = (∆ti ) [µti ∆ti + σti ∆Bti ]
sob os mesmos argumentos anteriores, temos que (∆Xti ) (∆ti ) → 0. Os termos do resto
R (∆Xti , ∆ti ) envolvem ordem igual o superior a três e são desprezı́veis. Então resta
de (3.39) que
∂f ∂f 1 ∂ 2f
∆fti = ∆Xti + ∆ti + 2
(σti )2 ∆ti
∂x ∂t 2 ∂x
2

∂f 1 ∂ f ∂f
∆fti = + σt2i 2 ∆ti + ∆Xti
∂t 2 ∂x ∂x
Tomando incrementos infinitesimais, temos
1 2 ∂ 2f

∂f ∂f
df = + σt 2 dt + dX
∂t 2 ∂x ∂x
100
Usando dXt de (3.37)
1 2 ∂ 2f

∂f ∂f ∂f
df = + µt + σ dt + σt dBt (3.40)
∂t ∂x 2 t ∂x2 ∂x
onde µt = µ (Xt , t) e σt = σ (Xt , t). A equação (3.40) é a fórmula (lema) de Itô que
fornece o diferencial total de uma função que tem como argumentos Xt e t. O processo
Xt cujo processo está descrito na equação (3.37).
Teorema 3.2. (Fórmula de Itô) Considere Xt um processo estocástico em 0 ≤ t ≤ T
Seja f (x) uma função contı́nua e duas vezes diferenciável, então o diferencial de f é
dado por
1
d [f (Xt )] = f 0 (Xt ) dXt + f 00 (Xt ) d [X, X] (t) (3.42)
2
ou ainda, introduzindo dXt e calculando a variação quadrática de X, temos

1 00
d [f (Xt )] = f (Xt ) µ (Xt , t) + f (Xt ) σ (Xt , t) dt + f 0 (Xt ) σ (Xt , t) dBt (3.43)
0 2
2
Exemplo 3.10. Considere f (Bt ) = Bt2 . Calcule o diferencial d(f ).
Solução: Vamos inicialmente designar x = Bt . Temos então que f (x) = x2 . Assim

∂2f
as derivadas parciais de f são ∂f
∂x
= 2x e ∂x2
= 2, logo temos:
∂f 1 ∂ 2f
df = dx + 2
(dx)2
∂x 2 ∂x
ou ainda
1
df = 2Bt dBt + 2 (dBt )2
2
= 2Bt dBt + dt
d Bt2 = 2Bt dBt + dt

Teorema 3.3. (Fórmula de Itô para duas variáveis) Seja f (x, y, t) uma função
contı́nua e derivável duas vezes com relação a x e y (com a primeira e segunda derivadas
contı́nuas) e uma vez em relação a t (com derivada contı́nua). Sejam X e Y processos
de Itô conforme (3.36) com difusões σX e σY , então
∂f ∂f ∂f 1 ∂ 2f 2 1 ∂ 2f 2
d [f (X, Y, t)] = dt + dXt + dYt + σ (X t , t) dt + σ (Yt , t) dt
∂t ∂x ∂y 2 ∂x2 X 2 ∂y 2 Y
∂ 2f
+ σX (Xt , t) σY (Yt , t) dt
∂x∂y
(3.44)
onde dBXt dBYt = ρXY dt.
Comentamos anteriormente que usarı́amos a fórmula (lema) de Itô para calcular
integrais estocásticas. Agora vamos fazê-lo.
RT
Exemplo 3.11. Calcule a integral 0 Bu dBu .
101
Solução: Sabemos do exemplo 3.10 que
d Bt2 = 2Bt dBt + dt

integrando de 0 a T ambos os membros da equação temos

Z T Z T Z T
2
dBu = 2 Bu dBu + du
0 0 0
O segundo membro contém a integral desejada. Resolvendo a equação para esta integral
ficamos com
Z T
1 T
Z
T
Bu dBu = dBu2 −
0 2 0 2
1 T
= BT2 − B02 −
2 2
2
B −T
= T
2
Este resultado já havia sido mostrado na equação (3.32). Naquela oportunidade ainda
não sabı́amos com encontrá-lo. Agora mostramos os detalhes com o auxı́lio da fórmula
(lema) de Itô.
Exercı́cio 3.7. Calcule as seguintes integrais:

RT
(i) 0 Bu2 dBu
RT
(ii) 0 udBu
Exercı́cio 3.8. Calcule o diferencial das seguintes funções:
(i) f (Bt ) = exp (Bt2 )
(ii) f (Bt , t) = exp σBt − 21 σ 2 t

Exercı́cio 3.9. Considere o movimento geométrico Browniano

1 2
St = s exp µ − σ t + σBt
2
onde, S0 = s. Calcule dSt .
Exercı́cio 3.10. Retome o enunciado do exercı́cio 3.6. Considere f (Rt , t) = e−Rt (T −t)
e que a taxa de juros segue o processo de Vasicek (veja em Vasicek (1977) [100])
dRt = (α − βRt ) dt + σdBt
onde α, β e σ são constantes positivas, encontre d [f (Rt , t)].

O exercı́cio que se segue tem o mesmo enunciado do exemplo 3.3.
102
Exercı́cio 3.11. Considere que X segue um processo geométrico Browniano com drift
α ∈ R, X0 = x = 1 e volaltilidade σ > 0. Da mesma forma Y segue um processo
geométrico Browniano com drift β ∈ R, Y0 = y = 1 e volatilidade ν > 0. A correlação
entre os Brownianos dos dois processos é ρ, ou melhor, dBX dBY = ρdt. Resolva os
itens abaixo:
(i) Faça V = XY . Que processo V segue?
(ii) Quais as correlações de dV com dX e dY ?
(iii) Faça W = X/Y . Que processo W segue?
(iv) Quais as correlações de dW com dX e dY ?
(v) Qual a correlação de dV com dW ?

Exercı́cio 3.12. Retome o enunciado do exercı́cio 3.11. Mostre que dBX pode ser
expresso como uma função
p de sua projeção em dBY mais um resı́duo independente,
tal que dBX = ρdBY + 1 − ρ2 d.
Teorema 3.4. (Fórmula de Itô multivariada) Considere X1 , . . . , Xn processos Itô
2
tais que
dXi = µi (X1 , . . . , Xn ) dt + σi (X1 , . . . , Xn ) dBXi (3.45)
Seja f (X1 , . . . , Xn , t), onde f é contı́nua e duas vezes diferenciável em relação a xi
(com derivadas contı́nuas) e uma vez em ralação a t (com derivada contı́nua), então o
diferencial de f será
∂f X ∂f 1 X ∂ 2f
df (X1 , . . . , Xn , t) = dt + dXi + dXi dXj (3.46)
∂t i
∂x i 2 i,j
∂x i ∂x j
onde dBXi dBXj = ρij dt, i 6= j.

Exemplo 3.12. Sejam Xt e Yt dois processos estocásticos definidos por dXt = αdt +
σdBXt e dYt = βdt + νdBYt com X0 = Y0 = 0. Seja g (X, Y, t) = etX + etY . Calcule
dg (·).
Solução: Sabemos que Xt = αt + σBXt e Yt = βt + νBYt . Então a função g (·) é dada

por
2 βt2 +νtBYt
g (X, Y, t) = e|αt +σtB
{z } + e| {z }
Xt
gX (x,t) gY (y,t)
onde x ≡ BXt e y ≡ BYt . Temos então que
dg (·) = d (gX (x, t)) + d (gY (y, t))
∂gX ∂gX 1 ∂ 2 gX
dg (·) = dt + dBXt + 2
(dBXt )2
∂t ∂x 2 ∂x
∂gY ∂gY 1 ∂ 2 gY
+ dt + dBYt + 2
(dBYt )2
∂t ∂y 2 ∂y
2
Para simplificar a notação eliminamos o subscrito t das variáveis estocásticas.
103
2 +σtB 1 2
2 +σtB
dg (·) = eαt Xt
(2αt + σBXt ) dt + eαt σtdBXt + eαt +σtBXt σ 2 t2 dt
Xt
2
2 2 1 2
+ eβt +νtBYt (2βt + νBYt ) dt + eβt +νtBYt νtdBYt + eβt +νtBYt ν 2 t2 dt
2

αt2 +σtBXt 1 22 βt2 +νtBYt 1 22
dg (·) = e 2αt + σBXt + σ t + e 2βt + νBYt + ν t dt
2 2
2 +σtB 2 +νtB
+ eαt Xt
σtdBXt + eβt Yt
νtdBYt
Exemplo 3.13. Retome o enunciando do exercı́cio 3.11. Seja f (X, Y ) = XY . Calcule

o diferencial df (·).
Solução: Agora temos que fx = Y , fy = X, fxx = fyy = 0 e fxy = 1. Logo o

diferencial df (·), usando a equação (3.44), será
df (·) = Y (Xαdt + XσdBX ) + X (Y βdt + Y νdBY ) + dXdY
df (·) = XY αdt + XY βdt + σνXY dBX dBY + XY σdBX + XY νdBY

Lembrando que f (X, Y ) = XY e que dBX dBY = ρdt, obtemos:
df
= (α + β + σνρ) dt + σdBX + νdBY
f

1
Exercı́cio 3.13. Considere o mesmo enunciado do exercı́cio 3.11. Seja f (X, Y ) = XY
.
Calcule df (·).
Exercı́cio 3.14. Considere os seguintes processos estocásticos dXt = µX dt + σX dBXt

e dYt = µY dt + σY dBYt com X0 = Y0 = 0 e dBXt dBYt = ρdt. Seja f (X, Y, t) = eX+Y ,
calcule df (·).
3.6 Exemplos de EDE´s

Embora este texto dedique o capı́tulo 6 às EDE´s, achamos oportuno apresentar alguns
exemplos e suas soluções neste capı́tulo. Faremos isto nesta seção. No capı́tulo 6 tere-
mos a oportunidade de formalizarmos estes conceitos.
Aprendemos ao longo deste capı́tulo que a forma diferencial do processo estocástico

definido como processo geométrico Browniano tem uma solução fechada. Entretanto
não apresentamos a sua solução. Outro processo estocástico muito comum em finanças
é o processo de reversão à média, também conhecido como Ornstein-Uhlenbeck. Veremos
a sua solução. Esta seção contém a formalização da solução de algumas EDE’s.
104
3.6.1 Processo geométrico Browniano
A equação (3.17) é utilizada em finanças para descrever os preços de ações. Vimos que
S representa o preço da ação e que a sua distribuição é lognormal, adequada pois a
representar variáveis que assumem valores positivos. Reescrevemos a equação a seguir
dXt
= µdt + σdBt para t ≥ 0, X0 = x
Xt
onde µ ∈ R e σ > 0. Desejamos encontrar uma solução para esta equação3 , i.e.,
Xt = f (Bt , t).
Na forma integral esta equação é escrita como

Z t Z t
Xt = x + µf (Bu , u) du + σf (Bu , u) dBu (3.47)
0 0
onde a primeira integral é de Riemann-Stieltjes, a segunda é de Itô e X0 é o preço do

ativo em t = 0. Considerando Xt = f (Bt , t) = f (x, t), podemos usar a fórmula (lema)
de Itô
∂f ∂f 1 ∂ 2f
df [(x, t)] = dt + dBt + (dBt )2
∂t ∂x 2 ∂x2
1 ∂ 2f 1 ∂ 2f

∂f ∂f ∂f ∂f
d [f (x, t)] = dt + dBt + 2
dt = + 2
dt + dBt
∂t ∂x 2 ∂x ∂t 2 ∂x ∂x
integrando ambos os lados desta equação, temos
Z t Z t
1 ∂ 2f

∂f ∂f
f (Bt , t) − f (B0 , 0) = + 2
du + dBu (3.48)
0 ∂u 2 ∂x 0 ∂x
Comparando as equações (3.48) e (3.47), podemos dizer para a segunda integral que
∂f df
= σf ⇒ = σdx ⇒ ln f − ln g (t) = σx
∂x f
e então
f = g (t) eσx (3.49)
Para a primeira integral podemos escrever
∂f 1 ∂ 2f
+ = µf (3.50)
∂u 2 ∂x2
Mas a equação (3.49) significa que
∂f
= g 0 (t) eσx
∂t
3
A solução para a equação dXt = µ (X, t) dt + σ (X, t) dBt existe e é única desde que as funções
µ (Xt , t) e σ (Xt , t) sejam contı́nuas e a condição de Lipshitz para Xt seja válida. Veja a demonstração
desta propriedade em Kloeden and Platen (1992) [63]. Veja também a definição da condição de Lipshitz
para uma função f (x) x ∈ R, no Apêndice deste capı́tulo. Formalizaremos estes conceitos no capı́tulo
6.
105
∂ 2f
= g (t) σ 2 eσx
∂x2
Introduzindo ambos os resultados na equação (3.49), temos
1
g 0 (t) eσx + g (t) σ 2 eσx = µf = µg (t) eσx
2
Simplificando esta equação resulta
g 0 (t)

1 2 1 2 1 2
0
g (t) = µ − σ g (t) ⇒ = µ − σ ⇒ g (t) = Ce(µ− 2 σ )t
2 g (t) 2
onde C é uma constante relacionada às condições iniciais. Levando este resultado na
equação (3.49), temos finalmente
1 2
f (Bt , t) = Ce(µ− 2 σ )t+σBt
E em t = 0 o preço do ativo é X0 = x, resultando em
1 2
Xt = xe(µ− 2 σ )t+σBt
3.6.2 Equação de Langevin

A equação de Langevin é dada por
dXt = µXt dt + σdBt para t ≥ 0, X0 = x (3.51)
onde µ e σ > 0 são parâmetros. Desejamos encontrar a solução Xt .
Considere o fator de integração e−µt e multiplique ambos os membros da equação acima
e−µt dXt = µe−µt Xt dt + σe−µt dBt (3.52)

−µt
Agora considere a funão g (t, Xt ) = e Xt e calcule o seu diferencial d [g (t, Xt )] usando
a fórmula (lema) de Itô
d [g (t, Xt )] = d e−µt Xt = −µe−µt Xt dt + e−µt dXt

(3.53)
Somando membro a membro as equações (3.52) e (3.53)
d e−µt Xt + e−µt dXt = σe−µt dBt + e−µt dXt

Simplificando
d e−µt Xt = σe−µt dBt

E agora integrando de t = 0 a t
Z t
−µt
e Xt − x = σ e−µu dBu
0
Finalmente chegamos ao resultado

Z t
µt
Xt = xe + σ eµ(t−u) dBu
0
Rt
Exercı́cio 3.15. Calcule a média e a variância de Xt = X0 eµt +σ 0
eµ(t−u) dBu . Calcule
a covariância Cov (Xt , Xu ) para s < t.
106
3.6.3 Processo de Ornstein-Uhlenbeck
Também conhecido como processo de reversão à média, o processo de Ornstein-Uhlenbeck
(OU) é um processo que reverte à média de longo prazo e é dado por

dXt = X̄ − Xt dt + σdBt para t ≥ 0, X0 = x (3.54)
onde X̄ é a média de longo prazo do preço do ativo e σ > 0 a volatilidade. Buscamos a

solução Xt .
Esta dinâmica significa que o preço flutua mas é atraı́do para a média de longo prazo.
Considere o fator de integração et e multiplique ambos membros da equação (3.54)
et dXt = X̄ − Xt et dt + σet dBt

(3.55)
Considere a função g (t, Xt ) = et Xt e use a fórmula (lema) de Itô para calcular d [g (t, Xt )]
d [g (t, Xt )] = d et Xt = et Xt dt + et dXt

(3.56)
Somando membro a membro as equações (3.55) e (3.56)
d et Xt = X̄et dt + σet dBt

Integrando de t = 0 a t
Z t
t t
e Xt − x = X̄e − X̄ + σ eu dBu
0
Z t
t t
e Xt = x − X̄ + X̄e + σ eu dBu
0
e finalmente Z t
−t
eu−t dBu

Xt = X̄ + x − X̄ e +σ
0
Exercı́cio 3.16. A equação (3.54) pode ser alterada para

dXt = k X̄ − Xt dt + σdBt para t ≥ 0, X0 = x (3.57)
neste caso k > 0 representa a velocidade de reversão e σ > 0 a volatilidade. Agora o

preço do ativo flutua mas retorna à média de longo prazo com velocidade k:
(i) resolva esta equação usando o fator de integração ekt ,
(ii) calcule a média e a variância de Xt .
O processo de reversão é utilizado para modelar muitas variáveis econômicas que ten-
dem a retornar a valores médios de longo prazo. Uma das aplicações é o uso do processo
de reversão, análogo ao da equação (3.57), para modelar a taxa de juros. Antecipamos
isto no exercı́cio 3.10. De fato, a taxa de juros acompanha os ciclos econômicos que no
longo prazo alternam perı́odos de expansão e de recessão.
107
Outra aplicação dos processos de reversão ocorre na modelagem dos preços das commodi-
ties. Em geral os produtores ofertam seus produtos de acordo com os preços. Assim se os
preços estão elevados os produtores irão ofertar em abundância ocasionando uma queda
nos preços. Por outro lado, se os preços estão baixos eles se sentem pouco atraı́dos a
ofertar e então o produto torna-se escasso no mercado. Isto provoca uma alta nos preços.
Portanto, existe uma tendência dos preços acompanharem a média de longo prazo.
Existem variantes do processo de reversão. Uma delas muito comum e usada para
modelar preços de commodities é o processo geométrico de reversão. Estaremos neste
texto dedicando especial atenção, em um capı́tulo inteiro, aos processos estocásticos
utilizados na modelagem de commodities. Não obstante, é oportuno neste momento
apresentarmos um pouco mais sobre estes modelos.
Schwartz (1997) [88] modelou os preços das commodities pelo processo geométrico de
reversão
dXt = k (µ − ln Xt ) Xt dt + σXt dBt (3.58)
onde St representa o preço à vista da commodity e σ > 0 a volatilidade. Este preço
reverte para a média de longo prazo X̄ = eµ a uma velocidade de reversão igual a k > 0.
Observe a primeira parcela do segundo membro das equações (3.57) e (3.58). Se X

está acima de X̄, então esta parcela é negativa e o preço tende a reduzir, no sentido de
X̄. Da mesma forma, se X está abaixo de X̄, esta parcela é positiva e tende a aumentar
o preço, no sentido de X̄.
Exercı́cio 3.17. Considere na equação (3.58) que Yt = ln Xt . Derive o processo es-

tocástico de Yt através da fórmula (lema) de Itô.
Como resposta do exercı́cio 3.17 encontramos que
dYt = k (θ − Yt ) dt + σdBt (3.59)

2
onde θ = µ − σ2k , Yt segue o processo de Ornstein-Uhlenbeck definido na equação (3.57).
A figura 3.4 mostra quatro trajetórias do processo geométrico de reversão definido pela
equação (3.58). Nesta simulação o preço inicial é X0 = $50, a volatilidade é σ = 20%
ao ano e a média de longo prazo é X̄ = $54. Observe que à medida que as velocidades
de reversão aumentam, os preços são atraı́dos para a média X̄ mais fortemente. Foram
usados os mesmos choques nas simulações das quatro trajetórias.
Retome a definição do processo de reversão na equação

(3.57). A primeira parcela do
segundo membro desta equação é dXt = k X̄ − Xt dt. Integrando de t = 0 a t, obtemos
Xt − X̄ = x − X̄ e−kt

Se definirmos tH como o tempo para X cair para a metade de seu nı́vel inicial temos
1
x − X̄ = x − X̄ e−ktH

2
108
Figura 3.4: Simulações do processo geométrico de reversão
O tempo tH é definido como a meia-vida do processo de reversão. É uma forma distinta

de nos referirmos à velocidade de reversão. Resolvendo a última equação temos a meia-
vida
ln 2
tH = (3.60)
k
Como dissemos anteriormente voltaremos a estes conceitos nos capı́tulos seguintes quando
trataremos da simulação de processos estocásticos e da modelagem de commodities, res-
pectivamente.

Este capı́tulo constitui a base necessária para o desenvolvimento das metodologias de
apreçamento de derivativos. Primeiramente destacamos o conceito de processo Browni-
ano, Bt ∼ N (0, t), que tem valor inicial zero, tem incrementos estacionários e indepen-
dentes e possui realizações contı́nuas (sem saltos). Estas propriedades lhe conferem a
condição de não diferenciabilidade no sentido clássico.
Seguimos com o conceito de valor esperado condicional e com a noção de σ-álgebra.

A relevância destes dois conceitos está no fato de que em finanças é importante que
saibamos calcular o valor esperado de uma variável aletória no futuro dado um conjunto
de informações disponı́veis atualmente. A σ-álgebra é o conceito matemático que re-
trata este conjunto de informações diponı́veis. O valor esperado condicional é sempre
calculado em relação a uma função de probabilidade (ou medida de probabilidade) e a
109
uma σ-álgebra, de tal forma que escrevemos E P (Xt |Fs ) para expressar o valor esper-
ado, segundo a função probabilidade P , da variável aleatória X no instante t dada as
informçãoes do instante s, sendo s < t. Alterando-se a medida de probabilidade e/ou a
σ-álgebra o valor esperado em geral modifica-se.
Em seguida definimos o processo martingal como aquele em que o valor esperado condi-
cional para o processo em t é o seu valor em s, ou seja, E P (Xt |Fs ) = Xs . Aqui vale
destacar que esta propriedade permitirá o apreçamento de derivativos de uma forma
muito simples. Isto porque se encontrarmos uma medida de probabilidade Q em relação
a qual o processo é martingal, então o valor esperado da variável em uma data futura
é o seu valor hoje. Isto reduz bastante os cálculos comparativamente à metodologia
clássica de apreçamento. No capı́tluo 4 trataremos da metodologia clássica e faremos
o apreçamento de opções como no modelo de Black, Merton e Scholes. No capı́tulo
posterior usaremos o conceito da propriedade martingal, aqui apresentado.
Os dois tópicos seguintes estão intimamente relacionados. Desenvolvemos o conceito

de integração em ambiente estocástico. Uma vez definido o conceito de integração, a
operação de diferenciação passa a fazer sentido neste ambiente. Definimos a integral de
Itô como sendo o resultado da convergência média quadrática na definição 3.17 e aqui
enfatizado
 " #2 
 Xn Z T 

lim E σ Bti−1 , ti ∆Bti − σ (Bu , u) dBu =0
n→∞  0 
i=1
Com o conceito da integral de Itô pudemos definir o processo de Itô na definição 3.18
Z t Z t
Xt = x + µ (Xu , u) du + σ (Xu , u) dBu
0 0
onde a primeira integral é de Reimann e a segunda é uma integral de Itô. Vimos também
que a integral de Itô goza da propriedade martingal. Estando definido o sentido de
integração, pode-se escrever o processo na forma diferencial como
dXt = µ (Xt , t) dt + σ (Xt , t) dBt
Para o caso especial em que µ (Xt , t) = µXt e σ (Xt , t) = σXt temos o processo
geométrico Browniano definido por
dXt = µXt dt + σXt dBt para t ≥ 0, X0 = x
A seguir definimos a fórmula de Itô que nada mais é do que a operacionalização da difer-
enciação total de variáveis estocásticas, equivalentemente à regra da cadeia no cálculo
clássico. Vimos como calcular d [f (Xt , t)] onde Xt segue é um processo de Itô acima. A
regra de diferenciação é
1 2 ∂ 2f

∂f ∂f ∂f
df (Xt , t) = + µt + σt 2 dt + σ dBt
∂t ∂x 2 ∂x ∂x
110
onde µt = µ (Xt , t) e σt = σ (Xt , t). A fórmula de Itô juntamente com a propriedade
martingal são as ferramentas básicas para o desenvolvimento de apreçamento de deriva-
tivos em finanças. Já no capı́tulo 4 faremos uso da fórmula de Itô na derivação do
modelo de Black, Merton e Scholes. Finalizamos o capı́tulo 3 com a aplicação de todos
os conceitos acima. Para tal resolvemos algumas equações diferenciais estocásticas que
são usuais em finanças com destaque para o processo geométrico Browniano e a equação
de Ornstein-Uhlenbeck.
3.8 Apêndice - Variação quadrática, condições de

Lipshitz e Hölder
3.8.1 Variação quadrática
Repetimos abaixo o enunciado do teorema 3.1 e apresentamos a sua demonstração.
Seja Bt , 0 ≤ t ≤ T , uma processo Browninao padrão e seja τ uma partição assim

definida
τ : 0 = t0 < t1 < . . . tn = T
então a variação quadrática [B, B] (T ) = T é
n−1
X 2
[B, B] (T ) = lim Bti+1 − Bti =T
δ→0
i=0
Pn−1 2
Prova. Seja S = i=0 Bti+ − Bti . Temos que provar que limδ→0 S = T . A soma S
é uma variável aleatória. Se tomarmos diferentes partições teremos diferentes caminhos,
que calculados com base na definição de S e tomado o limite, fornecerão sempre como
resultado o valor T . Vamos calcular o valor esperado e a variância de S.
n−1
! n−1 n−1
X 2 X 2
X
E (S) = E Bti+1 − Bti = E (Bti=1 − Bti ) = (ti+1 − ti ) = T
i=0 i=0 i=0
" n−1 # n−1
X 2 X h 2 i
V ar (S) = V ar Bti+1 − Bti = V ar Bti+1 − Bti
i=0 i=0
h 2 i
Vamos calucular a variância V ar Bti+1 − Bti e posteriormente substituir na equação
acima.
h
h 2 i 2 h 2 ii2
V ar Bti+1 − Bti =E Bti+1 − Bti − E Bti+1 − Bti
h i2
2
=E Bti+1 − Bti − (ti+1 − ti )
h 4 2 i
2
= E Bti+1 − Bti + (ti+1 − ti ) − 2 (ti+1 − ti ) Bti+1 − Bti
h 4 i h 2 i
= E Bti+1 − Bti + (ti+1 − ti )2 − 2 (ti+1 − ti ) E Bti+1 − Bti
= 3 (ti+1 − ti )2 + (ti+1 − ti )2 − 2 (ti+1 − ti )2 = 2 (ti+1 − ti )2
111
a primeira parcela da penúltima linha é a curtose de uma normal com média zero e
variância ti+1 − ti que é igual a três vezes a variância ao quadrado, veja a equação (1.13).
Logo a variância de S será
n−1
X n−1
X
2
V ar (S) = 2 (ti+1 − ti ) = 2 (ti+1 − ti ) (ti+1 − ti )
i=0 i=0
Se substituirmos (ti+1 − ti ) por δ que é o máximo valor dentre todos, temos um limite
superior para a variância, ou seja
n−1
X
V ar (S) ≤ 2δ (ti+1 − ti ) = 2δT
i=0
E agora tomando o limite quando δ tende a zero, temos
lim = 0
δ→0
Em outras palavras, mostramos que o valor esperado de S é T e que sua variância tende
a zero. O que foi demonstrado fornece o suporte para o entendimento das equações (3.3),
(3.8) e (3.11), culminando com a regra básica 2 na equação (3.13).
3.8.2 Condições de Lipshitz e Hölder

Definição 3.19. (Condição de Lipshitz) Uma função f satizfaz a condição de
Lipshitz sem [a, b] se existe uma constante K ≥ 0 tal que para todo x, y ∈ [a, b]
|f (x) − f (y) | ≤ K|x − y| (3.61)
Se f é continuamente diferenciável em [a, b] então ela atende as condições de Lipshitz

ou simplesmente é Lipshitz. Uma função Lipshitz em [a, b] possui variação finita em
[a, b]. O produto de duas funções Lipshitz e limitadas é também Lipshitz.
Definição 3.20. (Condição de Hölder) Uma função f satisfaz a condição de Hölder

de ordem p, 0 < p ≤ 1 em [a, b] se existe uma constante K > 0 positiva tal que para
todo x, y ∈ [a, b]
|f (x) − f (y) | ≤ K|x − y|p (3.62)
A condição de Lipshitz é um caso particular de Hölder quando p = 1.
112
Capı́tulo 4
Modelo de Black, Merton e Scholes
A utilização de processos estocásticos em finanças tornou-se bem sucedida a partir dos

modelos de apreçamento de Black e Scholes (1973) [9] e Merton (1973) [73]. Estes tra-
balhos seminais mudaram o rumo da teoria em finanças e propiciaram o surgimento
de vários instrumentos financeiros que puderam ser apreçados por estes conceitos. Por
outro lado, o desenvolvimento dos mercados e instrumentos financeiros impulsionaram
o desenvolvimento dos estudos em finanças. No inı́cio do século passado, Bachelier com
sua tese de doutorado entitulada Théorie de la Spéculation proveu as bases dos processos
de difusão Markovianos introduzindo o processo Browniano na teoria de finanças. Muito
depois, Samuelson (1965) [86] utilizou o processo geométrico Browniano na modelagem
dos preços de ações (Veja em Jarrow e Protter (2004) [58] um relato da aplicação dos
conceitos de cálculo estocástico em finanças).
Neste texto denominaremos de modelo de BMS os modelos de apreçamentos de con-

tratos de opções Européias desenvolvidos por Black e Scholes (1973) [9] e Merton (1973)
[73]. Este capı́tulo apresentará a derivação destes modelos usando a metodologia clássica
de apreçamento, ou seja tal como desenvolvido por estes autores. Estes modelos definem
o preço de contratos de opções a partir da solução de uma equação diferencial parcial
de segunda ordem. Posteriormente, em 1979 a metodologia de apreçamento sofreu novo
impulso e o apreçamento de tais contratos passaram a utilizar o conceito da propriedade
martingal. Os resultados dos apreçamentos por uma metodologia ou outra são idênticos,
porém a propriedade martingal facilita os cálculos. O apreçamento pela medida mar-
tingal será desenvolvido nos capı́tulos seguintes.
Existem vários textos classicos que cobrem os tópicos desta capı́tulo. Wilmott, Howison
e Dewynne (1995) [101] trata o apreçamento utilizando a abordagem clássica, ou seja,
através da solução de equações diferenciais. Hull (2000) [53] é o livro texto mais usual
para o tratamento de conceitos introdutórios de derivativos em geral. McDonald (2003)
[70] trata os conceitos de derivativos com este mesmo enfoque e com idêntico nı́vel de
abordagem. Shimko (1992) [93] apresenta conceitos básicos do cálculo estocástico e
o apreçamento através de EDP´s. Além dos textos acima, acrescentamos o artigo de
Smith (1976) [96] que apresenta um sumário do desenvolvimento do apreçamento de
opções até aquela data.
113
4.1 Conceitos básicos
Considere que o preço à vista de uma ação no instante t seja Xt . Considere também que
a evolução de Xt siga um processo geométrico Browniano tal qual definido no capı́tulo
3 ou mais apropriadamente definido pela equação (3.17).
Definição 4.1. (Opção Européia) Um contrato de uma opção financeira do tipo Eu-
ropéia fornece ao seu proprietário o direito, mas não a obrigação, de comprar/vender
um ativo (ativo objeto ou subjacente) por um preço K (preço de exercı́cio) em uma data
especificada, T (data do vencimento).
O proprietário do contrato de opção adquire este direito em um instante t pagando

um prêmio que é preço da opção de compra ct ou da opção de venda vt . Em t = T
(data de exercı́cio ou vencimento do contrato) ele irá decidir se adquire ou vende a ação
pelo preço definido no contrato K (preço de exercı́cio). Denominaremos o valor deste
contrato no vencimento pela função ΛT . A opção de compra será vantajosa para o seu
proprietário se no vencimento XT > K. A opção de venda será vantajosa se ocorrer
o inverso, K > XT . Isto significa que no vencimento (t = T ) as opções de compra
e venda valem ΛT = (XT − K)+ e ΛT = (K − XT )+ , respectivamente. A figura 4.1
mostra os valores da opção de compra para diversos valores do preço do ativo objeto na
data do vencimento. Um gráfico desta natureza é denominado de diagrama de posição.
A figura 4.2 mostra o diagrama de posição para uma opção de venda na data do venci-
mento. Para XT > K a opção de venda não tem valor no vencimento. É intuitivo que
Figura 4.1: Diagrama de posição de uma opção de compra
em uma data anterior ao vencimento (t < T ) o valor da opção deve ser função do preço
da ação Xt , ou seja, pode-se escrever c (Xt , t) para a opção de compra ou v (Xt , t) para a
opção de venda. Uma forma mais completa de retratar estas variáveis seria escrevê-las
na forma c (Xt , t; K, T, σ, r) e v (Xt , t; K, T, σ, r). Por simplicidade de notação vamos
114
Figura 4.2: Diagrama de posição de uma opção de venda
escrevê-las de forma abreviada como c (Xt , t) e v (Xt , t), ou simplismente por ct e vt , ou

ainda como notações reduzidas da forma completa acima. Pelo fato do valor da opção ser
uma função do preço da ação, dizemos que o contrato de opção é um derivativo, ou seja o
seu preço deriva do preço do ativo objeto ou subjacente (ação). Existem inúmeros outros
contratos de derivativos como, por exemplo, os contratos futuros, forward, swaps, opções
exóticas, etc. Oportunamente definiremos cada um destes derivativos. As metodologias
deste e do próximo capı́tulo permitirão o apreçamento de derivativos de uma forma
geral, entretanto neste capı́tulo ficaremos restritos aos derivativos denominados opções.
A definição acima apresentou o conceito de opção do tipo Européia (c (Xt , t)). Neste
tipo de opção o seu detentor pode exercer o seu direito somente na data do vencimento.
Há também a opção do tipo Americana (C (Xt , t)) em que o proprietário pode exercer o
seu direito em qualquer data até o vencimento em t = T . Diferentemente dos dois tipos
anteriores, há a opção do tipo Bermuda em que o direito pode ser exercido em algumas
datas pré-definidas (mas não em qualquer data) até o vencimento. Devido ao fato de
que o ganho de uma opção é definido pelo melhor interesse de seu possuidor o seu valor
será sempre maior ou igual a zero. Assim podemos escrever
c (Xt , t) ≥ 0 C (Xt , t) ≥ 0 opção de compra

(4.1)
v (Xt , t) ≥ 0 V (Xt , t) ≥ 0 opção de venda
As opções podem ser negociadas por interesse especulativo ou por necessidade de proteção
do ativo objeto. Por exemplo se um investidor acredita que o preço de determinada ação
irá aumentar nos próximos meses, pode adquirir uma opção de compra. No vencimento
se sua expectativa se confirmar estará tendo lucro. Este lucro será tanto maior quanto
maior for o preço do ativo objeto no vencimento. Se a sua expectcativa não se confir-
mar, a sua opção nada valerá no vencimento e sua perda estará limitada ao valor pago
para adquirir a opção (prêmio). A contra-parte do investidor que adquire uma opção
de compra é outro investidor que lança esta mesma opção. A sua posição é contrária à
115
do comprador, isto é, se a ação valorizar-se muito sua perda é ilimitada pois terá que
vender a ação por um preço (preço de exercı́cio) muito inferior ao preço à vista. Se o
preço da ação cair, o seu lucro estará limitado o prêmio que recebeu quando vendeu a
opção. Inversamente, se o investidor antevê momentos de desvalorização da ação, pode
adquirir uma opção de venda. E novamente, em se realizando sua previsão terá lucro
e este lucro será tanto maior quanto maior for a queda do preço. Se a sua previsão
estiver errada perderá o prêmio que pagou pela opção. A sua contra-parte está em uma
posição contrária. Se o preço da ação cair, o lançador da opção de venda terá perdas
significativas, entretanto se não se configurar tal cenário, seu ganho estará limitado ao
prêmio que recebeu pela venda. Neste caso os investidores estarão atuando meramente
com fins especulativos, buscando tirar proveito de uma situação que pode acontecer
ou não. Quando um investidor possui uma ação e teme perdas devido ao movimento
futuro de queda dos preços, pode proteger-se de tal situação adquirindo uma opção de
venda. Assim a desvalorização de sua ação será compensada pelo ganho que terá com
a opção. Alternativamente o investidor pode lançar uma opção de compra e se o preço
da ação cair abaixo do preço de exercı́cio não haverá o exercı́cio, ele ganhará o prêmio
pela venda da opção. Nestes casos o investidor buscou estratégias que protegessem o seu
ativo contra um cenário desfavorável. É natural que a existência do mercado de opções
com finalidade de proteção será tanto mais útil para os investidores quanto maior for a
incerteza dos preços no futuro. Em outras palavras, se o cenário de incerteza dos preços
for grande (alta volatilidade) as opções terão mais valor para os agentes que negociam.
Um conceito fundamental na teoria de apreçamento de contratos é o de arbitragem.

Evoluiremos com este conceito no capı́tulo seguinte apresentando a sua formalização.
Por enquanto definiremos arbitragem como a operação no mercado financeiro que per-
mite ganhos sem envolver riscos de perdas. A não possibilidade de arbitragem (ou de
ganhos sem riscos) nos permitirá realizar o apreçamento de contratos. Usaremos sempre
a condição de não arbitragem, ou seja, não há lucro livre de risco a partir de estratégias
tomadas no mercado. Para exemplificar, suponha que o custo de uma estratégia A de
investimento seja IA e que o de outra estratégia B seja IB . Estas estratégias podem
ser tomadas no instante t. Considere que na data T as duas estratégias têm o mesmo
valor. Portanto, o custo destas duas estratégias em t deve ser o mesmo, ou seja, IA = IB .
Outro conceito relevante em finanças é o da taxa livre de risco. A taxa livre de risco é o
retorno de um investimento em que não há possibilidade de perda. Uma aproximação de
tal situação são os tı́tulos emitidos por paı́ses desenvolvidos. O mercado considera que
tais paı́ses honrarão suas emissões pagando a remuneração contratualmente acordada
com os investidores. Consideraremos que sempre exista a taxa livre de risco denominada
por r. Se uma estratégia de investimento não oferece risco algum a sua remuneração
deve ser a taxa livre de risco, caso contrário haveria a possibilidade de arbitragem.
Os conceitos apresentados acima permitem que encontremos uma relação de equivalência

entre a opção de compra e a opção de venda sobre o mesmo ativo com o mesmo preço
de exercı́cio e maturidade. Esta relação é denominada de paridade entre a opção de
compra ct e a opção de venda vt .
Proposição 4.1 (Paridade entre opções de compra e venda). Considere que (i)
116
uma ação (ativo subjacente) não pague dividendos no perı́odo [0, T ]; (ii) a taxa livre
de risco seja constante neste perı́odo e igual a r; (iii) que não haja possibilidade de
arbitragem. Considere também que em t (0 ≤ t ≤ T ) o preço à vista do ativo subjacente
seja Xt e as opções Européias de compra e venda, com preço de exercı́cio K e vencimento
em T , valham ct e vt , respectivamente. Então é válida a relação
Xt + vt = ct + Ke−r(T −t) (4.2)
Prova. Considere uma carteira (ou portfólio) em que se compre uma ação à vista, uma
opção de venda e que se venda uma opção de compra. No tempo t esta carteira valerá
Xt + vt − ct . No vencimento, em t = T duas situações podem ocorrer: (i) XT > K e (ii)
XT ≤ K. No primeiro caso a carteira valerá XT + 0 − (XT − K) = K. No segundo caso
a carteira valerá XT + (K − XT ) + 0 = K. Ou seja, no vencimento o valor da carteira
será sempre K qualquer que seja o estado da natureza. Então na data t o valor da
carteira será o valor na data T , que é igual a K, descontado pela taxa livre de risco no
perı́odo T − t, isto é, Ke−r(T −t) . Caso contrário haveria a possibilidade de arbitragem.
Consequentemetne podemos escrever Xt + vt − ct = Ke−r(T −t) . Desta forma obtemos a
equação (4.2).
A equação (4.2) estabelece que o valor de uma ação mais uma opção de venda
equivale uma opção de compra mais o valor presente do preço de exercı́cio. Isto significa
também que, caso em um mercado, haja somente negociação de opções de compra,
pode-se construir sinteticamente uma opção de venda de mesmo preço de exercı́cio e
maturidade. O inverso também é verdadeiro para opções de venda, podendo-se obter
sinteticamente opções de compra. Observe também que, na demonstração acima, não
foi feita nenhuma consideração sobre a dinâmica de Xt .
Exercı́cio 4.1. Qual o valor de um portfólio, na data T , formado por uma ação (de
preço Xt ) e uma opção de venda sobre esta ação com preço de exercı́cio K?
4.2 Modelo de Black e Scholes

A questão natural que surge é saber qual o valor de uma opção (compra ou venda) em
um instante t < T , ou seja, precisamos apreçar o contrato de uma opção definindo o seu
preço c = f (Xt , t). Em outras palavras, qual o preço justo de um contrato deste tipo?
Existe alguma modelo que permita definir este preço justo? Estas questões estavam na
mente dos pesquisadores que se dedicavam muito a encontrar a resposta para o prob-
lema. Por outro lado, os mercados de opções estavam sendo organizados e apesar das
negociações destes contratos serem incipientes havia um grande interesse em modelos
que pudessem expressar o preço justo. Black e Scholes (1973) [9] e Merton (1973) [73]
foram os responsáveis diretos pelas fórmulas de apreçamento que se tornaram famosas
a partir da publicação destes artigos. Esta seção apresentará a derivação do modelo de
Black e Scholes (1973). O modelo de Merton (1973) é uma generalização do modelo de
Black e Scholes (1973) e será apresentado na seção seguinte.
Considere que o preço à vista de uma ação seja Xt . O preço de uma opção de compra
sobre esta ação é c = f (X, t), o contrato tem maturidade T e o preço de exercı́cio é K.
Considere também que as seguintes hipóteses sejam verificadas:
117
(i) a taxa livre de risco r é constante durante todo perı́odo de maturação;
(ii) a opção de compra é do tipo Européia;
(iii) o ativo subjacente não paga dividendos durante a maturidade da opção;
(iv) o ativo subjacente segue um processo geométrico Browniano, isto é, a distribuição
dos preços é lognormal;
(v) não há custos de transação e impostos, os ativos são infinitamente divisı́veis e as
transações ocorrem continuamente ao longo da vida da opção;
(vi) a volatilidade é constante durante todo o perı́odo de maturação;
(vii) o mercado não admite a possibilidade de arbitragem.
Muitas destas considerações podem ser relaxadas e ainda pode-se obter uma solução
analı́tica para o modelo. Outras, tais como o tipo do processo estocástico seguido pelo
ativo subjacente quando alterado, podem ter um custo adicional implicando, em geral,
em soluções numéricas para o modelo.
Considere portanto o processo estocástico geométrico Browniano para o preço do ativo

subjacente Xt , ou seja,
1 2
Xt = Xu e(µ− 2 σ )(t−u)+σBt−u (4.3)
onde µ ∈ R, σ > 0 e B = (Bt , t ≥ 0) é o Browniano com a filtração associda Ft .
Vimos no capı́tulo 3 que a equação (4.3) equivale a seguinte forma diferencial, ou mais
apropriadamente é a solução da seguinte EDE (equação diferencial estocástica)
dXt
= µdt + σdBt (4.4)
Xt
para 0 ≤ u ≤ t < T .
O valor da opção de compra Européia é função do preço do ativo Xt = x e do

tempo: c = f (x, t). No vencimento, quando t = T , o valor da opção é o máximo entre
o valor da ação e o preço de exercı́cio K: c (XT , T ) = (XT − K)+ ou equivalentemente
c (XT , T ) = max (XT − K, 0). Na derivação que se segue iremos omitir os subscrito
“tempo” das variáveis.
Portanto, temos c = f (x, t), e usando a fórmula de Itô para calcular dc, temos
∂c ∂c 1 ∂ 2c
dc = dX + dt + 2
(dX)2
∂x ∂t 2 ∂x
A equação acima significa que a variação do preço da opção de compra dc em um pequeno
intervalo de tempo dt é dada pelo segundo membro. Substituindo dX da equação (4.4),
nesta última equação, obtemos
∂c ∂c 1 ∂ 2c
dc = (µXdt + σXdB) + dt + σ 2 X 2 2 dt
∂x ∂t 2 ∂x
∂c ∂c 1 2 2 ∂ 2 c

∂c
dc = µX + + σ X 2
dt + σX dB (4.5)
∂x ∂t 2 ∂x ∂x
118
Esta equação representa a dinâmica de evolução do valor da opção de compra.
Considere a formação de um portfólio com a compra de ∆ ações ao preço X e a

venda de uma opção ao preço c. O valor Π deste portfólio será
Π = ∆X − c (4.6)
O diferencial do valor do portfólio dΠ é dado por
dΠ = ∆dX − dc (4.7)
Substituindo na equação (4.7) os valores de dX e dc das equações (4.4) e (4.5), respec-
tivamente, obteremos
∂c ∂c 1 2 2 ∂ 2 c

∂c
dΠ = ∆µXdt + ∆XσdB − µX + + σ X 2
dt − σX dB
∂x ∂t 2 ∂x ∂x
Agrupando os termos, temos
∂c ∂c 1 2 2 ∂ 2 c

∂c
dΠ = ∆µS − µS − − σ S dt + ∆σS − σS dB (4.8)
∂s ∂t 2 ∂s2 ∂s
A equação acima representa a dinâmica de evolução do valor do portfólio. Observe no
segundo membro a presença da tendência (coeficiente de dt) e a presença do termo es-
tocástico (coeficiente de dB) que confere a aleatoriedade a dΠ.
Para eliminar esta aleatoriedade do valor do portfólio deve-se fazer o coeficiente de

dB nulo na equação (4.8), isto é
∂c
∆Xσ − σX =0
∂x
∂c
∆= (4.9)
∂x
Levando o resultado de ∆, encontrado acima, na equação (4.8), temos
∂c ∂c 1 2 2 ∂ 2 c

∂c
dΠ = µX − µX − − σ X dt
∂x ∂x ∂t 2 ∂x2
∂c 1 2 2 ∂ 2 c

dΠ = − − σ X dt (4.10)
∂t 2 ∂x2
∂c
Ajustando a quantidade de ações ∆ do portfólio neste valor (∆ = ∂x ), vimos acima
que o portfólio torna-se sem risco. Por outro lado um ativo livre de risco deve retornar
a taxa livre de risco para que não haja possibilidade de arbitragem, como foi suposto
acima. Então o retorno deste portfólio dΠ
Π
deve ser rdt, ou seja
dΠ
= rdt ⇒ dΠ = rΠdt (4.11)
Π
Substituindo as equações (4.10) e (4.6) na equação (4.11), obteremos
∂c 1 2 2 ∂ 2 c

− − σ X dt = r (∆X − c) dt
∂t 2 ∂x2
119
Resultando na seguinte equação diferencial parcial (EDP)
∂c ∂c 1 2 2 ∂ 2 c
+ rX + σ X = rc (4.12)
∂t ∂x 2 ∂x2
Esta é a equação diferencial parcial do modelo de Black e Scholes (1973). Podemos
ainda escrevê-la na forma abreviada onde os subscritos indicam as derivadas parciais
1
ct (x, t) + rScx (x, t) + σ 2 X 2 cxx (x, t) = rc (x, t) (4.13)
2
As condições de contorno necessitam ser estabelecidas para que se proceda a sua solução.
Note que se o preço da ação Xt atinge zero a equação (4.3) mostra que o valor per-
manecerá em zero e consequentemente a opção nada valerá. Para sermos consistente
com a transformação logarı́timica que será utilizada na solução, usaremos apenas o fato
de que Xt → 0. Temos então que
lim c (x, t) = 0 (4.14)
x→0
Se o preço da ação Xt atingir um valor muito elevado o preço da opção será pouco
afetado pelo preço de exercı́cio (que se tornará pequeno em relação ao preço do ativo) e
naturalmente o valor da opção tenderá ao preço da ação, ou seja
lim c (x, t) = x (4.15)
x→∞
No vencimento quando t = T , tem-se a condição terminal, c (XT , T ) = (XT − K)+ .

Entretanto vemos que em t = T o termo d1 abaixo não está definindo. Escreve-se então
que
lim c (x, t) = (XT − K)+ (4.16)
t→T
A EDP (4.12) é do tipo parabólica e é redutı́vel à forma clássica da equação de difusão

do calor. A sua solução fornece o preço da opção de compra
c (Xt , t) = Xt N (d1 ) − Ke−r(T −t) N (d2 ) 0≤t<T x>0 (4.17)
onde
Xt
+ r + 21 σ 2 (T − t) √

ln K
d1 = √ d2 = d1 − σ T − t
σ T −t
e N (.) representa a distribuição normal padrão acumulada, isto é
Z Z
1 1 2
N (Z) = √ e− 2 y dy
2π −∞
O Apêndice deste capı́tulo é dedicado a resolução da EDP (4.12) juntamente com as
condições em (4.14) - (4.16).
Ressaltamos que a estratégia de manter o portfólio continuamente ajustado com ∆

∂c
(∆ = ∂X ) ações para cada opção, levará o portfólio a ter igual valor que preço da opção
no vencimento (Λ (T )).
Exemplo 4.1. Vimos na demonstração que a condição para que o portfólio seja sem
∂c
risco é que ∆ = ∂X . Diferencie a equação (4.17) em relação a X para demonstrar que
∆ = N (d1 ).
120
Solução: Para simplificar a notação vamos considerar τ = T − t (τ significa o tempo
remanescente para o vencimento) e abolir o subı́ndice do tempo, então as equações acima
tornam-se
c = XN (d1 ) − Ke−rτ N (d2 ) (4.18)
onde
X

ln K
+ (r + 0.5σ 2 ) τ √
d1 = √ d2 = d1 − σ τ
σ τ
Diferenciando a equação (4.18), temos:
∂c ∂d1 ∂d2
∆= = N (d1 ) + XN 0 (d1 ) − Ke−rτ N 0 (d2 ) (4.19)
∂x ∂X ∂X
Por outro lado podemos escrever que
"
X
#2
+ r + 21 σ 2 τ

d21 1 ln K
ln X − = ln X − √
2 2 σ τ
2
1 X 1 2
= ln X − 2 ln + r+ σ τ
2σ τ K 2
Trabalhando o segundo membro da equação acima temos

( " 2 #)
1 X X 1
2
2σ 2 τ ln X − ln + rτ + σ 2 τ ln + rτ + σ 4 τ 2
2σ τ K K 4
Agrupando os termos similares, o segundo membro fica igual a

( 2 )
1 X 1 4 2
− 2 ln + rτ + σ τ + σ 2 τ (− ln X − ln K + rτ )
2σ τ K 2
Logo temos que

( 2 )
d2 1 X 1 4 2
ln X − 1 = − 2 ln + rτ + σ τ + σ 2 τ (− ln X − ln K + rτ ) (4.20)
2 2σ τ K 2
Também pode-se escrever que

"
X
#2
+ r − 21 σ 2 τ

d22 1 ln K
ln K − rτ − = ln K − rτ − √
2 2 σ τ
Trabalhando como previamente o segundo membro da equação anterior chega-se ao re-

sultado abaixo
d22
ln K − rτ −
2
( 2 )
1 X 1 4 2
=− 2 ln + rτ + σ τ + σ 2 τ (− ln X − ln K + rτ ) (4.21)
2σ τ K 4
121
As equações (4.20) e (4.21) são iguais, isto permite que se escreva
d21 d2
ln X − = ln K − rτ − 2
2 2
Exponenciando ambos os lados da equação anterior, escreve-se
2
d d2
2
X exp − 1 = Ke−rτ e− 2
2
z 2
Temos ainda que N 0 (z) = 1
√
2 π
e− 2 e a equação anterior fica
XN 0 (d1 ) = Ke−rτ N 0 (d2 ) (4.22)
Ainda pode-se escrever que ∂d ∂X

1
= Xσ1√τ e ∂d∂X
2
= Xσ1√τ , consequentemente ∂d1
∂X
= ∂d2
∂X
.
Este último resultado levado na equação (4.22) fornece
∂d1 ∂d2
XN 0 (d1 ) = Ke−rτ N 0 (d2 ) (4.23)
∂X ∂X
A equação (4.23) levada na equação (4.19), resulta finalmente, no resultado ∆ = N (d1 ).
Adotando as mesmas etapas anteriores pode-se deduzir a EDP para uma opção de
venda (veja exercı́cio 4.4) obtendo-se
∂v ∂v 1 2 2 ∂ 2 v
+ rX + σ X = rv (4.24)
∂t ∂x 2 ∂x2
A equação que fornece o apreçamento de uma opção de venda pode ser obtida pela
substituição da equação (4.17) na equação (4.2), que estabelece a paridade entre opções
de compra e venda. Resolvida esta equação obtém-se
v (Xt , t) = Ke−r(T −t) N (−d2 ) − Xt N (−d1 ) (4.25)
As condições de contorno também podem ser obtidas a partir da relação de paridade.

Assim, se Xt tende para zero a opção de compra também tende para zero e consequente-
mente tem-se
lim (x, t) = Ke−r(T −t) (4.26)
x→0
Se Xt atinge valores muito elevados a opção de venda nada vale e tem-se
lim v (x, t) = 0 (4.27)

x→∞
A condição terminal, já vista, fornece v (xT , T ) = (K − X)+ . Pela mesma restrição em
relação à definição de d1 , escrevemos
lim v (x, t) = (K − X)+ (4.28)

t→T
122
Exercı́cio 4.2. Faça X → 0+ na equação (4.17) e verifique a condição de contorno
c (0, t) = 0 para t ∈ [0, T ].
Exercı́cio 4.3. Faça X → ∞ na equação (4.17) e verifique a condição de contorno

em (4.15) através do limx→∞ c (x, t) − X + Ke−r(T −t) = 0 para t ∈ [0, T ].
Exercı́cio 4.4. Siga os mesmos passos utilizados na dedução da EDP (4.12) referente à
opção de compra, para obter a EDP referente à opção de venda dada pela equação (4.24).
Exercı́cio 4.5. Mostre que o ∆ oriundo da dedução feita no exercı́cio 4.4 é igual a
N (d1 ) − 1.
Figura 4.3: Opção de compra para K = 7, r = 5% e σ = 25%
Figura 4.4: Opção de venda para K = 7, r = 5% e σ = 25%
123
As equações (4.17) e (4.25) fornecem os preços das opções Européias de compra e
venda, respectivamente para diferentes instantes de tempo antes do vencimento, em
função do preço do ativo subjacente dados os parâmetros da taxa livre de risco, volatil-
idade, e preço de exercı́cio.
Black e Scholes (1973) ressaltam que o modelo de equilı́brio pode ser usado para valorar
muitos problemas de apreçamento de ativos contingentes. Por exemplo, na valoração
do capital próprio de uma firma alavancada a posição dos acionistas equivale ao do
comprador de uma opção de compra e a dos credores equivale ao do vendedor desta
opção. Isto é, os acionistas tem o direito de comprar a firma novamente dos credores
pagando-lhes o valor de face da dı́vida.
A figura 4.3 mostra o gráfico de uma opção de compra para diferentes instantes antes do
vencimento e para a data do vencimento. Em outras palavras, apresentamos os gráficos
dos preços para τ = 0, τ = 1, τ = 1.5 e τ = 2. Observe que as condições de contorno
são atendidas para os preços tendendo a zero e ao infinito. A figura 4.4 mostra o caso
similar para o opção de venda considerando os mesmos valores de τ .
4.3 Modelo de Merton

A seção anterior apresentou os detalhes da derivação do modelo de Black e Scholes
(1973). Logo após a sua publicação, Robert C. Merton publicou seu artigo que, da
mesma forma, aborda o apreçamento de uma opção Européia, porém com um trata-
mento estocátisco para o comportamento da taxa de juros. Esta seção apresenta os
detalhes da derivação do modelo de Merton (1973) [73]. Além de relaxar a hipóstese do
comportamento da taxa de juros, Merton (1973) considera que o ativo subjacente paga
dividendos. Esta consideração será feita no próximo capı́tulo. Essencialmente trata-se
do mesmo problema e ao longo deste texto nos referiremos ao modelo de Black, Merton
e Scholes - BMS (em ordem alfabética) expressando indistintamente os resultados da
seção 4.2 e 4.3.
Seja c (St , Xt , t) o preço de uma opção de compra Européia, com preço de exercı́cio
K, no instante t. Considere que 0 ≤ t ≤ T e que, como anteriormente, τ = T − t é o
tempo remanescente para o vencimento. St representa o preço da ação no instante t e
Xt representa o preço de um tı́tulo da letra do tesouro. Novamente a dinâmica do preço
da ação St (que não paga dividendos) é dada pelo processo geométrico Browniano.
dSt
= µS dt + σS dBSt , t≥0 (4.29)
St
onde as considerações sobre os parâmetros são as mesmas já apresentadas na seção an-
terior.
Considere que as letras do tesouro Xt possuem a dinâmica definida pelo mesmo processo
e dado por
dXt
= µXt dt + σXt dBXt , t ≥ 0 (4.30)
Xt
124
onde os parâmetros de tendência (drift) e volatilidade são dependentes do tempo. Xt
representa o preço de um tı́tulo sem risco de crédito que no vencimento T = t, para
$1, ou seja, XT = 1 e nesta condição σXT = 0. O caso especial em que a taxa de juros
não é estocástica e constante ao longo do vencimento resulta em σXt = 0 e µXt = r,
consequentemente Pt = e−r(T −t) . O problema, neste caso, resume-se àquele estudado
por Black e Scholes (1973). As incertezas dos dois processos estão correlacionadas tal
que dBSt dBXt = ρdt.
Para tornar a notação menos onerosa abandonaremos o subscrito do tempo, então es-
crevemos c (S, X, t). Usando a fórmula de Itô podemos escrever
∂c ∂c ∂c 1 ∂ 2c 2 ∂2 1 ∂ 2c
dc = dS + dX + dt + 2
(dS) + dSdX + 2
(dX)2
∂s ∂x ∂t 2 ∂s ∂s∂x 2 ∂x
Inserindo na equação acima as definições de dS e dX das equações (4.29) e (4.30), temos
∂c ∂c ∂c
dc = (µS Sdt + σS SdBS ) + (µX Xdt + σX XdBX ) + dt
∂s ∂x ∂t
1 ∂ 2c ∂ 2c 1 2 2 ∂ 2c
+ σS2 S 2 2 dt + ρσS σX SX dt + σX X dt
2 ∂s ∂s∂x 2 ∂x2
Reagrupando os termos da equação acima, resulta em
∂c ∂c 1 2 2 ∂ 2 c ∂ 2c 1 2 2 ∂ 2c

∂c
dc = µS S + µX X + + σ S + ρσS σX SX + σ X dt
∂s ∂x ∂t 2 S ∂s2 ∂s∂x 2 X ∂x2
∂c ∂c
+ σS S dBS + σX X dBX
∂s ∂x
Podemos simplificadamente escrever que
dc
= βdt + γdBS + ηdBX (4.31)
c
onde:
∂c ∂c 1 2 2 ∂ 2 c ∂ 2c 1 2 2 ∂ 2c

1 ∂c
β= µS S + µX X + + σ S + ρσS σX SX + σ X
c ∂s ∂x ∂t 2 S ∂s2 ∂s∂x 2 X ∂x2

1 ∂c 1 ∂c
γ= σS S e η= σX X
c ∂s c ∂x
Considere agora um portfólio de valor Y com a seguinte composição: WS é o montante
investido na ação, WX é o montante investido na letra do tesouro e Wc o montante
investido na opção de compra. O total do investimento agregado é nulo e escrevemos
Y = WS + Wc + WX = 0 (4.32)
Considere que dY é o retorno do portfólio em moeda, então temos que
dS dc dX
dY = WS + Wc + WX
S c X
125
Fazendo uso da equação (4.32), escrevemos
dS dc dX
dY = WS + Wc − (WS + Wc )
S c X
Usando as equações (4.29), (4.30) e (4.31), temos
dY = WS (µS dt + σS dBS ) + Wc (βdt + γdBS + ηdBX ) − (WS + Wc ) (µX dt + σX dBX )
= [WS (µS − µX ) + Wc (β − µX )] dt + (σS WS + γWc ) dBS
+ [ηWc − σX (WS + Wc )] dBX
A condição de que o portfólio formado não seja estocástico requer que os coeficientes de
dBS e dBX sejam nulos. Por outro lado, o investimento inicial no portfólio é zero (con-
forme a equação (4.32)) e portanto para que seja atendida a condição de não arbitragem
o retorno em moeda do portfólio deve ser nulo (dY = 0). Estas condições permitem
escrever que
σS WS + γWc = 0
−σX WS + (η − σX ) Wc = 0 (4.33)
(µS − µX ) WS + (β − µX ) Wc = 0
As equações acima resolvidas para WS e Wc requerem para a solução não trivial que
WS γ σX − η β − µX
− = = = (4.34)
Wc σS σX µS − µX
γ η
A igualdade σS
=1− σX
resulta que

1 ∂c 1 ∂c
S =1− X
c ∂s c ∂x
ou ainda
∂c ∂c
c=S +X (4.35)
∂s ∂x
A outra igualdade de (4.34) é β − µX = σγS (µS − µX ) e resulta, usando as respectivas
definições, em
∂c ∂c 1 2 2 ∂ 2 c ∂ 2c 1 2 2 ∂ 2c

1 ∂c
µS S + µX X + + σ S + ρσS σX SX + σ X − µX
c ∂s ∂x ∂t 2 ∂s2 ∂s∂x 2 X ∂x2
1 ∂c
= S (µS − µX )
c ∂s
Trabalhando algebricamente a equação acima, resulta em
1 2 2 ∂ 2c ∂ 2c 1 2 2 ∂ 2c ∂c ∂c ∂c
σS S 2
+ ρσ σ
S X SX + σX X 2
+ µX S + µX X + = µX c (4.36)
2 ∂s ∂s∂x 2 ∂x ∂s ∂x ∂t
ou ainda usando o resultado em (4.35) no segundo membro da equação anterior
1 2 2 ∂ 2c ∂ 2c 1 2 2 ∂ 2c ∂c ∂c ∂c
σS S 2
+ ρσ S σX SX + σX X 2
+ µX S + µX X +
2 ∂s ∂s∂x 2 ∂x ∂s ∂x ∂t
∂c ∂c
= µX S +X
∂s ∂x
126
Finalmente simplificando os termos de primeira ordem comuns do primeiro e segundo
membro, ficamos com
1 2 2 ∂ 2c ∂ 2c 1 2 2 ∂ 2 c ∂c
σS S + ρσ σ
S X SX + σ X + =0 (4.37)
2 ∂s2 ∂s∂x 2 X ∂x2 ∂t
Note que a equação (4.36) é a mesma equação de Black e Scholes (1973). Para verificar-
mos este fato basta considerarmos a taxa de juros determinı́stica e constante no tempo,
isto é, µX = r e σX = 0 com dX X
= rdt ou X = e−r(T −t) . Introduzindo estas alterações
em (4.36) obtemos a equação (4.12).
O modelo de Merton (1973) é uma generalização do modelo de Black e Scholes (1973),

que ao contrário deste último, considera a taxa de juros estocástica. A EDP (4.36)
juntamente com a condição terminal c (ST , 1, T ) = (ST − K)+ e a condição de contorno
c (0, Xt , t) = 0 definem o preço de uma opção de compra Européia.
4.4 Modelo de Margrabe

Margrabe (1978) analisou a opção de troca de uma ação por outra dentro das condições
estabelecidas para os modelos anteriores. Seja então X1t e X2t o preço de duas ações,
que não pagam dividendos, com as mesmas dinâmicas anteriores, então escrevemos
dXit
= µi dt + σi dBit t≥0 i = (1, 2) (4.38)
X it
onde µi ∈ R, σi ∈ R+ , ρdt = dB1t dB2t e 0 ≤ t ≤ T .
Seja h (X1t , X2t , t) a opção Européia de troca de um ativo por outro com vencimento
em t = T . O valor da opção nesta data será h (X1T , X2T , T ) = X1T − X2T . Como an-
teriormente, para tornar a notação mais simples, abandonaremos o subscrito do tempo.
Esta opção é simultaneamente uma opção de compra do ativo 1 (ativo subjacente) com
preço de exercı́cio X2T e uma opção de venda do ativo 2 (ativo subjacente) com preço
de exercı́cio X1T . Nesta situação, o dono desta opção somente exercerá o seu direito em
t = T quando for conveniente, ou seja
h (X1 , X2 , T ) = (X1 − X2 )+ (4.39)
Sendo h (X1 , X2 , t) podemos usar a fórmula de Itô e definir o valor de pequenas variações
do preço da opção dh
∂h ∂h ∂h ∂ 2h ∂ 2h ∂ 2h
dh = dX1 + dX2 + dt + 2 (dX1 )2 + 2 (dX2 )2 + (dX1 ) (dX2 )
∂x1 ∂x2 ∂t ∂x1 ∂x2 ∂x1 ∂x2
Substituindo as dinâmicas dos dois ativos, temos
∂h ∂h ∂h
dh = (µ1 X1 dt + σ1 X1 dB1 ) + (µ2 X2 dt + σ2 X2 dB2 ) + dt
∂x1 ∂x2 ∂t
1 ∂ 2h 1 ∂ 2h ∂ 2h
+ σ12 X12 2 dt + σ22 X22 2 dt + ρσ1 σ2 X1 X2 dt
2 ∂x1 2 ∂x2 ∂x1 ∂x2
127
Coletando os termos em dt, ficamos com
∂h 1 2 2 ∂ 2 h 1 2 2 ∂ 2 h ∂ 2h

∂h ∂h
dh = µ1 X1 + µ2 X2 + + σ1 X1 2 + σ2 X2 2 + ρσ1 σ2 X1 X2 dt
∂x1 ∂x2 ∂t 2 ∂x1 2 ∂x2 ∂x1 ∂x2
∂h ∂h
+ σ1 X1 dB1 + σ2 X2 dB2 (4.40)
∂x1 ∂x2
Vamos considerar um portfólio em que compramos uma opção h, vendemos δ1 ações ao
preço X1 e δ2 ações ao preço X2 . As quantidades δ1 e δ2 são escolhidas tal que o valor
do portfólio é zero
Π = h − δ1 X 1 − δ2 X 2
A variação do valor do porftólio dΠ em um pequeno intervalo de tempo dt é dada por
dΠ = dh − δ1 dX1 − δ2 dX2 (4.41)
Levando a equação (4.40) e (4.38) em (4.41) e trabalhando algebricamente, temos

∂h ∂h
dΠ = Λdt + σ1 X1 − δ1 σ1 X1 dB1 + σ2 X2 − δ2 σ2 X2 dB2
∂x1 ∂x2
onde
∂h ∂h ∂h 1 2 2 ∂ 2 h 1 2 2 ∂ 2 h
Λ = µ1 X1 + µ2 X2 + + σ 1 X1 2 + σ 2 X2 2
∂x1 ∂x2 ∂t 2 ∂x1 2 ∂x2
∂ 2h
+ ρσ1 σ2 X1 X2 − δ1 µ1 X1 − δ2 µ2 X2
∂x1 ∂x2
∂h ∂h
Para que o portfólio seja sem risco devemos ter simultaneamente δ1 = ∂x1
e δ2 = ∂x2
.
Levando estes valores na equação anterior, temos
∂h 1 2 2 ∂ 2 h 1 2 2 ∂ 2 h ∂ 2h
dΠ = + σ1 X1 2 + σ2 X2 2 + ρσ1 σ2 X1 X2
∂t 2 ∂x1 2 ∂x2 ∂x1 ∂x2
Como o valor do portfólio é nulo, o diferencial dΠ também será, caso contrário haveria
possibilidade de arbitragem. Então temos como resultado
∂h 1 2 2 ∂ 2 h 1 2 2 ∂ 2 h ∂ 2h
+ σ1 X1 2 + σ2 X2 2 + ρσ1 σ2 X1 X2 =0 (4.42)
∂t 2 ∂x1 2 ∂x2 ∂x1 ∂x2
A solução da equação desta EDP é dada por
h (X1t , X2t , t) = X1t N (d1 ) − X2t N (d2 ) (4.43)
onde:
X1t
ln + 12 σ 2 (T − t)
X2t
d1 = √
σ T −t
√
d2 = d1 − σ T − t
σ 2 = σ12 + σ22 − 2ρσ1 σ2
A solução da EDP (4.42), apresentada em (4.43), será formalizada ao longo do texto
quando tratarmos da mudança de numerário.
128
4.5 Gregas
A dedução da EDP de apreçamento de uma opção de compra faz uso da condição de
que o risco do portfólio, formado pela compra de ∆ ações e venda de uma opção, é
∂c
eliminado. Para tal, o valor que ∆ assume deve ser igual a ∂X . Neste caso, em que o
portfólio não envolve risco, dizemos que se trata de uma posição delta-neutra. Então,
por inexistência de arbitragem, tal portfólio deve ser remunerado pela taxa livre de
risco. Como o preço do ativo subjacente altera a todo instante, o valor de ∆ deve ser,
da mesma forma, ajustado para que o portfolio mantenha a situação de neutralidade.
Este tipo de posicionamento, em que periodicamente deve-se ajustar (ou rebalancear) as
quantidades dos ativos na carteira, é chamado de proteção dinâmica (hedge dinâmico).
Convencionou-se denominar de gregras as sensiblidades de ct em relação às variáveis

do modelo. A sensibilidade mais relevante é exatamente em relação ao preço do ativo
∂c
subjacente: ∆ = ∂X = N (d1 ). Ela mede o quanto varia o preço da opção para $1 de
variação no ativo subjacente. O comportamento do preço de uma opção não é linear com
o preço do ativo subjacente. Isto significa que o ∆ varia com o preço S. A sensibilidade
∂∆ ∂2c
da variação de ∆ como o preço do ativo é denominado de gama: Γ = ∂X = ∂X 2 . O gama
representa a variação do delta para alterações de $1 no preço do ativo. A sensibilidade

∂c
do preço da opção em relação a volatilidade é denominada vega: V ega = ∂σ . Representa
a variação do preço da opção para alteração de 0.01 (1%) na volatildade. Em geral o
preço da opção decresce à medida que se aproxima o vencimento. A sensibilidade do
preço da opção em relação ao tempo é denominado de teta: Θ = ∂c ∂t
. A sensibilidade em
∂c
relação à taxa livre de risco r é denominada de rô: ρ = ∂r . Pode-se derivar analitica-
mente as expressões para cada uma das gregas a exemplo do que foi feito para o delta
∆ da opção de compra. O exercı́cio seguinte solicita estas derivações.
Exercı́cio 4.6. Demonstre as expressões analı́ticas para as gregas de uma opção de
compra de acordo com as definições desta seção:
∂∆ N 0 (d1 )
(i) Γ = = √ (4.44)
∂X Xσ τ
∂c √
(ii) V ega = = XN 0 (d1 ) τ (4.45)
∂σ
∂c 1 σXN 0 (d1 )
(iii) Θ = =− √ − rKe−rτ N (d2 ) (4.46)
∂t 2 τ
∂c
(iv) ρ = = τ Ke−rτ N (d2 ) (4.47)
∂r
Exercı́cio 4.7. Repita o exercı́cio anterior para uma opção de venda Européia.
Exercı́cio 4.8. Considere um portfólio Π formado pela compra de ∆ ações e a venda de
uma opção. Faça este portfólio delta-neutro, em particular considere que ∆ = 0. Mostre
que 12 σ 2 X 2 Γ = rc − Θ.
Exercı́cio 4.9. Na situação do exercı́cio 4.8 mostre que Π = Ke−r(T −t) N (d2 ).
Exercı́cio 4.10. Mostre que a variação percentual do preço de uma opção de compra é
maior que a variação percentual do preço da ação, dcc > dX
X
.
129
4.6 Volatilidade implı́cita
Anteriormente foi visto que o cálculo do preço de uma opção Européia em um instante t
é função do valor da ação em t, do preço de exercı́cio K, do tempo remanescente para o
vencimento τ = T − t, da taxa livre de risco r e da volatilidade σ. Todas estas variáveis
são facilmente observáveis, exceto a volatilidade que não é observada diretamente. Por-
tanto a volatilidade deve ser estimada. A figura 4.5 mostra o comportamento do Vega
da opção para diferentes instantes antes do vencimento. Devido a relação de paridade
é fácil concluir que os Vegas de uma opção de compra e venda são os mesmos (veja
equação (4.2) e exercı́cios 4.6 e 4.7). Pode-se notar que o preço de uma opção é bastante
sensı́vel à volatilidade, principalmente quando o preço está próximo de K (a opção está
no dinheiro). Desta forma, justifica-se a importância de uma estimação acurada para
volatilidade no apreçamento de opções.
Uma maneira simples é estimar a volatilidade histórica a partir da série de log-retornos.
Figura 4.5: Comportamento do Vega com o preço do ativo (K = 7, r = 5% e σ = 25%)
Por outro lado, vemos que o Vega é estritamente positivo. Sempre que uma função é
estritamente monótona em relação a uma variável podemos invertê-la nesta variável.
Assim, com base no modelo de BMS e usando as cotações das opções fornecidas pelo
mercado, podemos obter a volatilidade. Neste caso a volatilidade é denominada volatil-
idade implı́cita. Em suma, a patir do modelo de BMS pode-se extrair a volatilidade a
partir dos preços das opções, pois há uma relação biunı́voca entre o preço da opção e a
volatilidade. A relação biunı́voca entre o preço da opção e a volatilidade implı́cita tem
importantes implicações práticas. O mercado é indiferente entre negociar opções com
base nas suas cotações de preços ou com base nas volatilidades implı́citas calculadas pelo
modelo de BMS e visualizada pelos agentes negociadores simultaneamente aos preços.
Se calcularmos volatilidade implı́cita para diferentes preços de exercı́cios com mesma

maturidade (e as demais variáveis constantes), observaremos que o valor da volatilidade
não é o mesmo. Ou seja, σ̂ (K1 , Xt , r, τ, c1 ) 6= σ̂ (K2 , Xt , r, τ, c2 ) onde c1 e c2 são as
130
cotações das opções para os preços de exercı́cios K1 e K2 , respectivamente. Isto sig-
nifica que empiricamente não se observa aquilo que o modelo de BMS prevê. Uma das
razões para este comportamento é a hipótese do modelo que assume que volatilidade
é constante durante todo o perı́odo até o vencimento. De fato, o comportamento da
volatilidade está muito distante desta consideração. No capı́tulo 2 foi visto que um fato
estilizado das séries financeiras é a presença de aglomerados de volatilidade. Isto sig-
nifica que há momentos em que a volatilidade permanece mais elevada e há outros em
que é mais baixa. Há diversos modelos econométricos que buscam modelar a volatilidade
capturando este e outros fatos estilizados. Os mais conhecidos e muito usuais na liter-
atura econométrica são os modelos da famı́lia GARCH. Veja a seção 2.6 onde tratamos
os modelos GARCH lineares e não lineares. Por exemplo, a consideração da volatilidade
variando no tempo acarreta um comportamento da distribuição de retornos distinto
daquele do modelo de BMS. Por este último, a distribuição dos retornos é normal (ob-
serve o lado direito da equação (4.4)). Entretanto a distribuição empı́rica dos retornos
possui caudas mais pesadas que a normal. Os modelos que consideram a volatilidade
variando no tempo buscam capturar o efeito destas caudas pesadas. Os modelos que
incluem a componente de salto na dinâmica do preço do ativo também reproduzem bem
este efeito. Em particular o modelo de Heston (1993) [51] busca retratar o comporta-
mento incerto da volatilidade modeladando-a como estocástica. Isto é, a volatilidade é
tratada por um processo estocástico, constituindo o que se denomina na literatura de
finanças de modelo de dois fatores (ou dois fatores estocásticos: um para os preços e
outro para a volatilidade). Este modelo tem uma solução semi-analı́tica baseada em
integrais que podem ser resolvidas numericamente. A maior dificuldade de lidar com
este modelo é a sua calibração (ou estimação dos parâmetros do modelo). Todas estas
considerações de volatilidade variando no tempo buscam explicar este interessante com-
portamento da volatilidade implı́cita extraı́da do modelo de BMS, que é denominado
volatilidade smiles.
O modelo de BMS considera que a distribuição dos retornos é normal. Entretanto

os dados empı́ricos mostram que esta distribuição tem excesso de curtose. Quando, por
exemplo, o preço de exercı́cio é muito alto e a opção de compra está fora do dinheiro, a
probabilidade de seu exercı́cio é pequena. Mas a distribuição empı́rica (com caudas pe-
sadas) fornecerá uma probabilidade de exercı́cio mais elevada que aquela da distribuição
normal. Esta maior probabilidade implicará em um maior preço para a opção e conse-
quentemente uma volatilidade implı́cita (calculada por BMS) maior que a real. Vejamos
agora o que ocorre para uma opção de venda fora do dinheiro (preço de exercı́cio é muito
baixo). Novamente devido ao excesso de curtose a probabilidade de exercı́cio oriunda
da distribuição empı́rica será maior que a da distribuição normal. Decorre que o preço
calculado para a opção deve ser maior que aquele previsto pelo modelo de BMS. Se us-
armos este modelo para o cálculo da volatilidade implı́cita, obteremos uma volatilidade
mais elevada que a volatilidade real.
Portanto, calculando a volatilidade implı́cita através do modelo de BMS o seu com-

portamento será tipicamente aquele retratado na figura 4.6. Neste gráfico vemos que
a volatilidade é maior nas regiões onde o preço de exercı́cio é mais elevado e também
mais baixo. Este gráfico é conhecido como volatilidade smile ou smirk dependendo do
131
formato da curva. Há evidências que este comportamento antes do crash de 1987 era
simétrico, daı́ o nome smile. Após o crash o comportamento da volatilidade implı́cita é
mais adequadamente representado pelo gráfico da figura 4.6. Justifica-se tal mudança
devido ao aumento da aversão ao risco dos investidores que passaram a demandar maior
retorno face a queda dos preços. Se tal comportamento irá modificar-se (ou mostrar-se
mais pronunciado) devido a crise de 2008 ainda é um fato não identificado empirica-
mente, porém qualquer alteração certamente será motivo de publicações acadêmicas.
O comportamento assimétrico (skew ) da volatilidade reflete um fato estilizado que o

modelo de BMS não captura adequadamente. Este efeito assimétrico também é con-
hecido como efeito alavanca e é devido a Black (1976) [8]. Veja na seção 2.6.2 a sua
explicação. Em suma, o efeito alavanca retrata o fenômeno de que a volatilidade é maior
para choques negativos nos preços. Isto significa que para dois choques (de mesma mag-
nitude) um positivo e outro negativo (queda nos preços), a volatilidade subsequente
será maior no segundo caso. Em outras palavras, para situações de queda de preços
a percepção de risco dos agentes torna-se mais aguda e consequentemente os mesmos
demandarão maiores retornos, justificando assim a assimetria mostrada na figura 4.6.
Dentro deste mesmo enfoque podemos estimar a densidade implı́cita, ou neutra ao risco,
a partir dos preços das opções para diferentes preços de exercı́cio. Este resultado é devido
a Breeden e Litzenberger (1978) [14], voltaremos e este tópico o capı́tulo 6.
Figura 4.6: Volatilidade implı́cita - gráfico smirk
4.7 Resumo e considerações adicionais

Este capı́tulo foi dedicado ao desenvolvimento do modelo de Black, Merton e Scholes
tal qual foi originalmente apresentado em 1973, que convencionamos denominar de
metodologia de apreçamento pela abordagem clássica. Primeiramente apresentamos
o conceito básico de não arbitragem. Esta consideração é fundamental no apreçamento
132
de derivativos financeiros seja pela metodologia clássica seja pela consideração da pro-
priedade martingal. Voltaremos a este ponto no capı́tulo seguinte. Em seguida fizemos
a primeira aplicação deste conceito mostrando a paridade entre as opções de compra e
venda do tipo Européia. A paridade de opções é um exemplo clássico de uma proteção
estática (hedge estático). Isto significa que toma-se a posição de compra de uma ação
e de uma opção de venda e a posição de venda de uma opção de compra; o portfólio
assim permance sem risco, o seu valor é Ke−r(T −t) e altera-se tão somente pelo decorrer
do tempo.
Fizemos então a derivação do modelo de Black e Scholes (1973). A metodologia clássica

considera a derivação deste modelo a partir da formação de um portfólio com posição
comprada em ∆ ações e posição lançadora em uma opção de compra. O risco deste
∂c
portfólio é eliminado fazendo ∆ = ∂X . Esta é uma proteção dinâmica (hedge dinâmico).
Isto significa que o portfólio deve ser rebalanceado sempre que houver alguma alteração
em X (consequentemente também c alterará). Se não há risco no portfólio ele deve ser
remunerado pela taxa livre de risco para satisfazer a condição de não arbitragem no
mercado. Obtém-se desta forma a EDP
∂c ∂c 1 2 2 ∂ 2 c
+ rX + σ X = rc
∂t ∂x 2 ∂x2
Esta EDP é do tipo parabólico e pode ser reduzida, por transformação de variáveis, na
clássica EDP da difusão do calor, cuja solução é bem conhecida, dadas as condições de
contorno.
Fizemos em seguida a derivação do modelo de Merton (1973) que considera a esto-

casticidade da taxa de juros. Derivamos também o modelo de Margrabe (1978) que
trata da opção de troca entre dois ativos com risco, dentro da mesma abordagem dos
modelos anteriores.
Mostramos as análises de sensiblidades do valor da opção em relação as variáveis en-

volvidas, o que na literatura é conhecido por Gregas. Posteriormente apresentamos o
conceito de volatilidade implı́cita e algumas limitações do modelo de BMS. A dinâmica
do ativo subjacente no modelo de BMS considera que a volatilidade é constante durante
todo o perı́odo do vencimento (veja a equação (4.4)) sendo a distribuição dos preços log-
normal e a de retornos normal. Empiricamente este fato não é observado e a distribuição
dos retornos possue excesso de curtose. Modelos alternativos para a evolução dos preços
podem ser usados para modelar as caudas pesadas. Por exemplo, considera-se como
processo de preços aqueles com volatilidade variando no tempo (volatilidade GARCH
ou volatilidade estocástica) ou ainda processos que contêm uma componente adicional
representando a presença de saltos. Trataremos dos processos com saltos em capı́tulos
posteriores.
Finalmente apresentamos, no Apêndice abaixo, todos os detalhes da solução da EDP do

modelo de BMS usando a solução da equação do calor. Da mesma forma, a equação do
calor foi resolvida usando a transformada de Fourier. Procuramos evidenciar todas as
etapas envolvidas na solução do problema e separamos o desenvolvimento das mesmas
em subseções por razões didáticas. Reconhecemos que para enfrentar esta parte do texto
133
é necessário coragem, não obstante entendemos que é um esforço válido.
O leitor deve ter observado a ênfase deste texto nos fundamentos das metodologias de
apreçamento. Reservamos para tal este e os dois próximos capı́tulos. Estas metodolo-
gias constituem a essência da moderna teoria de finanças e são fundamentais para
o apreçamento de derivativos, de forma geral. Como ressalta Duffie (2001) [28], o
apreçamento de derivativos tem seu núcleo fundamental desenvovido na chamada “década
dourada dos derivativos” cobrindo o perı́odo de 1969 a 1979. Portanto, entendemos que
é justificável todo o esforço despendido neste sentido e encorajamos o leitor a seguir na
leitura do Apêndice e dos capı́tulos seguintes.
4.8 Apêndice - Solução da EDP de BMS

O objetivo deste Apêndice é mostrar todos os detalhes da resolução da EDP (4.12)
(ou (4.13)) juntamente com as condições iniciais e de contorno. Este detalhamento é
pouco usual em livros textos não somente pela aridez algébrica envolvida como pelo
espaço que demanda. Vamos tentar ser breves mantendo a riqueza de detalhes para
o completo entendimento da solução. O Apêndice está dividido em quatro seções. A
primeira apresenta os detalhes da transformação da EDP de BMS para a forma básica
da equação do calor. A seguir usamos a solução da equação do calor para mostramos
a solução da EDP de BMS (equação (4.18)). Entretanto a solução da equação do calor
não é usual para a maiorida dos leitores, portanto decidimos apresentá-la. Porém,
primeiramente precisamos de um outro conceito que é a transformada de Fourier. A
segunda seção apresenta os conceitos básicos da transformada de Fourier e a terceira
seção faz uso destes conceitos na solução da equação do calor. A quarta seção demonstra
alguns resultados que se fazem necessários para a penúltima seção.
4.8.1 Solução da EDP de BMS

A EDP de BMS é uma equação diferencial parcial do tipo parabólica. O preço da
opção é função do preço do ativo subjacente e do tempo dados os demais parâmetros,
escrevemos então c (St , t; σ, K, r). Para tornar clara a notação iremos usar que St = s
destacando a diferença entre a variável aleatória St e o valor que esta variável assume
s. Então escreveremos c (s, t). Esta função c (s, t) é a solução da seguinte EDP com
condição final e de contorno dadas por
∂c ∂c 1 2 2 ∂ 2 c
+ rS + σ S = rc (4.48)
∂t ∂s 2 ∂s2
ou em forma mais abreviada
1
ct (s, t) + rScs (s, t) + σ 2 S 2 css (s, t) = rc (s, t) (4.49)
2
onde S ≥ 0 e 0 ≤ t < T . As condições de contorno são definidas abaixo.
Quando o preço atinge St = 0, os preços subsequentes do ativo serão zero pois trata-se
134
de uma barreira de absorção do processo geométrico Browniano. Entretanto para sermos
consistente com a transformação utilizada abaixo, usaremos a condição St → 0
lim c (s, t) = 0 t ∈ [0, T ) (4.50)

s→0
Quando o preço da ação cresce indefinidamente, o mesmo ocorre com o preço da opção
lim c (s, t) = s t ∈ [0, T ) (4.51)

s→∞
A condição terminal, quando t → T , é dada por
lim c (s, t) = (ST − K)+ (4.52)

t→T
Vamos fazer a primeira mudança de variáveis e transformar o problema escrito em termos

de c (s, t) para f (x, τ ). A primeira variável preço será assim transformada
s = Kex (4.53)
onde −∞ < x < ∞. A razão para tal transformação é simples. Na equação (4.48) a
potência da variável S é a mesma da ordem é a mesma da ordem do respectivo diferencial.
O fator de escala K considerado será eliminado em breve. E tomando a derivada temos
ds dx 1
= Kex ⇒ = e−x (4.54)
dx ds K
Adotamos neste texto a definição de que a variável τ representa o tempo remanescente
para o vencimento. Exclusivamente neste Apêndice vamos fazer uma ligeira mudança
nesta definição. Assim definiremos τ
1
τ = σ 2 (T − t) (4.55)
2
onde 0 ≤ t < T e consequentemente 0 < τ ≤ 21 σ 2 T . A razão para está transformação
é simples. Em primeiro desejamos transformar a condição terminal em condição ini-
cial. Em segundo lugar, usando o fator de escala 21 σ 2 ele poderá ser eliminado da
equação (4.48). Tomando a derivada temos
dτ 1
= − σ2 (4.56)
dt 2
A função f (x, τ ) mapeará a função c (s, t) da seguinte forma
c (s, t) = Kf (x, τ ) (4.57)
Usando o fator de escala K poderemos eliminá-lo do problema pois ele foi igualmente
incluı́do na equação (4.53).
∂c ∂c ∂2c
Agora necessitamos das derivadas , e
para introduzı́-las na EDP (4.48)
∂t ∂s ∂s2

∂c ∂f ∂τ ∂f 1 2 1 ∂f
=K =K − σ = − σ2K (4.58)
∂t ∂τ ∂t ∂τ 2 2 ∂τ
135

∂c ∂f ∂x ∂f 1 −x ∂f
=K =K e = e−x (4.59)
∂s ∂x ∂s ∂x K ∂x
Iremos usar o resultado da equação acima para o cálculo da segunda derivada
∂ 2c

∂ −x ∂f
= e
∂s2 ∂s ∂x

−x dx ∂f −x ∂ ∂f
= −e +e
ds ∂x ∂s ∂x
−x
e ∂f ∂ 2 f ∂x
= −e−x + e−x 2
K ∂x ∂x ∂s
e−2x ∂f e−2x ∂ 2 f
=− + (4.60)
K ∂x K ∂x2
Levando os resultados das equações (4.58), (4.59) e (4.60) na equação (4.48) e fazendo
as simplificações, teremos
1 2 ∂ 2f

1 2 ∂f 1 2 ∂f
σ + r − σ − σ − rf = 0
2 ∂x2 2 ∂x 2 ∂τ
2
Se fizermos r = k σ2 , então a equação acima pode ser escrita como
∂ 2f ∂f ∂f
2
+ (k − 1) − − kf = 0
∂x ∂x ∂τ
Ou ainda podemos escrever
∂f ∂ 2f ∂f
= 2
+ (k − 1) − kf (4.61)
∂τ ∂x ∂x
Agora que transformamos a EDP original em outra EDP em termos de x e τ , precisamos
também modificar as condições de contorno originais de acordo com a transformação
acima. Assim escrevemos que em t = T ⇒ τ = 0 e então a definição (4.57) c (s, t) =
Kf (x, τ ) tornar-se-á c (s, T ) = Kf (x, 0). Um pouco mais além, temos que
c (s, T ) = Kf (x, 0) = max (S − K, 0)

= Kf (x, 0) = max (Kex − K, 0) = K max (ex − 1, 0)
f (x, 0) = (ex − 1)+ (4.62)
Esta última equação é a condição inicial do problema em termos de f (·). O que fizemos
foi transformar uma equação diferencial do tipo backward em outra do tipo forward.
Neste caso estabelecemos a condição inicial em τ = 0 e procedemos a solução para val-
ores maiores que zero.
Vamos fazer uma nova transformação na EDP (4.61). Escreveremos a EDP, que está
escrita em termos de f (x, τ ), em termos de u (x, τ ), obedecendo o seguinte mapeamento
de uma função em outra
f (x, τ ) = eαx+βτ u (x, τ )
136
onde α e β serão definidos posteriormente. Vejamos primeiramente a condição inicial
em termos de u (·),
f (x, 0) = eαx u (x, 0) ⇒ u (x, 0) = e−αx f (x, 0) (4.63)

∂2f
Novamente necessitamos das derivadas ∂f , ∂f e
∂τ ∂x ∂x2
para obtermos a EDP em termos
de u (·). Trabalhano algebricamente, temos que

∂f ∂u αx+βτ ∂u
= βeαx+βτ u (x, τ ) + e = eαx+βτ βu + (4.64)
∂τ ∂τ ∂τ

∂f ∂u αx+βτ ∂u
= αeαx+βτ u (x, τ ) + e =eαx+βτ
αu + (4.65)
∂x ∂x ∂x
∂ 2f 2 αx+βτ αx+βτ ∂u αx+βτ ∂u
2
αx+βτ ∂ u
= α e u (x, τ ) + αe + αe + e
∂x2 ∂x ∂x ∂x2
2

∂u ∂ u
= eαx+βτ α2 u + 2α + (4.66)
∂x ∂x2
Inserindo estas derivadas na equação (4.61), cancelando os termos exponenciais e agru-
pando os termos similares, obtemos a seguinte EDP
∂u ∂ 2u ∂u
= 2
+ (2α + k − 1) + [(α + k) (α − 1) − β] u
∂τ ∂x ∂x
Impondo a condição de que os coeficientes dos dois últimos termos do segundo membro
são nulos, obtemos
(α + k) (α − 1) − β = 0 ⇒ β = α2 + α (k − 1) − k (4.67)
1
2α + k − 1 = 0 ⇒ α = − (k − 1) (4.68)
2
ou ainda
1 1
1−α=1+ (k − 1) = (k + 1) (4.69)
2 2
Inserindo (4.68) em (4.67) teremos β
1 1 1
β= (k − 1)2 − (k − 1)2 − k ⇒ β = − (k + 1)2 (4.70)
4 2 4
Agora temos as definições de α e β em termos de k nas equações (4.68) e (4.70). Incluindo
estes resultados na relação entre as funções f (·) e u (·), obtemos
1 1 2
f (x, τ ) = e− 2 (k−1)x− 4 (k+1) τ u (x, τ )
A EDP final será

∂u ∂ 2u
= −∞<x<∞ e τ >0 (4.71)
∂τ ∂x2
De volta à condição inicial na equação (4.63), temos que
u (x, 0) = e−αx f (x, 0)
137
Usando a equação (4.62) nesta última, temos que
u (x, 0) = e−αx max (ex − 1, 0)

= max e(1−α)x − e−αx , 0

Usando as equações (4.69) e (4.68) nesta última equação, ficamos com

1 1

(k+1)x (k−1)x
u (x, 0) = max e 2 −e 2 ,0 (4.72)
Podemos então reescrever o problema da seguinte forma
∂u ∂ 2u
= −∞<x<∞ τ >0
∂τ ∂x2
(4.73)
1 1

(k+1)x (k−1)x
u (x, 0) = φ (x) = max e 2 −e 2 ,0
O problema descrito em (4.73) é a clássica equação de difusão do calor. Desta forma

concluı́mos a primeira parte de nosso problema, qual seja, reduzir a EDP de BMS na
forma da equação do calor. Agora iremos aplicar a solução desta última ao nosso prob-
lema de finanças.
A solução da equação (4.73) é dada por

Z ∞
1 (x−y)2
u (x, τ ) = √ φ (y) e− 4τ dy
4πτ −∞
A solução da equação do calor pode ser vista com detalhes em Brown e Churchill (1978)
[18], dentre outros. Na seção 4.8.3 deste Apêndice apresentamos a solução da equação do
calor usando a transformada de Fourier. Considerando que a solução da equação (4.73)
seja conhecida, o restante do trabalho é o cálculo da integral acima, o qual depende so-
mente de esforço algébrico. Depois de resolvida a integral e encontrarmos u (·), voltare-
mos à função f (·) e em seguida à c (s, t), completando assim o trabalho.
Vamos observar a função φ (y) acima:

1 1

φ (y) = max e 2 (k+1)y − e 2 (k−1)y , 0 (4.74)
1 1 1 1
Note que φ (y) = e 2 (k+1)y − e 2 (k−1)y se e 2 (k+1)y − e 2 (k−1)y ≥ 0. Assim podemos escrever
1 1 1 1
e 2 (k+1)y − e 2 (k−1)y ≥ 0 ⇔ (k + 1) y ≥ (k − 1) y
2 2
Em consequência k + 1 ≥ k − 1 desde que tenhamos y > 0. Assim, tomando a integral
acima para valores positivos de y, escrevemos
Z ∞
1 (x−y)2
u (x, τ ) = √ φ (y) e− 4τ dy
4πτ 0
138
Para resolver esta integral vamos fazer a seguinte mudança de variável
y−x √ √
w= √ ⇒ y = 2τ w + x ⇒ dy = 2τ dw
2τ
Introduzindo estas definições na integral acima obtemos sucessivamente
1
Z ∞ √ w2 √
u (x, τ ) = √ φ 2τ w + x e− 2 2τ dw
4πτ − √x2τ
1
Z ∞ √ w2
=√ φ 2τ w + x e− 2 dw
2π − √x2τ
Z ∞ √ √
1 1 1
w2
=√ e 2 (k+1)( 2τ w+x) − e 2 (k−1)( 2τ w+x) e− 2 dw
2π − √x2τ
Vamos separar esta última integral em duas, denominadas de I1 e I2 , ou seja

Z ∞ √
Z ∞ √
1 1
( ) w2 1 1 w2
u (x, τ ) = √ e2 (k+1) 2τ w+x −
e 2 dw − √ e 2 (k−1)( 2τ w+x) e− 2 dw
2π − √x2τ 2π − √x2τ
= I1 − I2
onde:
Z ∞ √
1 1 1 2
2τ w− w2
I1 = √ e 2 (k+1)x+ 2 (k+1) dw
2π − √x
2τ
Z ∞ √
1 1 1 2
2τ w− w2
I2 = √ e 2 (k−1)x+ 2 (k−1) dw
2π − √x
2τ
Vamos resolver a integral I1 . Somando e subtraindo o termo 41 (k + 1)2 2τ ao exponte

do integrando, temos
1 1 (k+1)x ∞ − 12 (−(k+1)√2τ w+w2 + 14 (k+1)2 2τ − 14 (k+1)2 2τ )
Z
I1 = √ e 2 e dw
2π − √x
Z 2τ √
1 1 (k+1)x ∞ − 12 w− (k+1)2 2τ 2 1 (k+1)2 τ

= √ e2 e e4 dw
2π − √x
2τ
√
1 1 (k+1)x 1 (k+1)2 τ ∞ − 21 w− (k+1)2 2τ 2
Z
= √ e2 e4 e dw
2π − √x
2τ
Vamos fazer mais uma mudança de variável na qual

√
(k + 1) 2τ
z=w− ⇒ dz = dw
2
Denominando o limite inferior de integração w = − √x2τ por −d1 , teremos
√
x (k + 1) 2τ
−d1 = − √ −
2τ 2
139
Podemos escrever Z ∞
1
(k+1)x 1 1
(k+1)2 τ
2
− z2
I1 = e 2e 4 √ e dz
2π −d1
O termo entre parênteses representa a área sob a distribuição normal padrão entre −d1
e ∞. E pela simetria da distribuição normal, esta área é a mesma que aquela entre
−∞ e d1 , que chamaremos de N (d1 ), onde N (·) é a função distribuição cumulativa da
normal padronizada. Em resumo temos que
1 1 2
I1 = e 2 (k+1)x e 4 (k+1) τ N (d1 ) (4.75)
onde √
x (k + 1) 2τ
d1 = √ + (4.76)
2τ 2
O cálulo de I2 é feito de maneira similar
Z ∞ √
1 1 1 w2
I2 = √ e 2 (k−1)x+ 2 (k−1) 2τ w− 2 dw
2π − √x2τ
1 1 (k−1)x ∞ − 21 (w2 −(k−1)√2τ w)
Z
= √ e2 e dw
2π − √x
2τ
Completando o quadrado perfeito no exponencial do integrando, temos

1 1 (k−1)x ∞ − 12 (w2 −(k−1)√2τ w+ 14 (k−1)2 2τ − 14 (k−1)2 2τ )
Z
I2 = √ e 2 e dw
2π − √x
2τ
√
1 1 (k−1)x+ 1 (k−1)2 τ ∞ − 12 w− (k−1)2 2τ 2
Z
= √ e2 4 e dw
2π − √x
2τ
√
Como anteriormente faremos a seguinte mudança
√
de variável z = w − (k−1)2 2τ
. O limite
(k−1) 2τ
inferior de integração será −d2 = − √x2τ − 2
. Então podemos escrever
1 1 (k−1)x+ 1 (k−1)2 τ ∞ − z2
Z
I2 = √ e 2 4 e 2 dz
2π −d2
Z ∞
1
(k−1)x+ 1
(k−1)2
τ 1 − z2
= e2 4 √ e 2 dz
2π −d2
O termo entre parênteses é a área sob a distribuição normal padronizada entre −d2 e
∞. Pela simetria da distribuição normal esta área é mesma que aquela entre −∞ e d2 .
Então temos
1 1 2
I2 = e 2 (k−1)x+ 4 (k−1) τ N (d2 ) (4.77)
onde √
x (k − 1) 2τ
d2 = √ + (4.78)
2τ 2
Havı́amos estabelecido anteriormente que u (x, τ ) = I1 − I2 . Usando os resultados obti-
dos, chegamos a
1 1 2 1 1 2
u (x, τ ) = e 2 (k+1)x e 4 (k+1) τ N (d1 ) − e 2 (k−1)x+ 4 (k−1) τ N (d2 )
140
Agora devemos proceder o caminho de volta encontrando as funções f (·) e c (·). Havı́amos
definido a relação entre f (·) e u (·). Usando o resultado acima de u (·) obtemos suces-
sivamente para os seguintes resultados para f (·):
1 1 2
f (x, τ ) = e− 2 (k−1)x− 4 (k+1) τ u (x, τ )
1
− 12 (k−1)x− 41 (k+1)2 τ (k+1)x 14 (k+1)2 τ 1
(k−1)x+ 14 (k−1)2 τ
=e e 2 e N (d1 ) − e 2 N (d2 )
= ex N (d1 ) − e−τ k N (d2 ) (4.79)
De acordo com a nossa definição prévia em (4.53) s = Kex , então x = ln Ks . Da mesma

forma, de (4.55) podemos escrever que −τ k = − (T − t) 12 σ 2 k = −r (T − t). Usando a

definição em (4.57) em que c (s, t) = Kf (x, t), a equação (4.79) pode ser escrita por
s

c (s, t) = K eln( K ) N (d1 ) − e−r(T −t) N (d2 )
= sN (d1 ) − Ke−r(T −t) N (d2 )
Para d1 temos sucessivamente que

√
x (k + 1) 2τ
d1 = √ +
2τ 2
2

ln Ks + r + σ2 (T − t)

= √
σ T −t
Para d2 temos sucessivamente que
√
x (k − 1) 2τ
d2 = √ +
2τ 2
x + (k − 1) τ
= √
2τ
s
σ2

ln K + r − 2 (T − t)
= √
σ T −t
√
= d1 − σ T − t
Lembrando que a variável s representa o preço da ação St , temos finalmente que
c (St , t) = St N (d1 ) − Ke−r(T −t) N (d2 ) St > 0 0≤t<T (4.80)
onde
St 2
+ r + σ2 (T − t)

ln K √
d1 = √ d2 = d1 − σ T − t
σ T −t
Note que a equação (4.80) não é definida em t = T (ou τ = 0), pois este termo aparece
no denominador de d1 . Podemos dizer o mesmo com relação a validade de (4.80) em
St = 0, que é um argumento da função log. Entretanto c (St , t) está definida tal que
limt→T c (St , t) = (St − K)+ e limSt →0 c (St , t) = 0.
141
4.8.2 Transformada de Fourier
Na seção anterior resolvemos a equação do modelo de BMS reduzindo-a à forma da
equação do calor e usando a solução desta última. Agora o objetivo é mostrar a validade
do que fizemos resolvendo a equação do calor. Usaremos a transformada de Fourier para
resolver a equação do calor. Esta seção mostra alguns conceitos básicos da transformada
de Fourier. Exitem vários textos dedicados ao assunto, dentre os quais Iório e Iório
(2001) [56], Oliveira e Tygel (2005) [81] e Kreyszig (2007) [66].
Definição 4.2. (Transformada de Fourier) Seja f (x) uma função real definida em
−∞ < x < ∞, definimos a transformada de Fourier F [f (x)] pela integral
Z ∞
ˆ 1
F [f (x)] = f (ξ) = √ f (x) e−iξx dx (4.81)
2π −∞
desde que tal integral exista.
Definiçãoh 4.3. i(Transformada de Fourier inversa) Definimos a transformada in-

versa F−1 fˆ (ξ) pela integral
Z ∞
h i 1
F −1
fˆ (ξ) = f (x) = √ fˆ (ξ) eiξx dξ (4.82)
2π −∞
Para detalhes sobre as classes de funções para as quais existem a transformada e sua
inversa, sugerimos os textos apontados acima.
Definição 4.4. (Derivadas da transformada) Pode-se facilmente mostrar que as

derivadas das transformadas de Fourier são dadas por
fˆ0 (x) = −iξ fˆ (x) fˆ00 (x) = −ξ 2 fˆ (x) e fˆ(n) (x) = (−iξ)n fˆ (x) n = 1, 2, . . . (4.83)
Teorema 4.1. (Teorema da integral de Fourier) Seja f (x) uma função contı́nua
definida em um intervalo finito. ConsidereRque em cada ponto f (x) tem derivadas à
∞
esquerda e direita. Suponha que a integral −∞ |f (x) |dx exista. Então f (x) pode ser
escrita usando a integral de Fourier
Z ∞
f (x) = [A (λ) cos (λx) + B (λ) sen (λx)] dλ −∞<x<∞ (4.84)
0
onde: Z ∞
1
A (λ) = f (y) cos (λy) dy
π −∞
Z ∞
1
B (λ) = f (y) sen (λy) dy
π −∞
e se f (x) não é contı́nua

em x0 −ovalor da integral de Fourier é a média dos limites de
ambos os lados 12 f x+

0 + f x0 .
O uso do teorema 4.1 na solução desta EDP pode ser visto em Baidya e Castro
(1992) [3].
142
4.8.3 Solução da equação do calor
Nesta seção iremos resolver a equação do calor com o uso da transformada de Fourier
usando algumas definições da seção anterior. Ao longo da resolução iremos nos deparar
com alguns resultados que necessitam demonstração. Por isto preferimos deixá-los para
a próxima seção.
Definição 4.5. (Equação do calor em uma barra finita) Seja u (x, τ ) a temperatura
no ponto x em uma barra de seção reta constante e material homogêneo de tamanho l no
instante τ . A equação de difusão do calor, que flui unicamente na direção x, é definida
por
∂u (x, τ ) ∂ 2 u (x, τ )
= Kc2 τ >0 0<x<l (4.85)
∂τ ∂x2
a temperatura inicial (ou condição inicial) é definida pela função φ (x) tal que
u (x, 0) = φ (x) 0<x<l (4.86)

L
e as condições de contorno são u (0, τ ) = u (l, τ ) = 0, onde Kc2 = δκ sendo L a condu-
tividade térmica, δ o calor especı́fico e κ a massa especı́fica do material.
Definição 4.6. (Equação do calor em uma barra infinita) Seja u (x, τ ) a temper-
atura no ponto x em uma barra infinita de seção reta constante e material homogêneo,
no instante τ . A equação de difusão do calor, que flui unicamente na direção x, é
definida por
∂u (x, τ ) ∂ 2 u (x, τ )
= Kc2 τ >0 −∞<x<∞ (4.87)
∂τ ∂x2
a temperatura inicial (ou condição inicial) é definida pela função φ (x) tal que
u (x, 0) = φ (x) −∞<x<∞ (4.88)
onde Kc2 foi definido acima.
A solução da equação do calor pode ser feita de diferentes formas. Em geral este
tipo de equação é resolvida com o uso de transformadas integrais. A transformada de
Laplace é um tipo de transformada integral que pode ser usada na solução do problema.
Aqui optamos por usar a transformada de Fourier. Trataremos especificamente do prob-
lema descrito na definição 4.6. Sem perda de generalidade consideraremos o caso em
que Kc2 = 1.
Aplicando a definição F [f (x)] ao problema descrito pelas equações (4.87) e (4.88), temos
∂ û (ξ, τ )
= −ξ 2 û (ξ, τ )
∂τ
(4.89)
û (ξ, 0) = φ̂ (ξ)
O problema em (4.89) é o de uma equação diferencial ordinária, cuja solução é dada por
2τ
û (ξ, τ ) = φ̂ (ξ) e−ξ (4.90)
143
A transformada inversa de û (·)
Z ∞
−1 1
F [û (ξ, τ )] = u (ξ, τ ) = √ û (ξ, τ ) eiξx dξ
2π −∞
Usando a equação (4.90) na equação anterior, temos

Z ∞
1 2
u (ξ, τ ) = √ φ̂ (ξ) e−ξ τ eiξx dξ (4.91)
2π −∞
Por outro lado, da definição da transformada de Fourier, sabemos que
Z ∞
1
φ̂ (ξ) = √ φ (y) e−iξy dy (4.92)
2π −∞
Levando a equação (4.92) na equação (4.91), obtemos o seguinte resultado
Z ∞ Z ∞
1 1 2
u (x, τ ) = √ √ φ (y) e−iξy dye−ξ τ eiξx dξ
2π −∞ 2π −∞
Reagrupando os termos similares, resulta em
Z ∞ Z ∞
1 iξ(x−y) −ξ 2 τ
u (x, τ ) = e e dξ φ (y) dy (4.93)
2π −∞ −∞
Definindo Z ∞
2
Θ (x, τ ) = e−ξ τ eiξx dξ
−∞
Então podemos escrever

Z ∞
2
Θ (x − y, τ ) = e−ξ τ eiξ(x−y) dξ (4.94)
−∞
Usando a equação (4.94) em (4.93), resulta em

Z ∞
1
u (x, τ ) = Θ (x − y, τ ) φ (y) dy (4.95)
2π −∞
Note que a última integral é a convolução (Θ ∗ φ) (x). Vamos usar o seguinte resultado
para Θ (·) que demonstraremos na seção seguinte
r
π − x2
Θ (x, τ ) = e 4τ
τ
Levando este resultado na equação (4.95), temos a solução u (·)
Z ∞r
1 π − (x−y)2
u (x, τ ) = e 4τ φ (y) dy
2π −∞ τ
Z ∞
1 (x−y)2
=√ φ (y) e− 4τ dy (4.96)
4πτ −∞
A equação (4.96) é a solução da equação do calor que usamos na seção anterior.
144
4.8.4 Resultados básicos
Esta seção mostra resultados fundamentais que previamente foram utilizados na solução
da equação do calor (seção 4.8.3).
Proposição 4.2. É válido o seguinte resultado

Z ∞ r
−ξ 2 τ π
e dξ =
−∞ τ
R∞ 2
Prova. Considere I (τ ) = −∞ e−ξ τ dξ. Então podemos escrever
Z ∞ Z ∞ Z ∞Z ∞
e−(ξ +η )τ dξdη
2 2
2 −ξ 2 τ −η 2 τ
I (τ ) = e dξ e dη =
−∞ −∞ −∞ −∞
Usando coordenadas polares para resolver esta última integral, temos que
ξ = r cos θ η = rsenθ onde: r ∈ [0, ∞) θ ∈ [0, 2π]
A área de um pequeno setor circular em coordenadas polares é dado por dξdη = rdrdθ.
Então temos
Z ∞Z ∞ Z ∞ Z 2π Z ∞
−(ξ 2 +η 2 )τ −r2 τ 2
2
I (τ ) = e dξdη = rdre dθ = 2π re−r τ dr
−∞ −∞ 0 0 0
Z ∞
π 2 π
=− (−2rτ ) e−r τ dr =
τ 0 τ
Então temos o resultado r
π
I (τ ) =
τ
Proposição 4.3. É válido o seguinte resutado

Z ∞ r
−ξ 2 τ iξx π − x2
e e dξ = e 4τ
−∞ τ
R∞ 2
Prova. Seja h (x) = −∞ e−ξ τ eiξx dξ, a derivada h0 (x) é
Z ∞ Z ∞
0 −ξ 2 τ i 2
h (x) = e iξx
(iξ) e dξ = − −2ξτ e−ξ τ eiξx dξ
−∞ 2τ −∞
Z ∞
i d 2

=− e−ξ τ eiξx dξ
2τ −∞ dξ
Usando integração por partes na última integral acima, resulta

∞ Z ∞
0 i −ξ 2 τ iξx −ξ 2 τ iξx
h (x) = − e e − e (ix) e dξ
2τ −∞ −∞
Z ∞
i 2 x
= − (−ix) e−ξ τ eiξx dξ = − h (x)
2τ −∞ 2τ
145
Usando o resultado da proposição 4.2, temos
∞
Z r
0 x −ξ 2 τ π
h (x) = − h (x) e h (0) = e dξ =
2τ −∞ τ
Ainda podemos escrever
h0 (x) x x
=− ⇒ d [ln (h (x))] = −
h (x) 2τ 2τ
Integrando
x
y 2 x x2
Z
y
ln (h (x)) − ln (h (0)) = − dy = =−
0 2τ 4τ 0 4τ
2

h (x) x
ln =−
h (0) 4τ
O resultado final será

h (x) x2 x2
= e− 4τ ⇒ h (x) = h (0) e− 4τ e usando o último resultado para h (0)
h (0)
Z ∞ r
−ξ 2 τ iξx π − x2
h (x) = e e dξ = e 4τ
−∞ τ
Note que eiξx = cos (ξx) + isen (ξx), então o nosso problema pode ser escrito por
Z ∞ Z ∞ Z ∞
−ξ 2 τ −ξ 2 τ 2
e [cos (ξx) + isen (ξx)] dξ = e cos (ξx) dξ + i e−ξ τ sen (ξx) dξ
−∞ −∞ −∞
A segunda integral do segundo membro tem como integrando o produto de uma função
par por uma uma função ı́mpar. O resultado é uma função ı́mpar, logo a integral desta
função de −∞ a ∞ é zero. Portanto, temos
Z ∞ Z ∞ r
−ξ 2 τ iξx −ξ 2 τ π − x2
e e dξ = e cos (ξx) dξ = e 4τ
−∞ −∞ τ
ou ainda
∞ ∞
Z Z r
−ξ 2 τ iξ(x−y) −ξ 2 τ π − (x−y)2
e e dξ = e cos (ξ (x − y)) dξ = e 4τ
−∞ −∞ τ
Este último resultado foi utilizado para encontrar a solução da equação do calor (veja
equação (4.94)).
146
Capı́tulo 5
Mudança de Medida
No capı́tulo anterior fizemos o apreçamento com a suposição da inexistência da possi-

bilidade de arbitragem. Este é um ponto central neste texto. Sempre consideraremos o
apreçamento nesta condição. Dado que não há arbitragem existem fundamentalmente
duas metodologias bem definidas para o apreçamento. A primeira é a metodologia
clássica apresentada no capı́tulo 4. A segunda metodologia será abordada neste capı́tulo.
É muito usual o apreçamento de derivativos através da medida martingal. Historica-

mente esta metodologia iniciou-se em 1979 com o artigo de Harrison e Kreps (1979) [48]
e posteriormente Harrison e Pliska (1981) [47]. Neste capı́tulo iremos detalhar os con-
ceitos matemáticos envolvidos nesta metodologia e faremos novamente o apreçamento
do modelo de BMS. Obviamente o resultado é o mesmo que o obtido no capı́tulo ante-
rior. Uma pergunta natural seria qual o apelo que se tem pelo apreçamento pela medida
martingal? A metodologia originalmente desenvolvida por BMS, quando aplicada ao
apreçamento de derivativos de modo geral, requer a montagem de um portfólio (tomada
de posição no ativo subjacente e no derivativo) e em seguida a eliminação do risco deste
portfólio (estratégia esta mantida ao longo do perı́odo de maturação do derivativo).
Matematicamente este procedimento resulta em uma EDP que em muitos casos não
tem solução analı́tica. Por vezes a solução numérica não é trivial e demanda técnicas
mais avançadas para a sua resolução.
O apreçamento pela medida martingal envolve a mudança de medida de probabilidade

(que significa escrever o processo estocástico do ativo subjacente em uma medida equiv-
alente) e em seguida o cálculo do valor esperado nesta medida. O apreçamento pode
ser feito por uma metodologia ou outra, dependendo de cada caso. Há situações em que
o uso da medida martingal mostra-se mais vantajoso. Em outros casos ocorre o inverso.
Matematicamente o que se está fazendo ao resolver uma equação diferencial ou cal-

cular o valor esperado, é uma operação de integração. A solução de EDP´s por métodos
numéricos é um tópico ao qual são dedicados textos especı́ficos e metodologia diversas.
Para o cálculo do valor esperado, quando necessário, pode-se recorrer a procedimentos
numéricos. Um deles bastante usual em finanças é a técnica de Monte-Carlo, que é rel-
ativamente fácil de ser implementada, porém demanda procedimentos especı́ficos para
tornar-se mais eficiente computacionalmente.
147
Este capı́tulo inicia-se com os conceitos de mudança de medida, segue-se a mudança de
medida para o processo geométrico Browniano e o teorema de Girsanov. A seguir é feito
o apreçamento de opções Européias (modelo de BMS). Posteriormente são mostradas
algumas extensões do modelo de BMS e a conceituação de opções exóticas. Ao final do
capı́tulo, o leitor deverá ter o domı́nio de todo o procedimento envolvido no apreçamento
pela medida martingal. A referências bibliográficas, tal qual no capı́tulo 3, diferem muito
em termos do nı́vel matemático da abordagem. Há textos de menor complexidade como
Mikosh (1999) [75], último capı́tulo; Neftci (2000) [77], capı́tulos 14 e 15; Baxter e Ren-
nie (1996) [5] e Joshi, (2003) [59] capı́tulo 6. Outros textos, também acessı́veis mas
com complexidade matemática mais elevada, são Shreve (2004) [94], Steele (2000) [97],
Øksendal (2003) [80], Elliot e Kopp (2005) [34] e Klebaner (2005) [62], dentre outros.

Inicialmente consideraremos um exemplo numérico. Sejam duas distrbuições normais
N1 (2, 4) e N2 (3, 4). Sabemos que as funções densidades (veja a equação (1.27)) destas
distribuições são
1 (x−2)2
f1 (x) = √ e− 8 x∈R (5.1)
2π2
1 (x−3)2
f2 (x) = √ e− 8 x∈R (5.2)
2π2
onde x são os valores de Xi (ω) , i = 1, 2 e ω ∈ Ω. Consideremos agora Z1,2 (x) a razão
entre as duas funções densidades. Isto é
f1 (x)
Z1,2 (x) = (5.3)
f2 (x)
Usando as expressões das equações (5.1) e (5.2) na equação (5.3), temos:
−2x+5
Z1,2 (x) = e 8 x∈R (5.4)
Dizemos que Z1,2 (x) é a densidade de f1 (x) emR relação a f2 (x). Note que Z1,2 (x) não
∞
é uma função densidade de probabilidade pois −∞ Z1,2 (x) dx 6= 1.
Podemos similarmente definir a densidade de f2 (x) em relação a f1 (x) por Z2,1 (x) =
f2 (x)
f1 (x)
para x ∈ R. Para as densidades em (5.1) e (5.2), teremos
2x−5
Z2,1 (x) = e 8 (5.5)
Note também que tanto Z1,2 (x) como Z2,1 (x) representam o quociente entre duas
funções densidades que envolvem exponenciais e portanto são não negativas.
Sabemos também que dP1 (x) = f1 (x) dx e que dP2 (x) = f2 (x) dx, onde P1 (x) e P2 (x)
são as funções distribuições respectivas, ou em outras palavras, são duas medidas de
probabilidades. É imediato que
dP1 (x) dP2 (x)
Z1,2 (x) = e Z2,1 (x) =
dP2 (x) dP1 (x)
148
Então pode-se também escrever que
dP1 (x) = Z1,2 (x) dP2 (x)
ou ainda
dP1 (x) = Z1,2 (x) f2 (x) dx (5.6)
e da mesma maneira
dP2 (x) = Z2,1 (x) f1 (x) dx (5.7)
A equação (5.7) significa que conhecendo-se Z2,1 (x) e a função densidade f1 (x) pode-
se obter a distribuição de probabilidade P2 (x). Da mesma forma, pode-se dizer o
mesmo com relção à distribuição P1 (x). Note que obtivemos uma nova distribuição
Pi (x) (ou medida de probabilidade) a partir do conhecimento de Zi,j (x) e da densidade
fj (x) , i = 1, 2 e j = 2, 1, respectivamente. Esta mudança de medida foi feita de tal
forma que se definiu novas probabildades aos eventos ω ∈ Ω. Poder-se-ia também chegar
ao mesmo resultado sem a alteração das probabilidades. Poderı́amos ter atuado sobre
os valores X (ω). No nosso exemplo a segunda distribuição tem a mesma variância que
a primeira porém a média é superior em uma unidade. Se tivéssemos somado 1 a cada
elemento da primeira distribuição obterı́amos a segunda.
De fato, o que fizemos alterando a medida (ou probabilidades) é mais útil em finanças
do que simplesmente deslocar a média. Por exemplo, para obter a medida dP2 (x), a
mudança feita pela equação (5.7) deverá reduzir as probabilidades associadas aos even-
tos ω, para os quais X (ω) são positivos e aumentar as probabilidades para os quais tais
valores são negativos.
Em resumo, podemos dizer que a mudança de medida, de P1 (x) para P2 (x) é feita
por Z2,1 (x). A mudança de P2 (x) para P1 (x) é feita por Z1,2 (x). Em ambos os casos
não alteramos o valor da variável X (ω). Mudamos o valor das probabilidades associadas
aos eventos ω ∈ Ω.
5.2 Mudança de medida

A seção anterior mostrou o mecanismo com o qual iremos mudar a medida de proba-
bilidade. Nesta seção formalizaremos este conceito. Usaremos o conceito de espaço
de probabilidade (Ω, F, P ) onde Ω representa o espaço de eventos ω que podem ocor-
rer, F representa a σ-álgebra dos subconjuntos de Ω e P é a medida (distribuição) de
probabilidade dos eventos ω ∈ Ω.
Definição 5.1. (Medidas equivalentes) Duas medidas de probabilidades P e Q em
(Ω, F) são equivalentes se elas estão em concordância com relação a quais conjuntos de
F têm probabilidade zero.
Seja A ∈ F tal que P (A) = 0. Então se P e Q são equivalentes, Q (A) = 0. Como A
é o complemento do conjunto que tem probabilidade de ocorrência 1, então P e Q estão
em concordância com relação a quais conjuntos de F têm probabilidade 1, ou seja, aos
eventos q.c. (quase certamente). Então se um evento ocorre quase certamente e se P e
Q são equivalentes, tanto faz se a ele nos referimos pela medida P ou Q.
149
Definição 5.2. (Derivada de Radon-Nikodym) Considere o espaço de probabilidade
(Ω, F, P ). Seja Q em (Ω, F) uma medida equivalente a P . Seja Z uma função não
negativa, de tal modo que seja a densidade de Q em relação a P . Então Z é denominada
de derivada de Radon-Nikodym de Q em relação a P , ou seja
dQ (ω)
Z (ω) = (5.8)
dP (ω)
Seja então A ∈ F então pode-se escrever que a probabilidade de ocorrer o evento,
avaliado pela medida Q, é Z
Q (A) = Z (ω) dP (ω) (5.9)
A
onde ω ∈ Ω. Além disso pode-se mostrar que E P (Z) = 1. A notação do valor esperado
deverá, de agora em diante, designar a medida em relação a qual o valor esperado está
sendo calculado.
Pode-se demonstrar que sendo P e Q medidas equivalentes em (Ω, F) existe quase

certamente Z nas condições acima.
Seja (Ω, F, P ) um espaço de probabilidade. Sob estas condições seja X uma distribuição
normal com média µ e variância 1, ou seja, X ∼ N (µ, 1). Isto significa que o espaço
Ω representa os números reais R, ou seja, x = X (ω) ∈ R e a função densidade de X é
dada por
1 1 2
fX (x) = √ e− 2 (x−µ) x∈R (5.10)
2π
A probabilidade do evento A ∈ F é dada por
Z
1 1 2
P (A) = √ e− 2 (x−µ) dx x ∈ R (5.11)
2π A
Ainda temos que E P (X) = µ e V arP (X) = 1 e escrevemos X ∼ P : N (µ, 1).
Agora encontraremos Z (x) tal que possamos definir uma medida equivalente Q em
relação a qual tenhamos a média de X igual a zero e a variância idêntica a anterior, ou
seja, E Q (X) = 0 e V arQ (X) = 1.
µ2
Tomemos Z (x) = e−xµ+ 2 . Da definição 5.2, equação (5.8), temos dQ (x) = Z (x) dP (x),
ou seja
µ2 1 1 2
dQ (x) = e−xµ+ 2 √ e− 2 (x−µ) dx
2π
É fácil ver que Z (x) é não negativa pois é uma função exponencial. Avaliando Q (A),
onde A ∈ F, temos:
Z
1 1 2 µ2
Q (A) = √ e− 2 (x−µ) e−xµ+ 2 dx
2π ZA
1 1 2 µ2 µ2
Q (A) = √ e− 2 x +xµ− 2 e−xµ+ 2 dx
2π ZA
1 1 2
Q (A) = √ e− 2 x dx (5.12)
2π A
150
Isto mostra que a função distribuição de X na medida Q é uma normal com média zero
e variância 1. Ou melhor, para avaliar a probabilidade de A sob a medida Q, devemos
x2
usar a densidade √12π e− 2 . Escrevemos então: E Q (X) = 0 e V arQ (X) = 1, ou ainda
X ∼ Q : N (0, 1). É fácil ver que E P (Z) = 1 pois trata-se da área abaixo da densidade
da distribuição normal padronizada.
Em resumo, o que foi feito acima foi retirar a média da distribuição mudando as prob-
abilidades (ou medida) em relação a qual a variável aleatória X está sendo avaliada.
A pergunta que vem a seguir é: qual o uso e importância da mudança de medida
no contexto de finanças? Esta questão será naturalmente elucidada com a evolução dos
conceitos neste capı́tulo. Mas por enquanto devemos ressaltar que a mudança de medida
será usada para o apreçamento de derivativos de forma geral. Faremos isto com detalhes
para o caso de uma opção Européia e chegaremos ao mesmo resultado que aquele do
modelo de BMS, que usaram a metodologia vista no capı́tulo anterior. A medida real
de probabilidade (também conhecida como medida frequentista) é a medida em relação
a qual os fatos são observados no mundo cotidiano. Em geral, os processos estocásticos
dos preços, sob esta medida, não possuem a propriedade martingal. É interessante que
façamos a mudança de medida para que tais processos tenham esta propriedade. A van-
tagem de se trabalhar com a propriedade martingal é que o valor esperado do derivativo
em uma data futura pode ser facilmente avaliado e atualizado para a data atual. Isto
evita o apreçamento através da solução de uma EDP. Esta nova medida de probabilidade
é denominada de medida martingal ou medida neutra de probabilidade. As questões
relativas à existência de tal medida serão tratadas adiante.
Exercı́cio 5.1. Seja (Ω, F, P ) um espaço de probabilidade. Considere Y ∼ P : N (0, 1).
Encontre Z tal que sob a medida equivalente Q tenhamos Y ∼ Q : N (µ, 1).
5.3 Mudando a medida do Browniano

Nesta seção aplicaremos os conceitos anteriores ao caso do processo Browniano padrão.
Seja um espaço de probabilidade (Ω, F, P ). Considere Bt , t ≥ 0, um processo Brow-
niano padrão. As propriedades do Browniano dependem da medida P e da σ-álgebra.
Neste contexto a distribuição de Bt é tal que Bt ∼ N (0, t) e Ft = σ (Bs , s ≤ t). Isto
signfica que sob a medida P , Bt tem distribuição normal com média zero e variância t.
Escrevemos mais apropriadamente Bt ∼ P : N (0, t). Se alterarmos a medida de pro-
babilidade podemos alterar signficativamente a distribuição de probabilidade de Bt . A
medida de probabilidade que descreve o Browniano padrão com as propriedades acima
é
1 − Bt2
dP (Bt ) = √ e 2t dBt (5.13)
2πt
Escreve-se também E P (Bt ) = 0 e V arP (Bt ) = t. Para tornar a notação mais simples,
denominaremos por x os valores assumidos por Bt , isto é x = Xt (ω) = Bt (ω) de tal
modo que a equação anterior fica
1 − x2
dP (X) = √ e 2t dx x∈R (5.14)
2πt
151
Seja agora θ uma constante não nula. Seja o processo abaixo
B̃t (ω) = Bt (ω) + θt t≥0 (5.15)
Para tornar a notação mais simples denominaremos por y os valores assumidos por
B̃t , isto é, y = Yt (ω) = B̃t (ω). Isto significa que (5.15) poderia ser escrita por
Yt (ω) = Xt (ω) + θt.
É claro que o B̃t não é um Browniano padrão na medida P . Queremos mudar a medida
de probabilidade de P para Q de tal maneira que sob esta medida B̃t seja um Browniano
padrão.
Sabemos que a derivada de Radon-Nikodym é dada por (5.8) onde apresentamos este
conceito sob o enfoque de mudança da medida para a distribuição de probabilidades.
Agora vamos buscar este conceito para um processo estocástico. Definimos a derivada
de Radon-Nikodym para a mudança de medida de um processo estocástico por
Zt (ω) = E P [Z (ω) |Ft ] t≥0 (5.16)
onde Z (ω) está definido na equação (5.8).

Exercı́cio 5.2. Mostre que o processo estocástico que define a derivada de Radon-
Nikodym em (5.16) é martingal em relação a Ft , ou seja, E P [Zt (ω) |Fs ] = Zs (ω).
Sugerimos que o item (iv) do exercı́cio 3.5 seja refeito.
Vamos considerar o seguinte processo estocástico

1 2
Zt (ω) = exp −θBt (ω) − θ t ω∈Ω (5.17)
2
Inicialmente vamos considerar que este processo representa a derivada de Radon-Nikodym.
Então a medida de probabilidade equivalente Q é escrita por
dQ (ω) = Zt (ω) dP (ω) ω∈Ω (5.18)
Podemos alternativamente escrever

Z
Q (A) = Zt (ω) dP (ω) A ∈ Ft (5.19)
A

Vamos calcular o valor esperado do processo B̃t na medida Q, E Q B̃t (ou ainda
E Q (Y )). Para tal vamos investigar qual a função distribuição de Y na medida Q. Isto
é faremos o cálculo de Q (Y < β) usando (5.19) e considerando A = {ω : Y (ω) ≤ β}.
Temos que Yt (ω) = Xt (ω) + θt, ou ainda y = x + θt, para y = β temos x = β − θt, e
então
Z β−θt
1 2 1 − x2
Q (Y ≤ β) = e−θx− 2 θ t √ e 2t dx
−∞ 2πt
Z β−θt
1 (x+θt)2
Q (Y ≤ β) = √ e− 2t dx
2πt −∞
152
Agora transformando y = x + θt, temos
Z β
1 y2
Q (Y ≤ β) = √ e− 2t dy (5.20)
2πt −∞
Lembrando que Yt (ω) = B̃t (ω) = y, vemos que sob a medida Q, B̃t distribui-se como
uma normal com média zero e variância t. A equação (5.20) também pode ser assim
escrita Z β
1 1 2
Q B̃t ≤ β = √ e− 2t B̃t dB̃t (5.21)
2πt −∞

Q Q
Esta equação comparada com (5.13) mostra claramente que E B̃t = 0 e V ar B̃t =
1. A derivada de Radon-Nikodym em (5.17) permitiu que fizéssemos a mudança de P
para Q de tal modo que B̃t na equação (5.15) se tornasse um Browniano padrão sob Q.
5.4 Teorema de Girsanov

Esta seção formaliza o que fizemos na seção 5.3 através do Teorema de Girsanov. A seguir
iremos analisar a mudança de medida do processo geométrico Browniano considerando-
o como a dinâmica de evolução dos preços das ações. Tal mudança busca encontrar a
medida que leve o processo à propriedade martingal.
Teorema 5.1. (Teorema de Girsanov) Seja (Ω, F, P ) um espaço de probabilidade.
Seja Bt (ω) , 0 ≤ t ≤ T um processo Browniano padrão neste espaço e Ft = σ (Bu , u ≤ t)
a filtração natural gerada por este Browniano. Seja θt um processo adaptado. Definimos
ainda Z t
B̃t (ω) = Bt + θu du (5.22)
0
Z t
1 t 2
Z
Zt (ω) = exp − θu dBu − θ du (5.23)
0 2 0 u
Considere a medida de probabilidade Q equivalente a P tal que
Z
Q (A) = Zt (ω) dP (ω) A ∈ Ft (5.24)
A
Considere também a condição de Novikov

Z T
2
E θu Zu (ω) du < ∞
0
Então sob a medida de probabilidade Q, B̃t (ω) é um processo Browniano padrão. A

medida Q é denominada de medida martingal equivalente.
Para os leitores interessados, a demonstração do Teorema de Girsanov pode ser vista,
dentre os textos mencionados no inı́cio do capı́tulo, em Øksendal (2003), Klebaner (2005)
e Shreve (2004).
Na seção 5.3 usamos a equação (5.22) fazendo θu = θ, um valor constante, para definir
153
o processo B̃t . A equação (5.17) decorreu deste fato e equivale à equação (5.23) e final-
mente a equação (5.21) mostrou que B̃t é um Browniano padrão sob a medida Q.
A seguir apresentaremos a mudança de medida para o processo geométrico Browni-

ano que é o processo representativo da dinâmica de uma ação no modelo de BMS.
Seja (Ω, F, P ) um espaço de probabilidade. Considere Bt (ω) , 0 ≤ t ≤ T um pro-

cesso Browniano padrão neste espaço e Ft = σ (Bu , u ≤ t) a filtração natural gerada
por este Browniano. Considere o processo geométrico Browniano como sendo a dinâmica
de uma ação de preço St , tal que
dXt = µXt dt + σXt dBt 0≤t≤T (5.25)
Vimos que a solução desta EDE é dada por

1 2
Xt = SX0 e(µ− 2 σ )t+σBt
Xt = X0 eδt+σBt 0≤t≤T (5.26)
onde δ = µ − 21 σ 2 .
Seja 0 ≤ u < t ≤ T , podemos escrever a equação (5.26) entre os instantes u e t

por
Xt = Xu eδ(t−u)+σ(Bt −Bu )
Vamos calcular o valor esperado de St na medida P , condicional a Fu
E P (Xt |Fu ) = Xu E eδ(t−u)+σ(Bt −Bu ) |Fu

= Xu eδ(t−u) E eσ(Bt −Bu ) |Fu

Como Bt − Bu é independente de Fu , temos
E P (Xt |Fu ) = Xu eδ(t−u) E eσ(Bt −Bu )

1 2 (t−u)
= Xu eδ(t−u) e 2 σ
1 2
= Xu eδ(t−u)+ 2 σ (t−u)
1 2
= X e(δ+ 2 σ )(t−u)
u
= Xu eµ(t−u)
Em geral o proprietário de um ativo com risco requer um “ganho extra” (prêmio de

risco) para mantê-lo em seu portfólio. Isto significa que espera obter um retorno além
da taxa livre de risco, r. Em outras palavras, é natural que µ seja positivo e superior a
r, de tal forma que tenhamos da última equação
E P (Xt |Fu ) > Xu (5.27)
Isto significa que o processo de preços sob a medida P é submartingal. Devemos buscar
uma medida que torne o processo de preço (ou um processo a ele relacionado) martingal.
154
Vamos considerar o processo de evolução da taxa de juros Rt . Seja Dt o fator de
desconto no tempo t, tal que Rt
Dt = e− 0 Rs ds (5.28)
Para o caso em que a taxa de juros é constante e igual a r (taxa livre de risco), o fator
de desconto será
Dt = e−rt (5.29)
Verifiquemos agora o comportamento dos preços descontados X̄t relativamente à pro-
priedade martingal. Considerando Rt = r para 0 ≤ t ≤ T , temos
1 2
X̄t = Xt Dt = Xt e−rt = X0 e(µ−r− 2 σ )t+σBt 0≤t≤T
Pelas mesmas razões anteriores (µ > r), encontramos
E P X̄t |Fu > X̄u

u<t (5.30)
E o processo de preços descontados sob a mediada P é submartingal.
Vamos definir o processo estocástico dos preços descontados na forma diferencial. Sabe-
mos que X̄t = e−rt Xt . Fazendo X̄t = e−rt Xt = f (x, t) e usando a fórmula de Itô,
temos
∂f ∂f 1 ∂ 2f
(dXt )2

d X̄t = d (f (x, t)) = dt + dXt + 2
∂t ∂x 2 ∂x
∂f ∂f ∂2f
onde ∂t
= −re−rt Xt , ∂x
= e−rt , ∂x2
= 0.
Então o processo estocástico procurado é dado por
dX̄t = −re−rt Xt dt + e−rt (µXt dt + σXt dBt )

dX̄t = (µ − r) X̄t dt + σ X̄t dBt (5.31)
A equação (5.31) mostra que o processo de X̄t é geométrico Browniano e que sob a
condição de que µ > r, o processo tem tendência (drift) não nulo e portanto não é
martingal sob a medida P .
Definição 5.3. (Preço do risco de mercado) O preço do risco de mercado em um

instante t é definido como e excesso de ganho em relação à taxa livre de risco por unidade
de volatildade. Isto significa que
µt − rt
θt = (5.32)
σt
onde θ é o preço do risco de mercado.
Para o caso que estamos examinando em que: (i) a ação possui dinâmica definida na
equação (5.25) onde a tendência (drift) e a volatilidade são constantes e respectivamente
dadas por µ e σ, (ii) a taxa livre de risco é considerada como constante e igual a r; o
preço do risco de mercado é dado por
µ−r
θ= (5.33)
σ
155
Agora a equação (5.31) por ser escrita por
dX̄t = σ X̄t (θdt + dBt ) (5.34)
Agora vamos aplicar o teorema de Girsanov considerando θ constante na equação (5.22),

ou seja
B̃t = Bt + θt
Ainda podemos considerar
dB̃t = dBt + θdt (5.35)
Substituindo a equação (5.35) na equação (5.34), temos
dX̄t = σ X̄t dB̃t (5.36)
O teorema de Girsanov garante que B̃t é um processo Browniano padrão sob a medida
Q equivalente a P . O processo X̄t não possui tendência e é martingal sob a medida Q.
Outra forma de verificar que o processo é martingal é escrevendo-o sob a forma integral
Z t
X̄t = X0 + σ X̄u dB̃u (5.37)
0
Sob a medida Q a integral acima é uma integral de Itô e portanto é martingal. Por esta
razão a medida Q é denominada medida martingal equivalente (MME). A solução da
EDE (5.36) é
1 2
X̄t = X0 e− 2 σ t+σB̃t 0≤t≤T (5.38)
Embora tenhamos demonstrado que o processo de preços descontados é martingal para
uma ação que segue um processo geométrico Browniano, pode-se mostrar mais generi-
camente que esta condição é válida para qualquer ativo, ou seja E Q ȲT |Ft = Ȳt , onde
Ȳt é o processo de preços descontados para o ativo que segue uma dinâmica descrita por
Yt .
Se quisermos escrever o processo de preços Xt sob a medida Q basta substituirmos

dBt = dB̃t − θdt em (5.25) para obtermos

dXt = µXt dt + σXt dB̃t − θdt
h µ i
dXt = σXt − θ dt + dB̃t
σ
dXt = rXt dt + σXt dB̃t
dXt
= rdt + σdB̃t (5.39)
Xt
A solução da EDE (5.39) é dada por
1 2
Xt = X0 e(r− 2 σ )t+σB̃t (5.40)
Na medida real de probabilidade o processo geométrico Browniano para o preço do ativo

Xt é dado por dX
Xt
t
= µdt + σdBt . Ao mudarmos a medida de probabilidade tal processo
dXt
torna-se Xt = rdt + σdB̃t . Pode-se dizer que a tendência µ original foi separada em
156
duas partes, uma é a taxa livre de risco que continua na fórmula e a outra parte é o
prêmio de risco que está inserido na nova medida Q em relação a qual escrevemos o novo
processo.
Tanto no processo dos preços Xt (equação (5.39)) como no processo dos preços
descontados X̄t (equação (5.36)), a mudança de medida de P para Q não alterou a
volatilidade. Em ambos os casos (sob a medida Q) houve uma mudança na tendência,
sendo que no processo de preços descontados a tendência foi eliminada. Já no processo
descrito em (5.39) a tendência tornou-se a própria taxa livre de risco. Nesta medida Q
o ativo (ação) é remunerado pela taxa livre de risco e os estados da natureza refletem a
neutralidade ao risco.
5.5 Apreçamento pela medida martingal

O capı́tulo 4 dedicou-se à metodologia de apreçamento de opções de compra/venda do
tipo europeu. A metodologia ali empregada definiu uma estratégia de posicionamento
no ativo objeto e no derivativo (montagem de um portfólio). Foi imposta a condição de
inexistência de risco neste portfólio. E sob tal situação, para que não haja arbitragem,
o portfólio deve ser remunerado pela taxa livre de risco. Em consequência chega-se ao
preço do derivativo (opção de compra/venda). Esta estratégia de manter o portfólio
sem risco é obtida pela revisão contı́nua das quantidades de cada ativo na composição
do portfólio. Ao final, no vencimento, o valor do derivativo (ΛT ) é igual ao valor do
portfólio (ou igual ao valor final da estratégia). Voltaremos a este caso mais a frente.
Neste capı́tulo enfatizamos que o apreçamento de um derivativo pode ser feito pela
medida martingal equivalente (trata-se de uma metodologia alternativa). Nesta seção
usaremos os conceitos construı́dos até o momento e realizaremos o apreçamento de uma
opção de compra Européia pela MME. Na seção seguinte ficará claro sob que condições
podemos usar a MME para fins de apreçamento. Da mesma forma, veremos a conexão
que existe entre a metodologia clássica de apreçamento e a metodologia que agora ap-
resentamos.
Consideremos novamente 0 ≤ t ≤ T onde T é a data do vencimento do contrato de

opção (compra/venda). Vimos que o processo de preços descontados é martingal sob
a medida Q (ou medida martingal equivalente MME). Vamos nos concentrar no caso
de uma opção de compra Européia. Também sabemos que uma opção de compra vale
no vencimento a diferença entre o preço do ativo objeto neste momento e o preço de
exercı́cio, isto é
ΛT = cT = (XT − K)+ (5.41)
Desejamos definir o preço da opção em t, ou seja, queremos encontrar ct a partir do

conhecimento do seu valor em T , isto é cT . Do que vimos anteriormente podemos
escrever que o preço descontado é martingal, isto é pode ser escrito por
E Q e−rT cT |Ft = e−rt ct

(5.42)
157
Substituindo a equação (5.41) na equação (5.42) e incluindo o termo e−rt dentro do valor
esperado condicional1 , temos
ct = E Q e−r(T −t) (XT − K)+ |Ft

(5.43)
Como a equação anterior trata do valor esperado sob a medida martingal, tomemos o
preço escrito sob esta mesma medida a partir da equação (5.40) e reescrita abaixo
1 2
Xt = x = X0 e(r− 2 σ )t+σB̃t (5.44)
A equação acima relaciona o preço em um instante qualquer Xt com o preço no instante

t = 0, ou seja, X0 . O mesmo podemos fazer entre os instantes T e t = 0 e assim
escreve-se
1 2
XT = X0 e(r− 2 σ )T +σB̃T (5.45)
Então para obtermos uma relação entre os preços nos instantes t e T , divide-se a
equação (5.45) pela equação (5.44), obtendo-se
1 2
XT = xe(r− 2 σ )(T −t)+σ(B̃T −B̃t ) (5.46)
Da mesma forma que no capı́tulo 4, vamos definir τ = T − t como o tempo remanescente

para o vencimento do contrato de opção. Então temos
1 2
XT = xe(r− 2 σ )τ +σB̃τ (5.47)
Note que XT é o produto de Xt = x (que é um processo adaptado a Ft ) pela função

1 2 1 2
e(r− 2 σ )τ +σBτ ou e(r− 2 σ )τ +σ(B̃T −B̃t )
que é independente de Ft . Logo temos que o valor esperado condicional em (5.43) é

igual a
ct = E Q e−rτ (XT − K)+

(5.48)
Por outro lado sabemos que B̃T − B̃t = B̃τ ∼ N (0, τ ). Logo temos que
B̃T − B̃t B̃τ

w= √ =√
τ τ
é uma distribuição normal padrão, w ∼ N (0, 1). Levando este resultado em (5.47)
temos √
1 2
XT = xe(r− 2 σ )τ +σ τ w (5.49)
Substituindo a equação (5.49) na equação (5.48), temos
√ +
Q −rτ ( r− 12 σ 2 )τ +σ τ w
ct = E e xe −K
1
Quando o processo Dt não considera a taxa livre de risco constante, devemos usar a equação (5.28).
Ainda assim trata-se de um processo adaptado a F e portanto pode ser incluı́do dentro do valor esperado.
158
Mais uma vez enfatizamos que o valor esperado acima é calculado sob a medida martingal
equivalente. Para tal, tomamos o integrando sob esta medida. Assim o valor de ST
em (5.49) já contém as transformações necessárias para tê-lo sob a MME. Assim temos
Z ∞ √
1 −rτ

(r− 12 σ 2 )τ +σ τ w
+ 1 2
ct = √ e xe − K e− 2 w dw (5.50)
2π −∞
O integrando será positivo se

1 K 1 2
w > √ ln − r− σ τ
σ τ x 2
isto equivale a
x
+ r − 21 σ 2 τ

ln K
w>− √ = −d2
σ τ
Logo, a integral da equação (5.50) será do limite inferior −d2 ao limite superior ∞
Z ∞ √
1 1 2
1 2
ct = √ e−rτ xe(r− 2 σ )τ +σ τ w − K e− 2 w dw
2π −d2
A equação acima será separada em duas integrais I1 e I2 , tal que
ct = I1 − I2 (5.51)
onde tais integrais estão escritas abaixo

Z ∞ √
Z ∞
1 −rτ

( r− 21 σ 2 )τ +σ τ w − 12 u2 1 1 2
I1 = √ e xe e dw e I2 = √ e−rτ Ke− 2 w dw
2π −d2 2π −d2
Para a primeira integral temos
Z ∞ √
1 1 2 1 2
I1 = x √ e− 2 σ τ +σ τ w− 2 w dw
2π −d2
Z ∞ √ 2
1 1
I1 = x √ e− 2 (u−σ τ ) dw
2π −d2
√
Fazendo√z = w − σ τ , teremos dz = dw. E o limite inferior de integração será z =
−d2 − σ τ = −d1 , logo Z ∞
x 1 2
I1 = √ e− 2 z dz
2π −d1
A integral da densidade normal de −d1 a +∞ é igual a integral de −∞ a d1 por sua
propriedade de simetria. Logo
I1 = xN (d1 ) (5.52)
z 1 2
onde N (z) = √12π −∞ e− 2 y dy.
R
Para a segunda integral temos

∞
Ke−rτ
Z
1 2
I2 = √ e− 2 w dw
2π −d2
159
Pelas mesmas razões acima podemos escrever que
I2 = e−rτ KN (d2 ) (5.53)
Finalmente, substituindo os resultados das equações (5.53) e (5.52) na equação (5.51),
temos que
ct = Xt N (d1 ) − Ke−rτ N (d2 ) (5.54)
onde
Xt
+ r + 12 σ 2 τ

ln K
√
d1 = √ e d2 = d1 − σ τ
σ τ
A equação (5.54) define a fórmula para o apreçamento de uma opção de compra Européia
conforme o modelo de BMS. Este é o mesmo resultado da equação (4.17) para uma opção
de compra Européia.
Exercı́cio 5.3. Apresente todos os detalhes do apreçamento de uma opção de venda
Européia vt que no vencimento vale vT = (K − XT )+ . Verifique se o seu resultado
atende à paridade entre as opções de compra e venda definidas na equação (4.2).
Exercı́cio 5.4. Definindo o processo de preços descontados de uma opção de compra
Européia por c̄t = e−rt ct , resolva os itens:
(i) defina o processo estocástico dc̄t na medida de probabilidade P (lembre-se que
ct = f (x, t) e que Xt segue um processo geométrico Browniano,
(ii) aplique o Teorema de Girsanov e troque a medida para Q definindo agora o processo
c̄t na MME,
(iii) obtenha a EDP de BMS a partir do item (ii) considerando que na medida Q o
processo de c̄t é martingal, isto é não possui tendência (drift).
A medida martingal equivalente é uma medida de probabilidade conveniente para o
apreçamento de derivativos. Uma vez que o processo estocástico do ativo subjacente está
escrito sob esta medida, o cálculo do valor esperado nos fornece o valor do derivativo.
De forma geral se o derivativo no vencimento vale ΛT , então o valor Λt , será dado por
Λt = E Q e−r(T −t) ΛT |Ft

0≤t≤T (5.55)
Esta equação é equivalente à equação (5.42).
Se a taxa livre de risco não é constante entre 0 ≤ t ≤ T , podemos usar a definição

em (5.28), tal que h RT i
Λt = E Q e− t Ru du ΛT |Ft 0≤t≤T (5.56)
As equações (5.55) e (5.56) são denominadas equações fundamentais de apreçamento.
É interessante observar que a MME (medida Q) não está relacionada aos estados
da natureza diretamente. Isto significa dizer que as probabilidades de ocorrência dos
eventos no mundo real não são dadas por esta medida. Se estamos interessados em
fazer simulações (cenários de preços) ou previsões de eventos futuros, devemos usar a
medida real de probabilidade P (ou também conhecida como medida frequentista), que
é a medida sob a qual os fatos reais da natureza ocorrem.
160
Exercı́cio 5.5. Considere uma opção de compra Européia sobre um ativo subjacente
de preço St cuja dinâmica é dada pela equação (5.25), com preço de exercı́cio K e
vencimento em t = T . A taxa livre de risco é r. Calcule a probabilidade na medida real
do preço Xt ser inferior a K, ou seja P (Xt < K) no tempo t. Calcule também neste
momento a mesma probabilidade na medida neutra, ou seja, Q (Xt < K).
Exercı́cio 5.6. Seja Xt o preço negociado em mercado da margem de produção da
industrialização de certo produto. A dinâmica de Xt é dada por
Xt = µdt + σdBt , t≥0
onde µ ∈ R e σ ∈ R+ . Seja ct o preço da opção de compra Européia cujo valor no

vencimento é dado por
Λ = cT = (XT − K)+
onde K é o preço de exercı́cio e T a data de vencimento. Calcule o preço ct , 0 ≤ t ≤ T .
5.6 Teoremas fundamentais de finanças

Esta seção apresenta os teoremas fundamentais de finanças que constituem os alicerces
da teoria de apreçamento. Veremos como as duas metodologias abordadas nos capı́tulos
4 e neste estão conectadas. Não apresentaremos as demonstrações de tais teoremas e
sugerimos que os leitores interessados busquem-as nas referências mencionadas ao longo
deste capı́tulo. Iniciaremos com algumas definições básicas para o entendimento do con-
texto destes teoremas.
Considere um mercado com n ativos (ações) e que o preço do i-ésimo ativo no instante
t seja dado por Xti . A dinâmica dos preços segue a equação (5.25) em um espaço de
probabilidade (Ω, F, P ).
Definição 5.4. Uma estratégia qt define a quantidade de cada ativo (ação), no instante
t, de um portfólio, tal que
qt (ω) = qt1 (ω) , qt2 (ω) , . . . , qtn (ω)

(5.57)
onde qti (ω) é um processo adaptado ao Browniano Bti (ω).

O valor do portfólio em t definido por uma estratégia qt (ω) é dado por
n
X
Wt (ω) = qti (ω) Xti ω∈Ω (5.58)
i=1
Definição 5.5. (Estratégia auto-financiável) Uma estratégia qt (ω) é auto-financiável

quando as alterações no seu valor Wt (ω), se devem tão somente às variações dos preços,
ou seja,
Xn
dWt (ω) = qti (ω) dXti (5.59)
i=1
Isto significa que nenhum recurso monetário é adicionado ou retirado do portfólio.
161
Definição 5.6. Define-se uma estratégia de proteção (hedging) como aquela para a qual
existe uma estratégia auto-financiável qt (ω) que faz com que o valor do derivativo no
vencimento ΛT seja igual ao valor do portfólio (quase certamente), isto é
n
X
WT (ω) = qTi (ω) XTi = ΛT (ω) q.c. (5.60)
i=1
Exemplo 5.1. Exemplifique a estratégia de proteção para uma situação de venda de

uma opção de compra Européia.
Solução: No capı́tulo 4, para o apreçamento de uma opção de compra pela metodologia

clássica, foi montado um porfólio que era formado pela compra de ∆ ações e venda
de uma opção. Foi imposta a condição de que o portfólio fosse livre de risco. Para
∂ct
tal, dever-se-ia manter no portfólio uma quantidade ∆t de ações tal ∆t = ∂S t
. Esta
quantidade deve ser ajustada continuamente em função das alterações dos preços da
ação e da opção. Esta estratégia dinâmica leva então o valor do portfólio a tornar-se
∂cT
igual ao de uma opção de compra na data do vencimento. Lembre-se que ∂S T
= 1.
Definição 5.7. Se para todos os derivativos do mercado existe uma estratégia de proteção
(hedging) de tal modo que (5.60) é atendida, então o mercado é dito completo.
Então nos referimos a um mercado completo como sendo aquele em que usando os
ativos deste mercado somos capazes de gerar estratégias de hedging para os derivativos
existentes. Em outras palavras, somos capazes de replicar os preços dos derivatiovs.
No capı́tulo 4 apresentamos o conceito de arbitragem enfatizando que se trata de uma

forma de realizar ganhos sem tomar riscos. Formalizaremos este conceito com a definção
a seguir.
Definição 5.8. (Arbitragem) Uma oportunidade de arbitragem é uma estratégia auto-

financiável qt (ω) tal que: (i) W0 = 0, (ii) P (WT ≥ 0) = 1 e P (WT > 0) > 0.
Isto significa que em t = 0 o valor do portfólio é zero, W0 = 0. Então adotando a

estratégia qt (ω) chegamos ao instante T com o valor do portfólio WT sem possibilidade
de perda (WT ≥ 0 com probabilidade 1). E ainda mais, o valor do portfólio será positivo
(WT > 0 com probabilidade positiva).
Agora que temos a formalização de vários conceitos fundamentais, retomamos o

conceito de equivalência entre as medidas de probabilidades P e Q, conforme o Teo-
rema de Girsanov. Naquela oportunidade, seção 5.4, fizemos a mudança de medida
para os preços descontados das ações e constatamos que sob Q tal processo era mar-
tingal (equações (5.36) e (5.37)). Na seção 5.5 usamos a equação de apreçamento
(equação (5.42)) e chegamos a solução analı́tica do modelo de BMS. Entretanto em
nenhum momento ficou claro sob que condições pode-se garantir a existência da medida
martingal equivalente. Agora faremos isto.
162
Definição 5.9. (Medida neutra) A medida de probabilidade Q é neutra ao risco se
P e Q são equivalentes e se sob Q o processo de preços descontados de cada ativo do
mercado é martingal.
Admita que cada ação do mercado tenha a dinâmica dada pela equação (5.25). Isto é
cada ação está sujeita somente a uma fonte de incerteza (um único Browniano caracteriza
o processo de St ). Assim podemos escrever que
dXti = µi Xti dt + σti Xti dBti i = 1, . . . , n (5.61)
Seguindo as etapas apresentadas na seção anterior, teremos o preço do risco de mercado

dado por
µi − r
θ= i = 1, . . . , n
σi
Como toda a incerteza provém de um único Browniano (expresso na dinâmica de cada
ação), o preço do risco de mercado é único, de tal sorte que
µi − r µj − r
= i, j = 1, . . . , n e i 6= j (5.62)
σi σj
Caso a condição anterior não se verifique estamos diante de uma situação em que neste
mercado pode haver arbitragem. A mesma consideração pode também ser feita para
o caso de várias fontes de incerteza na dinâmica do processo de preços (mais de um
Browniano na dinâmica de Xt ). Estes fatos podem ser demonstrados embora não os
apresentemos neste texto.
O primeiro teorema fundamental de finanças define sob que condições existe a medida
neutra ao risco. A importância deste teorema está no fato de que, em grande parte, o
apreçamento de derivativos é feito sob a condição da existência da medida neutra.
Teorema 5.2. (Primeiro Teorema Fundamental de Finanças) Um mercado não
admite arbitragem se e somente se existe uma medida neutra ao risco.
Apresentamos a seguir a demonstração do primeiro teorema fundamental de finanças.
Inicialmente suporemos que exista a medida neutra e provaremos que a existência da
possiblidade de arbitragem nesta situação, é contraditória.
Prova. Considere que existe a medida neutra ao risco Q. Isto significa que o processo
de preço descontado de cada ativo é martingal. Seja Xt o preço de ativo, tal que Xt ≥ 0.
O processo de preço descontado é Dt Xt . Este processo é martingal sob Q, então escreve-
se E Q (DT XT ) = Dt Xt = X0 , t ∈ [0, T ]. Vamos supor que em t = 0 temos X0 = 0.
Logo escrevemos que
E Q (DT XT ) = 0 (5.63)
Vamos supor que haja possibilidade de arbitragem. Pela definição 5.8 significa dizer que
se X0 = 0, então
P (XT ≥ 0) = 1 e P (XT > 0) > 0 (5.64)
ou seja, não há perda em T e certamente haverá ganho. Portanto sob estas condições
pode-se escrever que
P (XT ≥ 0) = 1 ⇒ P (XT < 0) = 0 (5.65)
163
Como Q e P são equivalentes, estas probabilidades coincidem em relação aos conjuntos
de medida nula, ou seja Q (XT < 0) = 0. Se não há probabilidade de perda sob Q e se
o valor esperado sob Q é nulo (equação (5.63)), então
Q (XT > 0) = 0 (5.66)
Se assim não fosse Q (DT XT > 0) > 0 o que implicaria E Q (DT XT ) > 0 que con-
tradiz a equação (5.63). Em consequência, da equação (5.66) podemos escrever que
P (XT > 0) = 0, que por sua vez contradiz a suposição de possibilidade de arbitragem
que fizemos inicialmente e que foi descrita na equação (5.64).
Teorema 5.3. (Segundo Teorema Fundamental de Finanças) Um mercado é
completo se e somente se possui uma única medida neutra ao risco.
A demonstração pode ser encontrada nas referências mencionadas.
O primeiro teorema coloca as condições necessárias e suficientes para se proceder o

apreçamento. Note que há uma conexão nı́tida entre a metodologia clássica e a que es-
tudamos neste capı́tulo. Na metodologia clássica usamos a condição de não arbitragem
no mercado. E portanto esta condição garante a existência da medida neutra que por sua
vez pode também ser o instrumento para o apreçamento, como foi feito na seção anterior.
O segundo teorema assegura a unicidade da medida neutra mediante a existência de

um mercado completo, e vice-versa. Trata-se de uma situação mais restritiva que aquela
do primeiro teorema.
Os teoremas 5.2 e 5.3 constituem as ferramentas naturais de apreçamento de deriva-

tivos em finanças. Além disto, a condição de não arbitragem é útil de forma geral para
definir relações entre preços no mercado, como por exemplo a paridade entre opções
de compra e venda. Uma pergunta natural que surge é como usar os teoremas acima.
Em geral, supõe-se que o mercado é livre de arbitragem e completo e então faz-se o
uso da medida neutra ao risco através do teorema de Girsanov. Em muitos casos há
a necessidade de estimar o parâmetro θ (preço do risco de mercado). Nestas situações
deve-se proceder a calibração do modelo teórico ajustando-o aos preços praticados (dados
empı́ricos). Desta maneira, pode-se obter também outros parâmetros do modelo, como
a volatilidade, velocidade de reversão, etc. Em geral a calibração é feita maximizando-se
a função de verossimilhança do modelo, o mesmo procedimento que foi visto no capı́tulo
2. Voltaremos a este tópico quando tratarmos de mercados futuros. Outra pergunta
que surge é como obter a função de densidade neutra ao risco. Para a finalidade de
apreçamento não há necessidade de obtermos a função densidade. No entanto, caso seja
útil para alguma outra finalidade, a medida neutra (densidade neutra implı́cita) está
implı́cita nos preços dos derivativos (o mercado contém esta informação). Ela pode ser
levantada empiricamente e o procedimento é devido a Breeden e Litzenberger (1978)
[14] e será apresentado no próximo capı́tulo.
5.7 Replicando para o apreçamento

Esta seção usa os conceitos das seções anteriores e apresenta uma forma ligeiramente
diferente de realizar o apreçamento. Não se trata de uma metodologia adicional. De fato
164
o apreçamento continua sendo aquele feito pela medida martingal. Entretanto achamos
interessante explorar alguns dos conceitos apresentados até o momento, e eles estão aqui
reunidos.
Vamos considerar que podemos replicar o valor de uma opção de compra a partir de
uma estratégia em que tomamos posição no ativo com risco (ação) e no ativo sem risco
(letras do tesouro). Seja a estratégia definida por qt1 e qt2 , respectivamente. O valor do
portfólio em t (0 ≤ 0 ≤ T ) será
Wt = qt1 Xt + qt2 βt (5.67)
onde Xt e βt são os valores da ação e do tı́tulo governamental livre de risco, respectiva-

mente. Note que βt é o inverso do fator de desconto expresso na equação (5.29), ou seja,
βt = ert e dβt = rβt dt. Consideremos que o portfólio assim formado é auto-financiável,
ou seja
dWt = qt1 dXt + qt2 dβt (5.68)
Vamos considerar o processo de preços descontados deste portfólio, W̄t = e−rt Wt , tal
que
W̄t = e−rt qt1 Xt + qt2 βt

(5.69)
Usando a fórmula de Itô para calcular as variações do valor do portfólio descontado,
temos
dW̄t = d e−rt Wt = −re−rt Wt dt + e−rt dWt

(5.70)
Usando as equações (5.67) e (5.68) na equação (5.70), obtém-se
dW̄t = −re−rt qt1 Xt + qt2 βt dt + e−rt qt1 dXt + qt2 dβt

= −re−rt qt1 Xt + qt2 βt dt + e−rt qt1 dXt + qt2 rβt dt

= qt1 −re−rt Xt dt + e−rt dXt

= qt1 dX̄t (5.71)
Da equação (5.36) temos que dX̄t = σ X̄t dB̃t que levado na equação (5.71) fornece
dW̄t = qt1 σ X̄t dB̃t
ou ainda Z t
W̄t = W0 + σ qu1 X̄u dB̃u (5.72)
0
Portanto, sob a medida Q, o processo do portfólio descontado W̄t é martingal pois a

equação (5.72) é uma integral de Itô e o processo qu1 X̄u é adaptado a Ft . Logo, W̄t é
martingal e podemos usar a equação geral de apreçamento (5.56) e escrever
Wt = E Q e−rτ WT |Ft

0≤t≤T
Se WT replica o preço de uma opção então WT = (XT − K)+ e ct = Wt . Consequente-

mente
ct = E Q e−rτ (XT − K)+ |Ft

165
e chegamos novamente à equação (5.43). O restante do desenvolvimento já foi realizado
abrangendo as equações (5.44) até (5.54).
A estratégia de replicar o preço de uma opção por ativos existentes no mercado é

exatamente o que vimos anteriormente e denominamos de hedge dinâmico. Em cada
instante de tempo de tempo as posições do portfólio são ajustadas através de quantidades
qt1 da ação e qt2 das letras do tesouro (ativo sem risco). Situação idêntica foi a abordagem
da seção 4.2 quando fizemos a derivação do modelo de BMS. Naquele caso o portfólio
Πt era mantido neutro (sem risco) em cada instante de tempo através do ajuste δ-hedge.
Isto é, em cada instante de tempo o número de ações é ajustado de tal forma que
∂ct ∆ct
∆t = ∂X t
≈ ∆X t
refletindo a razão entre a variação do preço da opção e a variação do
preço da ação. Lembre-se que a posição do portfólio é comprado em ∆t ações e vendido
em uma opção de compra. O comprador da opção de compra mantém um posição
estática até o vencimento. O agente proprietário do portfólio Π (Πt = ∆t Xt − ct ) tem
que manter-se balanceado desde que toma a posição de comprado em ∆ ações (ativo
subjacente) no instante t = 0. Desta forma, no instante t (0 < t < T ) se Xt subir ou
cair a quantidade de ações deve ser ajustada. Na prática a posição de ajustes contı́nuos
na posição do portfólio (∆t ) implica em custos de corretagem que podem ser elevados
se a frequência de ajustes for grande.
5.8 Extensões do modelo de BMS

Esta seção apresenta algumas extensões do modelo de BMS. Os modelos que serão ap-
resentados a seguir, em muitos casos, são extensões imediatas e a sua derivação pode
ser obtida tal qual fizemos nas seções anteriores. Portanto, não nos deteremos no seu
detalhamento, ficando para o leitor esta tarefa. Em outros caso deixaremos os modelos
para serem desenvolvidos na forma de exercı́cios. A primeira extensão considera o caso
do apreçamento de uma opção de compra para uma ação que paga dividendos.
Seja (Ω, F, P ) um espaço de probabilidade. Considere Bt (ω) 0 ≤ t ≤ T , um processo

Browniano padrão e Ft = σ (Bs , s ≤ t) a filtração natural gerada por este Browniano.
Tal qual fizemos nas seções anteriores, considere Xt o preço de uma ação cuja dinâmica
é dada por
dXt = µXt dt + σXt dBt (5.73)
Na seção 4.2 onde apresentamos as hipóteses do modelo de BMS a condição (iii) re-
stringia o modelo aos casos em que a ação não pagava dividendos. Uma hipótese usual é
que o pagamento de dividenos seja considerado de forma contı́nua. Vamos considerar o
caso de dividendos pagos a uma taxa constante α. Por exemplo se α = 2%, significa que
a variação do preço implicado pelo dividendo pago continuamente é 0, 02 × Xt , ou ainda
que o retorno implicado pelo pagamento acarreta uma variação percentual do preço de
2%. O pagamento de dividendos reduz o valor de uma ação porporcionalmente. Logo a
dinâmica da ação sob esta consideração será
dXt = µXt dt + σXt dBt − αXt dt (5.74)
Vale observar que se entre t = 0 e t = T a ação que paga dividendos varia de X0 a XT ,
então caso não pagasse nenhum dividendo variaria de X0 a XT eαT , ou então de X0 e−αT
166
a XT .
A equação (5.74) se reduz a
dXt = (µ − α) Xt dt + σXt dBt (5.75)
Desejamos saber o preço de uma opção sob a dinâmica de (5.74) ou equivalentemente

sob a dinâmica de (5.75). Note que a diferença de (5.75) e (5.73) está somente no termo
relativo à tendência (drift) do processo. Sob a medida Q ele será escrito por
dXt = (r − α) Xt dt + σXt dB̃t (5.76)
A solução de (5.76) é dada por

1 2
Xt = xe(r−α− 2 σ )t+σB̃t (5.77)
Entre os instantes t e T podemos escrever

1 2
XT = Xe(r−α− 2 σ )(T −t)+σ(B̃T −B̃t ) (5.78)
Esta última equação equivale à equação (5.47) do procedimento desenvolvido na seção

5.5. De agora em diante o procedimento é idêntico ao daquela seção e fica como exercı́cio
para o leitor finalizar o desenvolvimento. O resultado final para o preço da opção de
compra será
ct = Xt e−ατ N (d1 ) − Ke−rτ N (d2 ) (5.79)
onde:
Xt
+ r − α + 12 σ 2 τ

ln K
√
d1 = √ e d2 = d1 − σ τ
σ τ
Note que a diferença entre a equação (5.79) e (5.54) está no preço da ação Xt , que sob
a condição de pagamento de dividendo, se transforma em Xt e−αt .
A seguir seguem outras extensões do modelo de BMS colocadas sob a forma de ex-
ercı́cios.
Exercı́cio 5.7. Retome o enunciado do exercı́cio 5.3 e apresente todos os detalhes do

apreçamento de uma opção de venda Européia vt sobre uma ação que paga dividendos
a uma taxa contı́nua e constante igual a α. Verifique a condição de paridade entre as
opções de compra (equação (5.79)) e venda.
Exercı́cio 5.8. Considere a dinâmica de Xt tal qual nos capı́tulos 4 e 5. Considere uma
opção de compra cujo valor no vencimento será
(
H se XT > K
ΛT =
0 se XT < K
Observe que XT = K é um evento que ocorre com probabilidade nula. Esta equação é
conhecida como opção binária ou digital (ou usando o termo original cash or nothing
167
option). Para tornar a modelagem mais fácil, considere que o seu valor no vencimento
seja, 
H se
 XT > K
H
ΛT = 2 se XT = K (5.80)

0 se XT < 0

(i) Mostre que o valor da opção de compra é ct = He−rτ N (d2 ) (Sugestão: use a
equação geral de apreçamento (5.55) ou (5.42)).
(ii) Mostre que o valor da opção de venda vt = He−rτ (1 − N (d2 )). O valor da opção
de venda no vencimento é exatamente o oposto de (5.80).
(iii) Encontre a relação de paridade entre ct e vt : (a) usando os resultados obtidos em

(i) e (ii); (b) usando o argumento de não arbitragem tal qual aquele apresentado
na seção 4.1 para chegarmos a equação (4.2).
(iv) Derive as fórmulas para as gregas delta, gama e teta.

Exercı́cio 5.9. Retome o enunciado do exercı́cio anterior e considere que o valor da
opção de compra no vencimento seja

ST
 se XT > K
ΛT = S2T se XT = K (5.81)

0 se XT < K

(i) Calcule o valor da opção de compra ct (esta opção é denominada asset or nothing
option).
(ii) Considere que o valor da opção de venda no exercı́cio seja o oposto do que está
em (5.81). Calclule o valor de vt .
(iii) Obtenha a relação de paridade entre ct e vt .
5.9 Derivativos exóticos

Até o presente momento vimos os derivativos do tipo Europeu em que o proprietário
somente pode exercer o seu direito na data do vencimento, T . Outra propriedade dos
derivativos que estudamos é que o valor do mesmo no vencimento é função do preço do
ativo subjacente naquela data, ou seja
ΛT = f (XT , T ). Usando a equação fundamental
de apreçamento Λt = E Q e−r(T −t) ΛT temos o valor do derivativo na data t, 0 ≤ t ≤ T .
Existem outros tipos de derivativos em que o exercı́cio pode acontecer em uma data
anterior ao vencimento. Os derivativos Americanos são aqueles em que o exercı́cio pode
ocorre em qualquer data anterior ao vencimento. Dentro desta classe há também os
derivativos do tipo Bermuda em que o exercı́cio pocode ocorrer em datas especı́ficas
anteriores ao vencimento.
Existem os derivativos cujo valor na data do vencimento é função da trajetória seguida
168
pelos preços até esta data, isto é ΛT = f (Xt1 , Xt2 , . . . , Xtn , T ), onde tk ∈ [0, T ].
Esta seção reúne alguns destes derivativos denominados de exóticos. Muitos deles não
possuem solução analı́tica fechada. O recurso, nesta situação, é recorrer à soluções
aproximadas, a maioria delas obtidas numericamente. O apêndice deste capı́tulo apres-
nta os conceitos envolvendo o método de Monte-Carlo muito usual em finanças. Não
pretendemos nos deter na derivação dos modelos. O leitor interessado encontrará textos
dedicados somente aos derivativos exóticos, ou ainda pode usar as referências men-
cionadas no inı́cio do capı́tulo. Além dessas, o texto de Wilmott, Howison, Dewynne
(1995) [101] apresenta vários capı́tulos dedicados aos derivativos exóticos bem como es-
pecial atenção às soluções numéricas. Veja também no apêndice deste capı́tulo várias
referências sobre métodos numéricos em finanças. Dentre vários derivativos exóticos nos
dedicaremos às opções.
5.9.1 Opções com barreiras

As opções com barreiras são opções em que o seu valor no vencimento é função do
fato do preço do ativo subjacente ter atingido um nı́vel previamente definido (barreira).
Primeiramente vejamos as opções de compra.
(i) Opção de compra down e out: esta opção tem valor zero no vencimento se o
preço do ativo atingir a barreira (B < X0 ) em algum instante t ∈ [0, T ], caso a
barreira na seja atingida o valor da opção no vencimento é idêntico ao de uma
opção Americana,
(ii) Opção de compra down e in: esta opção tem valor zero no vencimento, a menos
que atinja a barreira (B < X0 ) em algum instante t ∈ [0, T ], se a barreira é cruzada
o seu valor no vencimento é o de uma opção Americana.
As fórmulas para o apreçamento destas opções podem ser vistas nas referências. Observe
que o valor das opções de compra do tipo down são inferiores àqueles de uma opção
Européia. A soma da duas opções in e out resulta no valor de uma Européia.
(i) Opção de compra down e out: esta opção tem valor zero no vencimento se o
preço do ativo atingir a barreira (B > X0 ) em algum instante t ∈ [0, T ], caso a
barreira na seja atingida o valor da opção no vencimento é idêntico ao de uma
opção Americana,
(ii) Opção de compra down e in: esta opção tem valor zero no vencimento, a menos
que atinja a barreira (B > X0 ) em algum instante t ∈ [0, T ], se a barreira é cruzada
o seu valor no vencimento é o de uma opção Americana.
As definições para as opções de venda seguem-se analogamente as apresentadas acima

apenas substituindo-se a palavra compra por venda. Todas elas possuem soluções
analı́ticas que atendem às novas condições de contorno definidas pelas barreiras (veja
nas referências).
169
5.9.2 Opções Lookback
As opções do tipo Lookback são aquelas em que o seu valor no vencimento depende dos
valores mı́nimos ou máximos que ocorreram na trajetória de preços do ativo subjacente.
(i) Opção de compra com preço de exercı́cio fixo: seu valor no vencimento é dado por
(Xmax − K)+ onde Xmax = max (Xt ) para t ∈ [0, T ],
(ii) Opção de venda com preço de exercı́cio fixo: seu valor no vencimento é dado por
(K − Xmin )+ , onde Xmin = min (Xt ), para t ∈ [0, T ],
(iii) Opção de compra com preço de exercı́cio flutuante: seu preço de exercı́cio no
vencimento é dado por XT − Xmin ,
(iv) Opçaõ de venda com preço de exercı́cio flutuante: seu preço de exercı́cio no venci-
mento é dado por Xmax − XT .
Note que as opções Lookback valem mais que as respectivas Européias. Para as opções
com preço de exercı́cio fixo o valor no vencimento considera Xmax ≥ XT e Xmin ≤ XT
que resultam em valores superiores aso da Européia. As opções com preço de exercı́cio
flutuante são inapropriadamente denominadas de opções pois sempre será vantajoso o
exercı́cio. Veja nas referências as fórmulas para o apreçamento destas opções.
5.9.3 Opções Asiáticas

As opções Asiáticas são aquelas em que o valor da opção no vencimento depende da
média dos preços do ativo subjacente em [0, T ].
(i) Opção de compra Asiática com a média no preço: o seu valor no vencimento é por
R +
1 T
T 0
X u du − K ,
(ii) Opção de venda Asiática com a média no preço: o seu valor no vencimento é dado
RT +
por K − T1 0 Xu du ,
(iii) Opção de compra Asiática com a média no preço de exercı́cio:: o seu valor no
RT +
vencimento é dado por XT − T1 0 Xu du ,
(iv) Opção de venda Asiática com a média no preço de exercı́cio: o seu valor no
R +
T
vencimento é dado por T1 0 Xu du − XT .
Em geral as opções Asiáticas não apresentam solução analı́tica. Os casos em que isto
ocorre são excessões. As referências mencionadas definem estes casos.

Neste capı́tulo apresentamos o conceito de apreçamento de derivativos através da me-
dida martingal equivalente (MME). A MME é uma medida de probabilidade útil para o
170
apreçamento pois define um procedimento alternativo ao da metodologia clássica. A me-
dida real de probabilidade P é a medida em que os fenômenos ou os estados da natureza
acontecem. Para procedermos o apreçamento devemos fazer a mudança de medida sem
fazer nenhuma alteração nos elementos da distribuição de probabilidade original. Para
tal foi introduzido o conceito da derivada de Radon-Nikodym (para duas distribuições
de probabilidades) que é a densidade de Q em relação a P , ou seja Z (ω) = dQ(ω)
dP (ω)
.
A seguir fizemos a mudança de medida de probabilidade para o Browniano padrão,

Bt (ω). O processo Browniano padrão na medida de probabilidade Q é B̃t (ω), tal que
B̃t (ω) = Bt (ω)+θt, θ 6= 0. Além disso, a derivada de Radon-Nikodym para a mudança
de medida envolvendo processos estocásticos, é o valor esperado condicional na medida
P , ou seja, Zt (ω) = E P (Z (ω) |Ft ). A etapa seguinte foi o enunciado do teorema de Gir-
sanov, onde foram definidos B̃t , Zt (ω) e a medida equivalente Q. O teorema garante que
sob Q o processo B̃t (ω) é um processo Browniano padrão. Realizamos então a mudança
de medida para o processo geométrico Browniano (considerando como esta a dinâmcia
dos preços das ações). Mostramos que sob P o processo de preços é submartingal. O
mesmo ocorre para o processo de preços descontados.
Fizemos então a mudança de medida para o processo de preços descontados. Então sob
Q mostramos que o processo é martingal. A seguir procedemos o apreçamento de opção
de compra Européia usando a MME conforme a equação fundamental de apreçamento
Λt = E Q e−r(T −t) ΛT |Ft

0≤t≤T
Os teoremas fundamentais de finanças garantem as condições sob as quais pode-se fazer
o uso da MME. A inexistência da possibilidade de arbitragem garante a existência da
MME. Ainda mais, se o mercado é completo esta medida é única. Posteriormente apre-
sentamos o conceito de replicar a opção por uma estratégia de posicionamento no ativo
subjacente e no tı́tulo sem risco. Mostramos que o valor descontado deste portfólio é
martingal e consequentemetne a equação geral de apreçamento pode ser usada para o
cálculo de ct . Como extensões do modelo de BMS fizemos o apreçamento de uma opção
de compra de uma ação que paga dividendos e conceituamos algumas opções exóticas.
No apêndice apresentaremos a simulação de Monte-Carlo. Ela requer que sejam re-
alizadas simulações de trajetórias do ativo subjacente sob a MME. Posteriormente é
calculado a média do valor do derivativo no vencimento (ΛT ) usando o valor do ativo
subjacente neste instante (XT ). Desconta-se esta média ao tempo t pela taxa livre de
risco obtendo-se o valor do derivativo nesta data.
5.11 Apêndice - Método de Monte-Carlo

O objetivo deste apêndice é apresentar os conceitos básicos da simulção de Monte-Carlo
e a sua aplicação para o apreçamento de derivativos em finanças.
Uma das virtudes do modelo de BMS é que o mesmo possui solução analı́tica. Porém
nem sempre este é caso para outros derivativos. Frequentemente temos que buscar al-
guma solução numérica para a questão do apreçamento. Como foi dito anteriormente,
se derivarmos o modelo para o preço de um derivativo e chegarmos a uma EDP que não
171
tenha solução analı́tica, teremos que proceder a sua solução numérica. Uma metodolo-
gia usual é o método das diferenças finitas, veja por exemplo Duffy (2006) [29] que é
um texto dedicado a solução de problemas em finanças usando diferenças finitas. Veja
também Wilmott, Howison e Dewynne (1995) [101] e Hull (2000) [53].
Porém se apreçamos um derivativo a partir do cálculo do valor esperado sob a MME

(equação fundamental de apreçamento), podemos chegar a uma integral que não tenha
solução analı́tica. Uma forma de resolver o problema é através de métodos numéricos
de integração.
Uma metodologia de integração, muito usual em finanças, é a simulação de Monte-

Carlo (MC). A simulação de MC não se restringe a problemas de finanças e é usada
em problemas de engenharia em geral que lidam com variáveis estocásticas. Por esta
razão a bibliografia sobre o método de MC é vasta. Em finanças não poderia ser difer-
ente e destacamos Brandimarte (2003) [13], Glasserman (2003) [41], Jäckel (2002) [57]
e McLeish (2005) [71], dentre outros. Para uma breve introdução à metodologia vamos
aplicá-la ao caso do apreçamento de uma opção de compra Européia tal qual no modelo
de BMS.
Considere incialmente que X seja uma variável aleatória com E (X) = µX e V ar (X) =
2
σX . Sabemos que se produzirmos uma amostra de tamanho N da variável aleatória
X teremos os valores X1 , X2 . . . , XN . Uma boa aproximação para a média de X (esti-
mador) é a estatı́stica X̄, dada por
N
1 X
X̄ = Xi (5.82)
N i=1
onde Xi são variáveis aleatórias independentes. O valor esperado de X̄ é

N
1 X 1 1
E X̄ = E (Xi ) = (E (X1 ) + . . . E (XN )) = N µX = µX (5.83)
N i=1 N N

Isto mostra que X̄ é um estimador não tendencioso para a média (E X̄ = µX ).
2
Um estimador natural para a variância de X é a estatı́stica σ̂X dada por
N
2 1 X 2
σ̂ = Xi − X̄
N i=1
O exemplo 1.14 mostra que este estimador é tendencioso. O estimador não tendencioso
da variância é obtido facilmente definindo
N
2 1 X 2
σ̄X = Xi − X̄
N − 1 i=1
O Teorema Central do Limite (veja o teorema 1.4) afirma que a2 distribuição

de X̄ − µ
2
é normal com média zero e variância σN ; isto é X̄ − µ ∼ N 0, σN . Isto significa que o
172
intervalo de confiança de 95% é dado por
!
X̄ − µ
P −1, 96 ≤ ≤ 1, 96 = 0, 95
√σ
N
ou ainda
1, 96σ 1, 96σ
P X̄ − √ ≤ µ ≤ X̄ + √ = 0, 95
N N
Usando o estimador σ̄X para o desvio-padrão σ, o intevalo de 95% para a média µ é

1, 96σ̄X 1, 96σ̄X
X̄ − √ , X̄ + √ (5.84)
N N
Desta forma podemos obter a análise de MC. Tomamos uma amostra de tamanho N e
computamos X̄ e σ̄X e assim somos capazes de estimar um intervalo de confiança para
a média.
Para o apreçamento de uma opção devemos calcular o valor da opção usando a equação (5.43)
aqui reescrita
ct = E Q e−rτ (XT − K)+ |Ft

(5.85)
Devemos portanto obter uma amostra de tamanho N da variável XT . Para tal devemos
gerar N trajetórias de preços de Xt = x até XT . Estas trajetórias devem ser calculadas
na medida neutra usando a equação (5.49) aqui reescrita
1 2 √
XT = xe(r− 2 σ )τ +σ τw
(5.86)
onde w ∼ N (0, 1). Gerando N números aleatórios de uma normal padrão, obte-
mos os valores de XT usando a equação acima. Calcula-se então o valor (XT − K)+ ,
atualizando-os pela taxa livre de risco e a seguir tomamos a média dos N valores obti-
dos. Temos assim ct e computamos o intervalo de confiança desejado para este valor.
Observando o intervalo de confiança em (5.84), nota-se que a redução do erro é pro-

porcional ao inverso da raı́z quadrada do tamanho da amostra. Uma redução de 10% no
erro implica em um aumento de 100 vezes no tamanho da amostra. Isto explica porque
o método de MC é computacionalmente intensivo ou demandante. Portanto, a precisão
do resultado esbarra nas limitações computacionais.
A outra questão relacionada à precisão do método está no fato de que o intervalo de

confiança é proporcional ao desvio-padrão conforme (5.84). Uma maneira de contornar
o problema é buscar estimar o intervalo de outra variável aleatória que tenha a mesma
média porém com menor variância. Esta técnica é denominada redução de variância.
Para o seu melhor entendimento sugerimos que o leitor consulte as referências men-
cionadas acima.
173
174
Capı́tulo 6
Equações Diferenciais Estocásticas
O capı́tulo 3 deste texto concentrou os conceitos fundamentais do cálculo estocástico

de tal modo que pudéssemos, nos dois capı́tulos subsequentes, desenvolver e aplicar as
metodologias de apreçamento.
Deixamos alguns outros conceitos relacionados ao cálculo estocástico para o presente

capı́tulo. Tudo o que será agora apresentado é uma continuação do capı́tulo 3. Poderı́amos
ter unido os dois capı́tulos, 3 e 6, entretanto por questões didáticas e por organização
do texto, preferimos intermediá-los com as aplicações para apreçamento, tomando como
base o modelo de BMS.
Da mesma forma como fizemos no capı́tulo 3, este também é um capı́tulo relevante

para o desenvolvimento das habilidades do leitor e para a compreensão mais ampla da
teoria de finanças. Iniciamos o capı́tulo pela propriedade de Markov. Posteriormente
estenderemos a dinâmica dos processos estocásticos ao caso multivariado, neste contexto
apresentamos o processo de Itô multivariado. Conceituaremos o gerador de difusão de
Itô para fazermos a conexão entre a solução de uma EDP e o cálculo da esperança
condicional. Definiremos as equações de Kolmogorov e Feynman-Kac que permitem
relacionar estes dois tópicos. A relação entre a metodologia clássica (apreçamento por
EDP) e o apreçamento pela MME foi ressaltada no inı́cio do capı́tulo 5. Aqui veremos
o ponto em comum de ambas metodologias e saberemos como transformar um prob-
lema em outro. O ponto central desta abordagem baseia-se no fato de que a solução de
uma equação diferencial estocástica é um processo Markoviano. Sob esta condição pode-
se deduzir as equações de Kolmogorov e Feynman-Kac que farão a conexão mencionada.
Ainda com relação ao que apresentamos no capı́tulo 3, temos a acrescentar alguns tópicos
em relação às EDE´s. Naquela oportunidade vimos algumas soluções para EDE´s sem,
no entanto, formalizar os conceitos. Agora vamos apresentá-los neste capı́tulo e ainda
resolveremos outras equações que são importantes em finanças.
As referências para os assuntos contidos neste capı́tulo são Neftci (2000) [77], Øksendal
(2003) [80], Shreve (2004) [94], Klebaner (2001) [62], Elliot e Kopp (2005) [34], Kloeden
e Platen (1992) [63] e Kloeden, Platen e Schurz (2003) [64].
175
Esta seção apresenta os conceitos da propriedade de Markov. A propriedade Markov
para um processo estocástico estabelece que os futuros valores deste processo não de-
pendem dos valores passados mas somente dos valor(es) atual(is). Se um processo Xt
possui a propriedade de Markov, então a distribuição condicional de Xt+s dado Xt = x,
não depende dos valores passados de Xt , mas depende do valor atual Xt = x.
Definição 6.1. (Propriedade de Markov) Seja Ft a σ-álgebra gerada pelo processo

Xt . Este processo tem a propriedade de Markov se a distribuição condicional de Xt+s
dado Ft é a mesma distribuição condicional de Xt+s dado Xt = x, ou seja
P (Xt+s ≤ z|Ft ) = P (Xt+s ≤ z|Xt = x) q.c. (6.1)
Vamos estabelecer a seguinte notação Xsx (t) que representa o valor da variável X
no instante t que se iniciou no instante s quando seu valor era x. Os processos que são
Markovianos são caracterizados por uma função densidade de probabilidade p (s, t, x, y)
e pela respectiva função distribuição P (s, t, x, y). Seja Xt um processo de Markov, então
escreve-se
P (x, t, x, y) = P [Xsx (t) < y] q.c. (6.2)
A propriedade de Markov descrita em (6.1) pode ser assim escrita considerando agora
0 ≤ s < t e que x0 = x.
P [X0x (t) ≤ y|Fs ] = P [X0x (t) < y|X0x (s)] (6.3)
Ainda podemos escrever que para funções de densidade contı́nuas
Z y
P (x, t, x, y) = p (x, t, s, u) du (6.4)
−∞
Exemplo 6.1. Verifique a propriedade de Markov para o processo Browniano padrão.
Solução: Vamos verificar a propriedade de Markov usando o conceito da função ger-

adora de momentos visto no capı́tulo 1. Naquela oportunidade a equação (1.18) definiu
a função geradora da distribuição X por
MX (u) = E euX

Se a função geradora de Bt+s condicional a Ft é a mesma que a função geradora condi-

cionada a Bt = x, então as funções distribuições são as mesmas e a equação (6.1) fica
verificada. Então temos,
E euBt+s |Ft = E eu(Bt+s +Bt −Bt ) |Ft

= E euBt eu(Bt+s −Bt ) |Ft

= euBt E eu(Bt+s −Bt ) |Ft

= euBt E eu(Bt+s −Bt )

2 1s
= euBt eu 2
= euBt E eu(Bt+s −Bt ) |Bt = x

= E euBt+s |Bt = x

176

Exemplo 6.2. Considere 0 ≤ s < t, escreva a função distribuição P (s, t, x, y) do

processo B (t) dado B (s).
Solução: Do exemplo 6.1 vimos que
P (Bt ≤ y|Fs ) = P (Bt ≤ y|Bs )
O processo Browniano neste caso está condicionado a Bs = x. Sabemos também que

E (Bt |Bs ) = Bs = x para t > s. Logo a distribuição condicionada de Bt dado Bs é
Bt |Bs ∼ N (x, t − s)
Então a função distribuição condicional será

Z y
1 (u−s)2
P (s, t, x, y) = p e− 2(t−s) du
−∞ 2π (t − s)
e a densidade de transição é
1 (y−x)2
p (s, t, x, y) = p e− 2(t−s)
2π (t − s)
A seguir apresentamos o Teorema da Representação Martingal. Vimos na seção 5.7

que podemos montar uma estratégia que replica o preço de uma opção no vencimento
t = T . Sendo o valor do portfólio um processo martingal (sob Q), o valor da opção em
qualquer instante (0 ≤ t ≤ T ) pode ser obtido pela equação geral de apreçamento. O
Teorema da Representação Martingal (TMR) garante a existência desta estratégia e por
conseguinte da proteção (ou hedging).
Teorema 6.1. (TRM) Seja (Ω, Ft , P ) um espaço de probabilidade, seja Bt um processo

Browniano padrão neste espaço e Ft a filtração natural gerada por este processo. Seja
hR a Ft , ou seja
Mt um processo martingal em relação i E (Mt |Fu = Mu ) para u < t. Existe
T 2
um processo adaptado Ht , com E 0 Hu du < ∞ , tal que
Z t
Mt = M0 + Hu dBu (6.5)
0
O TRM afirma que se Mt é martingal em relação a filtração do Browniano, então

Mt é dado pela condição inicial M0 mais uma integral de Itô. Observe a identidade
da equação (6.5) com a equação (5.72). Esta última foi consequência da estrutura de
replicação (ou proteção adotada). Agora estamos formalizando este resultado. O TRM
garante a existência do processo Hs (equivalente a qu1 S̄u na equação (5.72)) e desta forma,
da estratégia que permite o apreçamento.
177
6.2 Cálculo estocástico multivariado
É frequente em finanças tratarmos variáveis que envolvem mais de uma fonte de in-
certeza. Por exemplo, o preço à vista de uma commodity pode conter incertezas refer-
entes ao curto e ao longo prazos. Os modelos desta natureza serão tratados nos próximos
capı́tulos. Também é comum tratarmos o preço de um tı́tulo com duas fontes de in-
certezas. Por exemplo, uma ação de uma empresa em um paı́s emergente pode ser
modelada com o risco associado ao próprio negócio somado ao risco do paı́s onde atua.
Assim, é natural que tenhamos interesse em trabalhar com processos estocásticos que
reúnam múltiplas fontes de incertezas. Apresentaremos os detalhes para este tipo de
modelgagem ao longo desta seção.
Definição 6.2. (Browniano multivariado) Define-se um processo Browniano com
dimensão m por Bt (ω) = (Bt1 (ω) , . . . , Btm (ω)) para t ≥ 0 onde cada Bti (ω) é um
Browniano padrão univariado. Ainda, ao processo Bt (ω) está associada a filtração
Ft tal que Bt (ω) é adaptado a esta filtração e os incrementos Bu (ω) − Bt (ω) são
independentes de Ft para 0 ≤ t < u.
Definição 6.3. (Processo de Itô multivariado) Considere Bt (ω) t ≥ 0, um Brow-
niano de dimensão m. Então o processo de Itô de dimensão n é dado por
O processo estocástico descrito na equação (6.6) por ser escrito por

m
X
dXit = µi (Xt , t) dt + σij (Xt , t) dBjt i = 1, . . . n
j=1
ou ainda na forma integral

Z t m Z t
X
X i t = xi 0 + µi (Xu , u) du + σij (Xu , u) dBju i = 1, . . . n (6.7)
0 j=1 0
onde Xi0 = xi0 e cada µi e σij atendem as condições da definição 3.18.

Considere que os vetores e matrizes acima sejam
     
X1 t µ1 σ11 . . . σ1m
Xt =  . . .  µ =  ...  σ =  ... ... ... 
Xn t µn σn1 . . . σnm
então o processso descrito na equação (6.6) pode ser escrito por
dX1t = µ1 dt + σ11 dB1t + . . . + σ1m dBmt

... = ...
dXnt = µn dt + σn1 dB1t + . . . + σnm dBmt
As equações acima podem descrever uma economia com n ativos e cada um destes ativos
contem m fatores de risco.
178
A fórmula de Itô para o processo multivariado foi antecipado no capı́tulo 3 como uma
mera extensão do caso univariado. Aqui repetimos a fórmula de Itô multivariado que
seria aplicado ao caso descrito acima. Para tornar a notação mais simples, em alguns
casos, omitiremos o subscrito indicador do “tempo”.
Teorema 6.2. (Fórmula de Itô multivariado) Sejam X1 , X2 , . . . , Xn processos de

Itô univariados dados por
dXi = µi (Xt , t) dt + σi (Xt , t) dBit i = 1, . . . , n (6.8)
Seja f (X1 , . . . , Xn , t), onde f (·) é contı́nua e diferenciável duas vezes em relação a
x1 , . . . , xn e uma vez em relação a t (com derivadas contı́nuas), então o diferencial
df (·) é dado por
∂f X ∂f 1 X ∂ 2f
df (X1 , . . . , Xn , t) = dt + dXi + dXi dXj (6.9)
∂t i
∂x i 2 i,j
∂x i ∂x j
onde dBXi dBXj = ρij dt, i 6= j, e ρij é a correlação entre os Brownianos i e j.

Exemplo 6.3. Considere o processo Xt = eµt+σ1 B1t +σ2 B2t em que t ≥ 0, µ, σ1 , σ2 são
positivos e ρ12 dt = dB1t dB2t . Calcule dXt .
Solução: Considere f (x1 , x2 , t) = eµt+σ1 B1t +σ2 B2t . Então temos

∂f ∂ 2f
= eµt+σ1 x1 +σ2 x2 σ1 = f (x1 , x2 , t) σ1 = σ12 f (·)
∂x1 ∂x21
∂f ∂ 2f
= eµt+σ1 x1 +σ2 x2 σ2 = f (x1 , x2 , t) σ2 = σ22 f (·)
∂x2 ∂x22
∂f ∂f
= eµt+σ1 x1 +σ2 x2 σ1 σ2 = f (x1 , x2 , t) σ1 σ2 = µf (·)
∂x1 ∂x2 ∂t
Usando a equação (6.9), temos
1 2
σ1 f (dB1t )2 + σ22 f (dB2t )2 + 2σ1 σ2 f dB1t dB2t

dXt = µf dt + f σ1 dB1t + f σ2 dB2t +
2
1 1
dXt = µXt dt + σ1 Xt dB1t + σ2 Xt dB2t + σ12 Xt dt + σ22 Xt dt + σ1 σ2 Xt ρ12 dt
2 2

dXt 1 1
= µ + σ12 + σ22 + σ1 σ2 ρ12 dt + σ1 dB1t + σ2 dB2t
Xt 2 2
O teorema 6.1 (TRM) pode ser estendido para o caso multivariado e então o teorema
garante a existência de um processo adaptado Hs multivariado, em que poderı́amos
imaginar a sua aplicação ao caso de uma economia com n ativos. A existência do
processo adaptado assegura a possibilidade de proteção (hedge) em tal economia.
179
Exercı́cio 6.1. Seja (Ω, F, P ) um espaço de probabilidade. Considere os seguintes pro-
cessos definidos neste espaço: (i) dχt = −kχt dt + σχ dBχt (ii) dξt = µξ dt + σξ dBξt
com ρdt = dBχt dBξt , onde k, σχ e σξ são positivos. Ainda, Ft é a σ-álgebra tal que
Bt (ω) = (Bχt , Bξt ) é adaptado a Ft . Seja ln St = χt +ξt , onde St é o preço à vista. Este
é o modelo de dois fatores de Schwartz e Smith (2000) [89] na modelagem dos preços de
commodities. Os dois fatores que descrevem o preço à vista são as variações de curto
prazo χt e o preço de equilı́brio de longo prazo ξt . Voltaremos a este modelo quando
tratarmos da modelagem de commodities.
(i) Encontre as soluções para χt e ξt ,
(ii) Calcule E P (χt ) e V arP (χt ),
(iii) Calcule E P (ξt ) e V arP (ξt ),
(iv) Calcule a Cov P (χt , ξt ),
(v) Calcule E P (St ),
(vi) Calcule dSt .
Exemplo 6.4. Retome o enunciado do exercı́cio 6.1. Suponha que ambos os processos
sejam referentes a um contexto de um mercado onde não há arbitragem. Escreva ambos
os processos na MME.
Solução: Para dχt = −kχt dt + σχ dBχt vamos considerar o teorema de Girsanov em

que B̃χt = Bχt + θχ t onde θχ é o preço do risco de mercado de χt e B̃χt é o processo
Browniano padrão sob Q. Levando na equação anterior, temos

dχt = −kχt dt + σχ dB̃χt − θχ dt
dχt = − (kχt + θχ ) dt + σχ dB̃χt
Para dξt = µξ dt + σξ dB̃ξt definimos θξ como o preço do risco de mercado para ξt e de

forma similar teremos
dξt = (µξ − θξ ) dt + σξ dB̃ξt

Exercı́cio 6.2. Considere o enunciado do exercı́cio 6.1 e os resultados do exemplo

anterior.
(i) Encontre as soluções para χt e ξt sob a medida Q,
(ii) Calcule E Q (χt ) e V arQ (χt ),
(iii) Calcule E Q (ξt ) e V arQ (ξt ),
(iv) Calcule a Cov Q (χt , ξt ),
(v) Calcule E Q (St ).
180
6.3 Gerador de difusão de Itô
Estamos caminhando no sentido de estabelecermos uma conexão entre os conceitos de
valor esperado condicional e de EDP´s. Nesta seção iremos definir o gerador de difusão
de Itô, um importante conceito neste tópico.
O processo de Itô univariado foi definido pela equação (3.35) (ou equivalentemente
pela equação (3.36)). O processo de Itô multivariado foi definido pela equação (6.6) (ou
equivalentemente pela equação (6.7)).
Quando os coeficientes destas equações são independentes do tempo, temos o que se

denomina por difusão homogênea de Itô (ou simplesmente difusão de Itô). Assim, para
os casos univariado e multivariado, temos as respectivas difusões
dXt = µ (Xt ) dt + σ (Xt ) dBt t≥0 (6.10)
dXt = µ (Xt ) dt + σ (Xt ) dBt t≥0 (6.11)

É imediato, neste estágio do texto, observar que o processo geométrico Browniano pode
ser definido a partir da EDE (6.10) considerando µ (Xt ) = µXt e σ (Xt ) = σXt .
Definição 6.4. (Propriedade de Markov para difusão) Seja Xt uma difusão de

Itô conforme a EDE (6.10). Seja f uma função limitada e Ft a σ-álgebra natural gerada
pelo processo Browniano padrão. Dizemos que Xt satisfaz a propriedade de Markov para
h > 0 se
E [f (Xt+h ) |Ft ] = E [f (Xt+h ) |Xt = x] (6.12)
Esta definição da propriedade de Markov é idêntica a aquela da seção 6.1, porém

agora colocada em termos do valor esperado condicional. A equação (6.12) significa
que a previsão do valor de X dadas as informações até o instante t é idêntica àquela se
considerarmos que o processo incia-se em t. Isto é o mesmo que dizer que as informações
passadas do processo não ajudam na sua previsão futura.
Exercı́cio 6.3. Mostre que são Markovianos os processos estocásticos abaixo definidos
no espaço (Ω, F, P ).
(i) dXt = µdt + σdBt X0 = 0
(ii) dXt = µXt dt + σXt dBt X0 = x
Definição 6.5. (Gerador de difusão de Itô univariado) Seja Xt uma difusão de

Itô conforme a EDE (6.10) com X0 = x. Seja f uma função contı́nua e duas vezes
diferenciável (com derivadas contı́nuas). O gerador de difusão de Itô é definido por
E (f (Xt ) |x) − f (x)

Lf (x) = lim (6.13)
t→0 t
O gerador de difusão de Itô define a taxa de variação do valor esperado de f (Xt ).
181
Vamos aplicar a fórmula de Itô para calcular d (f (Xt )). Temos que
∂f 1 ∂ 2f
d [f (Xt )] = dXt + 2
(dXt )2
∂x 2 ∂x
∂f 1 ∂ 2f
= [µ (x) dt + σ (x) dBt ] + σ 2 (x) 2 dt
∂x 2
2 ∂x
∂f 1 ∂ f ∂f
= µ (x) + σ 2 (x) 2 dt + σ (x) dBt
∂x 2 ∂x ∂x
ou equivalentemente
Z t t
∂ 2f
Z
∂f 1 ∂f
f (Xt ) − f (X0 ) = µ (x) + σ 2 (x) 2 du + σ (x) dBu
0 ∂x 2 ∂x 0 ∂x
Se tomarmos o valor esperado da equação acima temos o numerador da equação (6.13)

que dividido por t e levado ao limite quando t tende a zero, resulta em
∂f 1 2 ∂ 2f
Lf (x) = µ (x) + σ (x) 2 (6.14)
∂x 2 ∂x
Note que o operador Lf (x) é um operador que contém a tendência (drift) do processo
de d [f (Xt )].
Exemplo 6.5. Encontre o gerador da difusão de Itô para os seguintes processos es-
tocásticos, t ≥ 0:
(i) dXt = µXt dt + σXt dBt
(ii) dYt = k (θ − Yt ) dt + σYt dBt , k > 0, θ > 0

√
(iii) dZt = (r − α) Zt dt + σ Zt dBt , r > 0, α > 0
Solução:
(i) Usando a equação (6.14) onde µ (x) = µx e σ (x) = σx, temos
∂f 1 ∂ 2f
Lf (x) = µx + σ 2 x2 2
∂x 2 ∂x
(ii) Neste caso temos µ (y) = k (θ − y) e σ (y) = σy, portanto
∂f 1 ∂ 2f
Lf (y) = k (θ − y) + σ2y2 2
∂y 2 ∂y
√
iii) Temos que µ (z) = (r − α) z e σ (z) = σ z, logo
2
∂f 2 ∂ f
Lf (z) = (r − α) z +σ z 2
∂z ∂z
182
Definição 6.6. (Gerador de difusão de Itô multivariado) Considere uma difusão
de Itô multivariada em que a EDE é dada por
dXt = µ (Xt , t) dt + σ (Xt , t) dBt t≥0 (6.15)
onde µ (Xt ) é um vetor n × 1, os termos µi são todos função de Xt , σ (Xt ) é uma

matriz n × m, os termos σij são todos função de Xt e dBt é o Browniano multivariado
de ordem m. Seja f uma função limitada de duas vezes diferenciável (com derivadas
contı́nuas), o gerador de difusão é dado por
X ∂f 1X ∂ 2f
σσ > i,j (x, t)

Lf (x) = µi (x, t) + (6.16)
i
∂xi 2 i,j ∂xi xj
Definimos acima o gerador de difusão de Itô para uma difusão em que temos n EDE´s
e cada uma possui m Brownianos padrões. No caso de termos um processo de difusão
de ordem n significa que estamos nos referindo a n EDE´s com n Browninanos padrões.
Exemplo 6.6. Encontre o gerador de difusão de Itô para os seguintes casos
(i) dXt = µXt dt + Xt (σ1 dB1t + σ2 dB2t ) , σ1 > 0, σ2 > 0, µ ∈ R

dχt −kχt σχ 0 dBχt
(ii) = dt + , k > 0, σχ > 0, σξ > 0, µ ∈ R
dξt µ 0 σξ dBξt
Solução:
(i) Temos que o vetor de tendência
é simplesmente µ (x) = µx. A matriz de variância
é σ (x) = σ1 x σ2 x . Portanto temos:

>
σ1 x
σσ (x) = σ1 x σ2 x
σ2 x
σσ > = σ12 x2 + σ22 x2

O gerador de difusão de Itô será
∂f 1 2 ∂ 2f
Lf (x) = µx + σ1 + σ22 x2 2
∂x 2 ∂x
(ii) Para simplificar a notação vamos considerar x1 = χ e x2 = ξ. Note que o primeiro

termo do segundo membro da equação (6.16) é um produto escalar, ou mais apropriada-
mente, o gradiente de f multiplicado pelo vetor de tendência do processo. O primeiro
termo do gerador será
h i −kx ∂f ∂f
∂f ∂f 1
∂x1 ∂x2 · = −kx1 +µ
µ ∂x1 ∂x2
A matriz σσ > é dada por

> σ x1 0 σx1 0 σx21 0
σσ = =
0 σx2 0 σx2 0 σx22
183
Portanto o gerador de difusão será
∂ 2f ∂ 2f

∂f ∂f 1
Lf (x) = −kx1 +µ + σx21 2 + σx22 2
∂x1 ∂x2 2 ∂x1 ∂x2
Exercı́cio 6.4. Encontre os geradores de difusão de Itô dos seguintes processos:

dX1t µ1 σ1 0 dB1t
(i) = dt +
dX2t µ2 X2t 0 σ2 X2t dB2t
X
dXt rXt e t
(ii) = dt + dBt onde Bt é univariado
dYt µYt 0

dXt 1 0
(iii) = dt + dBt onde Bt é univariado
dYt µ σ
Exercı́cio 6.5. Encontre os processos estocásticos para os quais os geradores de difusão

de Itô estão dados abaixo:
2
(i) Lf (x) = 2x ∂∂xf2 + ∂f
∂x
2
(ii) Lf (x) = 12 ∂∂xf2 + r ∂x
∂f
1
∂f
+ µ ∂x 2
1
∂f ∂2f
(iii) Lf (x) = ∂t
+ µ ∂f
∂x
+ ∂x2
Exercı́cio 6.6. (Processo P

de Bessel) Seja Bt um Browniano multivariado de di-
mensão m. Considere Rt = m 2
i=1 Bit .
(i) Mostre que dRt = mdt + 2 m

P
i=1 Bit dBit
1
m−1
(ii) Considere Zt = Rt2 . Mostre dZt = 2Zt
+ dBt . Zt é o processo de Bessel.
(iii) Mostre que o gerador de difusão de Itô é dado por Lf (z) = 21 f 00 (z) + m−1
2z
f 0 (z).
Este é o operador diferencial de Bessel (por esta razão a denominação de processo
de Bessel para Zt ).
6.4 Equação de Kolmogorov

A equação backward de Kolmogorov fornece a relação que há entre o valor esperado
condicional e a correspondente EDP. Desta maneira ficará clara a relação entre as
metodologias de apreçamento vistas nos capı́tulos 4 e 5.
Seja Xt uma difusão de Itô multivariada de ordem n. Seja f uma função limitada
e duas vezes diferenciável e com derivadas contı́nuas. Vamos definir o seguinte valor
esperado
h (x, t) = E [f (Xt ) |x] (6.17)
184
onde x significa o último valor de X que precede Xt . Se diferenciarmos em relação a t,
teremos
∂h
= E [Lf (Xt )] (6.18)
∂t
A equação (6.18) mostra como o valor de esperado de f (Xt ) evolui no tempo.
Teorema 6.3. (Equação backward de Kolmogorov) Seja Xt uma difusão mul-
tivarida sendo x ∈ Rn e 0 ≤ s < t. Considere f uma função limitada duas vezes
diferenciável com derivadas contı́nuas. Seja Xs = x e p (s, t, x, y) a função densidade
de transição em y. Dado que
Z
h (x, s) = E [f (Xt ) |x] = f (y) p (s, t, x, y) dy (6.19)
Rn
então
∂h (x, s)
+ Lh (x, s) = 0 (6.20)
∂s
h (x, s) = f (x) (6.21)
O teorema acima afirma que a solução do problema dado pela EDP (6.20) com a
condição inicial (6.21) é a equação (6.19) onde a solução h (x, s) é o valor esperado
condicional de f (Xt ). A equação (6.20) escrita em termos das variáveis x e s é denomi-
nada equação backward de Kolmogorov. A demonstração pode ser vista nas referências
mencionadas.
Exemplo 6.7. Considere x ∈ R, s > 0 e f limitada e duas vezes diferenciável com
derivadas contı́nuas. Seja o seguinte problema de valor inicial
1 2 2 ∂2

∂ ∂
+ µx + σ x h (x, s) = 0 (6.22)
∂s ∂x 2 ∂x2
h (x, 0) = f (x) (6.23)
Encontre a função v (x, s).
Solução: Vamos usar a equação backward de Kolmogorov. Pelo teorema 6.3 vemos
que a equação (6.20) se refere à EDP dada. Então temos que encontrar a difusão de
Itô (EDE) que tem como gerador a EDP acima sem o termo que envolve a derivada em
relação ao tempo. Em outras palavras
∂h ∂h ∂h 1 2 2 ∂ 2 h
+ Lh = + µx + σ x =0 (6.24)
∂s ∂s ∂x 2 ∂x2
Sabemos que o gerador de difusão de Itô univariado é dado por
∂g 1 2 ∂ 2g
Lg (x) = µ (x) + σ (x) 2
∂x 2 ∂x
Logo temos µ (x) = µx e σ (x) = σx, portanto a difusão (EDE) é
dXt = µXt dt + σXt dBt (6.25)
185
Temos em (6.24) o problema idêntico a (6.20) onde Xt é dado por (6.25). A EDE (6.25)
refere-se ao processo geométrico Browniano cuja solução é dada por
1 2
Xt = Xs e(µ− 2 σ )(t−s)+σBt−s
Denominando δ = µ − 21 σ 2 , temos Xt = Xs eδ(t−s)+σBt−s .
Agora que conhecemos Xt vamos usar a equação (6.19) com Xs = x e considerar

y = Bt |Bs ∼ N (x, t − s). Sabemos então que y ∈ R. Logo temos
h (x, s) = E f Xs eδ(t−s)+σy |Xs = x

Z ∞
1 (y−x)2
f xeδ(t−s)+σy p e− 2(t−s) dy,

h (x, s) = t>0
−∞ 2π (t − s)
Z ∞
1 (y−x)2
h (x, s) = p f xeδ(t−s)+σy e− 2(t−s) dy, t>0
2π (t − s) −∞
Na equação backward de Kolmogorov expressamos o resultado em termos das variáveis

x e s, daı́ a denominação de backward. As variáveis t e y são fixas.
Exercı́cio 6.7. Considere o mesmo enunciado do exemplo 6.7. Encontre a solução para
o seguinte problema de valor inicial
∂h ∂h 1 2 ∂ 2 h
+µ + σ =0 s > 0, x ∈ R
∂s ∂x 2 ∂x2
h (x, 0) = f (x)
Exercı́cio 6.8. Seja a difusão de Itô dada por
dXt = µ (Xt , t) dt + σ (Xt , t) t>s
Seja s o instante inicial tal que Xs = x e 0 ≤ s < t. A função densidade de transição

não negativa é p (s, t, x, y). Mostre que esta função satisfaz a equação backward de
Kolmogorov
∂h (x, s)
+ Lh (x, s) = 0
∂s
isto é
∂p (s, t, x, y) ∂p (s, t, x, y) 1 2 ∂ 2 p (s, t, x, y)
+ µ (x, s) + σ (x, s) =0
∂s ∂x 2 ∂x2
Exercı́cio 6.9. Seja o Browniano padrão Bt , t ≥ 0.
(i) Escreva a função densidade de transição p (t, x, y) para t > 0;
(ii) Verifique que a densidade de transição satisfaz a equação de difusão
∂p 1 ∂ 2p
=
∂t 2 ∂y 2
186
Considere agora f (Xt , t) e Xt uma difusão de Itô univariada tal que dXt = µ (Xt ) dt+
σ (Xt ) dBt . Admita também todas as considerações feitas ao longo desta seção. Temos
da fórmula de Itô que
∂f ∂f 1 ∂ 2f
d [f (Xt , t)] = dt + dXt + 2
(dXt )2
∂t ∂x 2 ∂x
∂f ∂f ∂f 1 ∂ 2f 2
d [f (Xt , t)] = dt + µ (x) dt + σ (x) dBt + σ (x) dt
∂t ∂x ∂x 2 ∂x2
∂ 2f

∂f ∂f 1 ∂f
d [f (Xt , t)] = + µ (x) + σ 2 (x) 2 dt + σ (x) dBt
∂t ∂x 2 ∂x ∂x
Usando o fato de que

∂f 1 ∂ 2f
Lf (x) = µ (x) + σ 2 (x) 2
∂x 2 ∂x
podemos escrever

∂f ∂f
d [f (Xt , t)] = + Lf (x) dt + σ (x) dBt
∂t ∂x
integrando temos
Z t Z t
∂f ∂f
f (Xt , t) − f (X0 , 0) = + Lf (x) du + σ (x) dBu
0 ∂u 0 ∂x
A última integral do lado direito é uma integral de Itô e portanto é martingal. Denotando
esta integral por Mt , temos
Z t
∂f
f (Xt , t) − f (X0 , 0) = + Lf (x) du + Mt
0 ∂u
ou ainda Z t
∂f
Mt = f (Xt , t) − f (X0 , 0) − + Lf (x) du (6.26)
0 ∂u
Isto mostra que o lado direito da equação (6.26) é um processo martingal. Uma con-
sequência imediata do resultado em (6.26) é que se f (x, t) satisfaz a equação
∂f
+ Lf (x) = 0
∂t
então f (Xt , t) − f (X0 , 0) é um processo martingal.
Exemplo 6.8. Seja a difusão de Itô dXt = dt + dBt , cuja solução para X0 = 0 é
Xt = t + Bt . Seja a EDP
1 ∂ 2f ∂f
+ =0 (6.27)
2 ∂x2 ∂x
Mostre que se f (x, t) satisfaz a equação (6.27), então f (Xt , t) é um processo martingal.
187
Solução: Primeiramente note que o gerador Lf (x) da difusão de Itô é a equação (6.27),
ou seja
∂f 1 ∂ 2f
Lf (x) = +
∂x 2 ∂x2
A solução de Lf (x) = 0 é f (x) = 1 + e−2x . Portanto, f (Xt , t) = 1 + e−2Bt −2t . Para
mostrar que f (Xt , t) é martingal basta observar que e−2Bt −2t é martingal, ou seja
E e−2Bt −2t |Fs = e−2Bs −2s

Exercı́cio 6.10. Admita as mesmas considerações para a função f que foram enunci-
adas ao longo desta seção. Seja f (Bt , t) = t2 Bt5 , t ≥ 0.
(i) Encontre o gerador de difusão de Itô,
(ii) Escreva a equação (6.26) para o processo em questão. Calcule então o E (f (Xt , t) |Fs ),
onde Fs é a filtração natural do Browniano padrão.
Exercı́cio 6.11. Seja o processo de Ornstein-Uhlenbeck descrito na equação (3.54) e

reescrito como dXt = (θ − Xt ) dt + σdBt , onde θ > 0, σ > 0 e X0 = x.
(i) Encontre o gerador da difusão de Itô,
(ii) Escreva a equação backward de Kolmogorov,
(iii) Encontre a solução geral.
Esta seção mostrou como resolver um problema de valor inicial através do cálculo do
valor esperado condicional. Sendo o problema de valor inicial essencialmente a resolução
de uma EDP, então podemos obtê-la por meio do cálculo do valor esperado condicional.
Este é o ponto por onde das duas metodologias estão conectadas. O apreçamento de
uma opção pode ser feito pelo cálculo do valor esperado condicional (capı́tulo 5) ou pela
solução de uma EDP (capı́tulo 4). Neste capı́tulo mostramos que a equação backward
de Kolmogorov estabelece o elo entre a solução da EDP e o cáculo do valor esperado
condicional.
6.5 Equação de Fokker-Planck

A seção anterior mostrou a relação entre o cálculo da esperança condicional e a solução
de uma EDP (equação backward de Kolmogorov). Esta equação é escrita em termos das
variáveis x e s da função densidade de transição. Agora veremos que também podemos
escrever uma equação diferencial parcial em termos das variáveis forward y e t. Trata-se
da equação de Fokker-Planck ou da equação forward de Kolmogorov.
Teorema 6.4. (Equação de Fokker-Planck) Seja a difusão multivariada de Itô dada

por
dXt = µ (Xt , t) dt + σ (Xt , t) dBt
188
sendo x ∈ Rn , 0 ≤ s < t e µ (x, t) e σ (x, t) são funções que atendem as condições
de Hölder em relação a x e t. Seja p (s, t, x, y) a função densidade de transição em y,
então ela satisfaz a equação de Fokker-Planck ( equação forward de Kolmogorov)
∂p (s, t, x, y) 1 ∂ 2 2 ∂
− + 2
σ (y, t) p (s, t, x, y) − [µ (y, t) p (s, t, x, y)] = 0 (6.28)
∂t 2 ∂y ∂y
Na equação (6.28) s e x são fixas e as variáveis são y e t, daı́ a denominação forward.
O Apêndice deste capı́tulo apresenta o conceito de volatilidade local que faz uso da
equação de Fokker-Planck. Porém antes vejamos a equação de Feynman-Kac e a sua
aplicação ao apreçamento de uma opção de compra Européia.
6.6 Equação de Feynman-Kac

Esta seção apresenta dos detalhes da equação de Feynman-Kac que se constitui numa
extensão da equação de Kolmogorov vista na seção anterior.
Teorema 6.5. (Equação de Feyman-Kac) Seja f uma função limitada, duas vezes
diferenciável e com derivadas contı́nuas. Seja q uma função também limitada. Considere
0 ≤ s < t e x ∈ Rn . Seja Xt uma difusão multivariada de Itô com Xs = x e L o gerador
de difusão multivariado de Itô. Define-se v (x, s) por
h Rt i
h (x, s) = E e− s q(Xu )du f (Xt ) |x (6.29)
Então
∂h (x, s)
+ Lh (x, s) = qh (x, s) (6.30)
∂s
h (x, t) = f (x) (6.31)
O teorema 6.5 estabelece que a solução para o problema de valor final dado pelas
equações (6.30) e (6.31) é a equação (6.29), e esta solução é única. Veja a demonstração
do teorema 6.5 nas referências mencionadas no inı́cio do capı́tulo.
No que se segue vamos utilizar a equação de Feynman-Kac para encontrar a solução

do modelo de BMS. Vimos no capı́tulo 4 que a EDP do modelo de BMS é dada pela
equação (4.12) e abaixo reescrita.
∂c ∂c 1 2 2 ∂ 2 c
+ rX + σ X = rc (6.32)
∂t ∂x 2 ∂x2
com a consideração de que c é a opção de compra Européia e é função de Xt e t, e
escrevemos ct = f (x, t). Também há que se observar que t é o tempo corrente tal que
0 ≤ t ≤ T e T é a data do vencimento. A taxa livre de risco é constante ao longo do
vencimento e o mesmo ocorre com a volatilidade σ do ativo subjacente. A condição
terminal é dada por
c (XT , T ) = (XT − K)+ (6.33)
onde XT é o preço do ativo no vencimento e K > 0 é o preço de exercı́cio.
189
Das seções anteriores sabemos que o gerador de difusão de Itô do processo geométrico
Browniano, escrito sob a MME, é
∂g 1 2 2 ∂ 2 g
Lg (x) = rx + σ x
∂x 2 ∂x2
Em outras palavras, a equação (6.32) pode ser escrita por
∂c
+ Lc = rc (6.34)
∂t
Observe a correspondência entre as equações (6.34) e (6.30). Da mesma forma entre as
equações (6.33) e (6.31). Considerando h (x, t) ≡ ct = f (x, t) onde x ∈ R+ e Xt = x,
podemos escrever
∂h ∂h 1 2 2 ∂ 2 h
+ rX + σ X = rh 0≤t≤T (6.35)
∂t ∂x 2 ∂x2
e a condição terminal será
h (xT , T ) = (xT − K)+ (6.36)
Temos portanto um problema de valor final e vamos usar a equação de Feynman-
Kac (6.29) para resolvê-lo. O valor da opção é ct = h (x, t) que calculado pelo valor
esperado condicional é
h RT i
h (x, t) = E e− t q(Xu )du f (XT ) |XT |x (6.37)
Comparando a equação (6.34) com a equação (6.30) vemos que q = r, que é constante,
conforme a hipótese do modelo. O processo estocástico geométrico Browniano escrito
sob a MME é
dXt = rXt dt + σXt dB̃t 0≤t≤T (6.38)
A solução desta EDE é
1 2
xT = xe(r− 2 σ )τ +σB̃τ (6.39)
onde τ = T − t. A solução para o valor da opção h (x, t) será obtido a partir da
equação (6.37). Como o processo está escrito sob a MME usaremos a indicação do valor
esperado sob esta medida, teremos
h RT i
Q − t rdu
h (x, t) = E e f (XT ) |x
Já sabemos que o valor esperado condicional acima é idêntico ao valor esperado incondi-
cional, isto é h i
1 2
h (x, t) = E Q e−r(T −t) f xe(r− 2 σ )τ +σB̃τ (6.40)
B̃τ
Sabemos que B̃τ ∼ N (0, τ ). Então podemos escrever w = √ τ
∼ N (0, 1). Além disso
+
temos que h (xT , T ) = (xT − K) . Levando estas considerações em (6.40) temos
∞
e−r(T −t) √
Z + w2
1 2
h (x, t) = √ xe(r− 2 σ )τ +σ τw
−K e− 2 dw (6.41)
2π −∞
190
Observe que a equação (6.41) é similar à equação (5.50) guardando obviamente as al-
terações na notação (h (x, t) em (6.41) é o preço da opção cujo ativo subjacente tem
preço inicial x equivalendo a ct em (5.50) cujo ativo subjacente tem preço inicial s).
Note que o valor esperado foi calculado em relação à medida neutra pois a difusão es-
tava sob esta medida. O desenvolvimento subsequente à (6.41), até a equação final do
modelo de BMS, demanda somente algebrismo e deixamos esta tarefa para o leitor.
6.7 Equações diferenciais estocásticas

6.7.1 Definições básicas
Definição 6.7. Seja Xt , t ≥ 0 um processo estocástico em (Ω, F, P ). Seja Bt um
Browniano padrão neste espaço. Uma equação da forma
onde µ (x, t) e σ (x, t) são processos adaptados, é denominada de EDE. Xt é a solução
de (6.42). Definiremos as condições sob as quais a EDE (6.42) admite solução.
Vimos alguns exemplos de EDE´s no capı́tulo 3 tais como (i) EDE do processo
geométrico Browniano, (ii) equação de Langevin e (iii) equação de Ornstein-Uhlenbeck.
Definição 6.8. (Exponencial estocástico) Seja Xt um processo estocástico de variação
finita e seja Yt dado por
dYt = Yt dXt (6.43)
com Y0 = 1, então Yt é definido como exponencial estocástico de Xt .
A solução de (6.43) é dada por
1
Yt = eXt −X0 − 2 [X,X](t) (6.44)
onde [X, X] (t) é a variação quadrática de X conforme a definição 3.4 e Xt segue a
dinâmica em (6.42).
Para mostrar que (6.44) é a solução de (6.43) vamos considerar que

1
Zt = Xt − X0 − [X, X] (t) (6.45)
2
Portanto temos
Yt = eZt (6.46)
e usando a fórmula de Itô para calcular dYt podemos verificar se obtemos (6.43). Temos
que
1
dYt = d eZt = eZt dZt + eZt d [Z, Z] (t)

2
A variação quadrática de Z é finita e é a mesma de X, então temos

Zt 1 1
dYt = e dXt − d [X, X] (t) + eZt d [X, X] (t)
2 2
Zt
= e dXt
= Yt dXt
como prentendı́amos verificar.
191
Exemplo 6.9. Calcule o exponencial estocástico Yt de Xt onde dXt = rdt + σBt , r >
0, σ > 0, sendo que dYt = Yt dXt .
Solução: Da equação (6.44) podemos escrever

1
Yt = eXt −X0 − 2 [X,X](t)
Mas X0 = 0 e [X, X] (t) = σ 2 t. Logo ficamos com
1 2
Yt = ert+σBt − 2 σ t = e(r− 2 σ )t+σBt
1 2

A solução Xt da EDE (6.42) pode ser tomada sob duas perspectivas: (i) solução
forte e (ii) solução fraca. A solução forte é a representação de Xt por um processo
estocástico que é função de Bt atendendo a equação (6.42). Quando a solução forte não
existe a EDE pode ter sua solução na forma de distribuição, que por sua vez pode ser
definida em outro espaço de probabilidade. Esta é denominada solução fraca da EDE.
Neste texto trataremos apenas da solução forte. Para maiores detalhes da solução fraca
recomendamos as referências mencionadas no inı́cio do capı́tulo.
6.7.2 Solução forte da EDE

Seja a EDE (6.42) com as respectivas considerações da definição 6.7. A seguir definimos
a solução forte.
Definição 6.9. (Solução forte) A solução da EDE (6.42) Xt , é dita forte se Xt é
uma função f (Bu , t) u ≤ t; se as integrais atendem as condições
Z t Z y
µ (Xu , u) du < ∞ q.c. |σ (Xu , u) |dBu < ∞ q.c.
0 0
e se a equação de Xt na forma integral

Z t Z t
Xt = X0 + µ (Xu , u) du + σ (Xu , u) dBu (6.47)
0 0
é atendida.
Exemplo 6.10. Retome o exemplo anterior, encontre a solução forte da EDE
dYt = rYt dt + σYt dBt
Solução: A EDE acima pode ser escrita por dYt = (rdt + σdBt ) Yt . Também sabemos
que Xt = rt + σBt . Logo a equação acima é dYt = Yt dXt . Vimos que a solução do
exponencial estocástico de Xt é
1 2
Yt = e(r− 2 σ )t+σBt
Ou ainda a solução da EDE pode ser escrita por
1 2
f (xt , t) = e(r− 2 σ )t+σxt

192
O exercı́cio que se segue é idêntico ao exercı́cio 3.16. Se o leitor jé resolveu-o escreva
a solução na forma f (xt , t). Se há alguma dificuldade em resolvê-lo, a próxima seção o
ajudará a encontrar a solução.
Exercı́cio 6.12. Considere a EDE
dXt = k (θ − Xt ) dt + σdBt X0 = 1 t≥0
onde k > 0, σ > 0 e θ representa a média de longo prazo de Xt . Encontre a solução

forte de Xt .
6.7.3 Solução geral da EDE

Nesta seção apresentamos a EDE na sua forma mais completa e formalizamos a sua
solução.
Seja Xt , t ≥ 0 um processo estocástico em (Ω, F, P ). Seja Bt um Browniano padrão

neste espaço com a filtração natural Ft . Considere a EDE definida por
dXt = (mt + nt Xt ) dt + (pt + qt Xt ) dBt (6.48)
onde mt , nt , pt e qt são processos adaptados e aqui serão tratados como funções deter-
minı́sticas do tempo.
Desejamos encontrar a solução de Xt para estas condições. Vamos proceder em duas eta-
pas, primeiramente vamos buscar a solução particular para o caso em que mt = pt = 0.
Posteriormente apresentaremos a solução geral.
Solução particular (mt = pt = 0)

Sob esta condição temos que a equação (6.48) é escrita como
dSt = nt St dt + qt St dBt (6.49)
Esta equação também pode ser escrita por
dSt = (nt dt + qt dBt ) St
Fazendo dYt = nt dt + qt dBt temos que (6.49) toma a forma do exponencial estocástico
dSt = St dYt (6.50)
St é o exponencial estocástico de Yt e a sua solução é dada por

1
St = S0 eYt −Y0 − 2 [Y,Y ](t) (6.51)
Por outro lado, sabemos que Yt na forma integral é dado por

Z t Z t
Yt = Y0 + nu du + qu dBu (6.52)
0 0
193
A variação quadrática de Y é data por d [Y, Y ] (t) = qt2 dt, consequentemente temos
Z t
[Y, Y ] (t) = qu2 du (6.53)
0
Levando os resultados de (6.52) e (6.53) em (6.51), temos:

Rt
nu du+ 0t qu dBu − 12 0t qu
R R 2
du
St = S0 e 0
t 1 2
Rt
St = S0 e 0 (nu − 2 qu )du+
R
qu dBu
0 (6.54)
Solução geral
A solução geral com mt 6= 0 e pt 6= 0 faz uso da solução particular vista anteriormente.
Vamos buscar a solução geral da forma
Xt = St Yt (6.55)
Neste caso consideramos St como
dSt = nt St dt + qt St dBt (6.56)
que é a equação (6.49) com solução já conhecida. Seja Yt dado por
dYt = gt dt + ht dBt (6.57)
onde gt e ht são processos adaptados considerados como funções determinı́sticas do

tempo e serão avaliados abaixo.
Vamos considerar que S0 = 1 de tal modo que X0 = Y0 . Diferenciando Xt e usando a

fórmula de Itô, obtemos
dXt = St dYt + Yt dSt + dSt dYt
dXt = St (gt dt + ht dBt ) + Yt (nt St dt + qt St dBt ) + qt ht St dt
dXt = (gt St + qt ht St + nt Xt ) dt + (ht St + qt Xt ) dBt (6.58)
Comparando (6.48) com (6.58), temos que

pt
ht St = pt ⇒ ht = (6.59)
St
gt St + qt ht St = mt (6.60)
Usando (6.59) em (6.60), temos
gt St + qt ct = mt
mt − qt pt
gt = (6.61)
St
Portanto a solução geral será
t t
mu − qu pu
Z Z
pu
Xt = St Y0 + du + dBu
0 Su 0 Su
194
Como Y0 = X0 , temos
t t
mu − qu pu
Z Z
pu
Xt = S t X0 + du + dBu (6.62)
0 Su 0 Su
onde St é dado por (6.54) com S0 = 1.
Exemplo 6.11. Considere o enunciado do exercı́cio 6.12. Encontre a solução forte de
Xt usando (6.62).
Solução: Comparando a EDE do exercı́cio 6.12 com a equação (6.48), podemos escr-
ever
mt = kθ nt = −k pt = σ e qt = 0
logo usando (6.62), temos
Z t Z t
kθ σ
Xt = S t 1 + du + dBu
0 Su 0 Su
com St sendo dado por (6.54), ou seja
Rt
−kdu
St = e 0 = e−kt
Portanto Z t Z t
−kt ku ku
Xt = e 1+ kθe du + σe dBu
0 0
Z t Z t
Xt = e−kt + kθe−k(t−u) du + σe−k(t−u) dBu (6.63)
0 0
ou ainda Z t Z t
−kt −k(t−u)
f (xt , t) = e + kθe du + σe−k(t−u) dxt
0 0

Exercı́cio 6.13. Considere o modelo de reversão geométrico dado por
dXt = k (µ − ln Xt ) Xt dt + σXt dBt
Encontre a solução forte de Xt sob a MME (Sugestão: reveja o exercı́cio 3.17).
Uma questão natural que surge é sob que condições a equação (6.42) tem solução?
Que propriedade importante tem a sua solução? Além disso, a solução é única? O
teorema seguinte garante a existência e unicidade.
Teorema 6.6. (Existência e unicidade da solução) Considere as mesmas condições
expressas na definição 6.7. Seja t ∈ [0, T ], T > 0 e k uma constante positiva. Admita
as seguintes condições:
(i) |µ (x, t) | + |σ (x, t) | ≤ k (1 + |x|) (6.64a)
(ii) |µ (x, t) − µ (y, t) | + |σ (x, t) − σ (y, t) | < k|x − y| (6.64b)
X0 é independente de Ft e E X02 < ∞

(iii) (6.64c)
então a EDE (6.42) tem solução única tal que
Z t
2
E |Xu | du < ∞ (6.65)
0
195
A demonstração do teorema 6.6 pode ser vista em Øksendal (2003) [80], dentre out-
ros mencionados no inı́cio do capı́tulo.
Seja Xt a solução da EDE (6.42) conforme as condições do teorema 6.6. Pode-se demon-
strar que Xt é um processo Markoviano, ou seja, para 0 ≤ s < t e Xs = x
P (Xt ≤ z|Fs ) = P (Xt ≤ z|Xs = x) q.c. (6.66)
É intuitivo que Xt seja Markoviano pois de forma simplificada Xt+∆ = Xt + µ∆t + σB∆
e B∆ é Markoviano como já demonstrado.
Exercı́cio 6.14. Considere o modelo de Vasicek (1977) [100] para a dinâmica da taxa
de juros
dRt = (α − βRt ) dt + σdBt t≥0 (6.67)
onde α, β e σ são constantes positivas, encontre a solução forte f (rt , t). Calcule E (Rt )
e V ar (Rt ).
Exemplo 6.12. Considere o modelo de Hull e White (1990) [54] para a dinâmica da
taxa de juros
dRt = (αt − βt Rt ) dt + σt dBt t≥0 (6.68)
onde αt , βt e σt são funções determinı́sticas de t. Considere que o processo inicia-se em
R0 . Encontre a solução forte f (rt , t).
Solução: Comparando a equação (6.68) com a equação (6.48) temos que mt = αt ,

nt = −βt , pt = σt e qt = 0.
Primeiramente temos a solução para St obtida a partir da equação (6.54)

Rt
St = e− 0 βu du
(6.69)
A solução para Rt será
Z t Z t
αu σu
Rt = St R0 + du + dBu (6.70)
0 Su 0 Su
Levando a equação (6.69) em (6.70), temos
Z t Z t
− 0t βu du
R Ru Ru
βu βu du
Rt = e R0 + αu e 0 du + σu e 0 dBu
0 0
Z t Z t
− 0t βu du − ut βu du
R R Rt
Rt = R0 e + αu e du + σu e− u βu du dBu (6.71)
0 0
ou ainda
Rt
Z t Rt
Z t Rt
− −
f (rt , t) = R0 e 0 βu du
+ αu e u βu du du + σu e− u βu du
drt (6.72)
0 0
Rt
βu du
Podemos também resolver a EDE (6.68) usando o fator de integração e 0 . Multipli-
cando (6.68) por este fator, teremos
Rt Rt Rt Rt
βu du βu du βu du βu du
e 0 dRt = αt e 0 dt − βt e 0 Rt dt + σt e 0 dBt (6.73)
196
Rt
Calculando o diferencial de e 0 βu du Rt , temos
Rt Rt Rt
βu du
d e 0 Rt = βt e 0 βu du Rt dt + e 0 βu du dRt (6.74)
Somando as equações (6.73) e (6.74) e simplficando, teremos

Rt Rt Rt
d e 0 βu du Rt = αt e 0 βu du dt + σt e 0 βu du dBt
Integrando de 0 a t, temos
Rt
Z t Ru
Z t Ru
βu du βu du
e 0 Rt − R0 = αu e 0 du + σu e 0 βu du dBu
0 0
Rt
Z t Ru
Z t Ru
βu du βu du
e 0 Rt = R0 + αu e 0 du + σu e 0 βu du dBu
0 0
Rt
Z t Rt
Z t Rt
− 0 βu du − u βu du
Rt = R0 e + αu e du + σu e− u βu du dBu (6.75)
0 0
que é a mesma equação em (6.71).
Tanto o modelo de Vasicek (1977) como o de Hull e White (1990) para taxas de juros,
admitem valores negativo de Rt . Este é um ponto fraco de tais modelos. O modelo de
Cox, Ingersoll e Ross (1985) [23] (ou modelo CIR) dado pela seguinte EDE
p
dRt = (α − βRt ) dt + σ Rt dBt (6.76)
onde α, β e σ são positivos, não admite soluções negativas para a taxa de juros.
Esta EDE não é da forma daquela apresentada na equação (6.48). Não há nenhuma
solução fechada para (6.76). Muitas outras EDE’s não possuem solução analı́tica e a
solução numérica constitui uma alternativa para a obtenção de aproximações. Sugerimos
Kloeden e Platen (1992) [63] e Kloeden, Platen e Schurz (2003) [64] para as soluções
numéricas de EDE´s.

Este capı́tulo apresentou conceitos relevantes para o apreçamento de derivativos eviden-
ciando o elo entre as metodologias de apreçamento vistas nos capı́tulos 4 e 5. Iniciamos
apresentando a propriedade de Markov que também será útil no capı́tulo seguinte. A
seguir a apresentamos o Teorema da Representação Martingal (TRM) que garante sob
algumas condições especı́ficas a existência de um integrando que é um processo adaptado.
Desta forma o processo de evolução do preço do ativo (ou do valor de um portfólio) é um
processo martingal. Em consequência podemos usar a equação geral de apreçamento. A
garantia da existência deste processo significa que podemos ter uma carteira replicante
para o apreçamento e a existência de hedge fica estabelecida. Na seção 5.7 fizemos isto
e neste capı́tulo formalizamos o conceito de replicação e hedging no apreçamento.
197
Em seguida tratamos dos aspectos relacionados ao cálculo estocástico multivariado.
Vimos as definições do processo de Itô multivariado e da fórmula de Itô multivariado.
Tais considerações são necessárias quando pretendemos estudar modelos que possuem
mais de uma fonte de incerteza. Tais modelos são frequentes em finanças e buscamos
ilustrá-los com exercı́cios e exemplos.
O gerador de difusão de Itô foi definido como a taxa de variação do valor esperado
de f (Xt ), onde Xt é uma difusão. Estes conceitos foram apresentados nas formas uni-
variadas e multivariadas. Finalizamos o capı́tulo definindo as equações de Kolmogorov e
de Feynman-Kac. Estas equações permitem resolver um problema de valor inicial (EDP)
através do cálculo de um valor esperado condicional. Desta forma buscamos tornar nı́tido
que as duas abordagens de apreçamento, vistas nos capı́tulos 4 e 5, estão relacionadas;
ficando evidente que o uso de uma ou outra é uma mera questão de conveniência. Con-
cluı́mos com o modelo de BMS derivado a partir da equação de Feynman-Kac.
Ampliamos a abordagem sobre EDE´s anteriormente apresentadas neste texto. A forma

geral da EDE que consideramos é
dXt = (mt + nt Xt ) dt + (pt + qt Xt ) dBt (6.77)
A sua solução geral é dada por

t t
mu − nu pu
Z Z
pu
Xt = St X0 + du + dBu (6.78)
0 Su 0 Su
onde St é a solução particular (ou exponencial estocástico) dada por

t 1 2
Rt
St = S0 e 0 (nu − 2 qu )du+
R
qu dBu
0 (6.79)
Exploramos algumas EDE´s de finanças que possuem a forma (6.77) e portanto têm
solução fechada como o processo geométrico Browniano, a equação de Langevin e Ornstei-
Uhlenbeck e as equações para os modelos de taxas de juros de Vasicek e Hull e White. As
EDE´s que não possuem solução analı́tica são tratadas numericamente e aproximações
são obtidas. Estas questões numéricas não são abordadas neste texto e requerem bibli-
ografia especialiazada.
6.9 Apêndice - Densidade implı́cita e volatilidade

local
Este Apêndice apresenta os conceitos de densidade implı́cita e volatilidade local, este
último sendo uma aplicação da equação de Fokker-Planck.
6.9.1 Densidade implı́cita

No capı́tulo 4 definimos o conceito de volatilidade implı́cita como sendo a volatilidade
oriunda do modelo de BMS usando os dados de preços das opções existentes no mercado.
É natural imaginar que, da mesma forma, há uma função densidade implı́cita neutra
198
ao risco que permita o apreçamento das opções. Sabemos que o preço ct de uma opção
de compra Européia, com preço de exercı́cio K, vencimento em T e taxa livre de risco
constante r no perı́odo 0 ≤ t ≤ T , é dado pela equação fundamental de apreçamento
ct = E Q e−r(T −t) (XT − K)+ |Ft

(6.80)
onde Xt é o preço à vista. Conforme já explicado nas equações (5.43) a (5.48) podemos
escrever, considerando o tempo remanescente para o vencimento τ = T − t, que
ct = E Q e−rτ (XT − K)+

0≤t≤T (6.81)
Consideremos agora o cálculo da opção com a função densidade neutra ao risco φ (XT ).
Então podemos escrever com base na equação (6.81) que
Z ∞
−rτ
c (K, T ; X0 ) = e (XT − K) φ (XT , T ; x) dXT (6.82)
K
Note que o preço da opção é função do preço de exercı́cio K, dado o preço inicial do
ativo subjacente X0 = x. Isto porque cada trajetória de preço entre 0 ≤ t ≤ T é função
1 2
do preço inicial x através de XT = xe(r− 2 σ )τ +σB̃τ .
A partir das informações da curva smile, onde temos os preços da opção em função
dos preços de exercı́cio, desejamos obter estimativas para a densidade neutra ao risco.
O resultado a seguir é devido a Breeden e Litzenberger (1978) [14].
Diferenciando a equação (6.82) em relação a K, obtemos

Z ∞
∂ct (K, T ; x) −rτ
= −e φ (XT , T ; x) dXT
∂K K
Novamente diferenciando em relação a K, temos

∂ 2 ct (K, T ; x)
= e−rτ φ (K, T ; x)
∂K 2
ou ainda
∂ 2 ct (K, T ; x)
φ (K, T ; x) = erτ (6.83)
∂K 2
A equação (6.83) significa que com as informações advindas da função ct (K; x) pode-se
obter a função densidade neutra ao risco. Esta função é extraı́da dos preços do mercado
e por isto é denominada densidade implı́cita neutra ao risco.
6.9.2 Volatilidade local

Sabemos que a volatilidade é um parâmetro não observável. No capı́tulo 2 lidamos com
modelos paramétricos que estimam a volatilidade capturando alguns fatos estilizados das
séries de retorno das ações. Tais modelos consideram a caracterı́stica de comportamento
em que há dependênica entre a volatilidade entre os instantes t e t−1. O comportamento
descrito nestes modelos é auto-regressivo e a volatilidade varia no tempo. Também vi-
mos modelos de volatilidade estocástica onde a aleatoriedade é representada por termo
199
de ruı́do. No capı́tulo 3 ressaltamos que o modelo de BMS com volatilidade constante
não era capaz de capturar o comportamento errático da volatilidade. Isto gerava o com-
portamento smile (smirk ) da volatilidade em um gráfico σ versus K. Em consequência,
modelos de volatilidade estocástica como do de Heston (1993) buscavam descrever mais
adequadamente a volatilidade implı́cita advinda dos preços de mercado. Neste contexto
surge o conceito de volatilidade local.
A volatilidade local σL denota um conjunto de volatilidades σ (Xt , t) que seja consistente

com os preços das opções e diferentes preços de exercı́cio de um dado ativo subjacente. A
volatilidade local modela a volatilidade instantânea que em cada momento irá produzir
um apreçamento coerente com os preços das opções observados no mercado para todos os
preços de exercı́cio e maturidades. Quando usamos o “termo consistente com os preços
das opções” estamos nos referindo também à consitência com a densidade implı́cita (ou
implicada pelos preços das opções). Em outras palavras, a volatilidade local envolve o
comportamento da densidade implı́cita com o tempo, isto é ∂p ∂t
. Portanto, é natural que
façamos uso da equação de Fokker-Planck (equação forward de Kolmogorov). A de-
terminação de volatilidade local é um problema de natureza inversa: dada a densidade
implı́cita φ = p (t, T, xt , xT ), extraı́da de observações de mercado, deseja-se encontrar a
volatilidade local σL (xt , t). Os primeiros trabalhos em tempo discreto e contı́nuo foram
apresentados por Derman e Kani (1994) [25] e Dupire (1994) [30], respectivamente. Aqui
trataremos deste conceito em tempo contı́nuo.
Dupire (1994, 1997) [30] [32] mostrou que sob a condição de neutralidade ao risco existe
um único processo de difusão consistente com esta função densidade. A função σL (Xt , t)
que é o coeficiente do termo de difusão (e também é única) é denominada volatilidade
local. Sob esta definição escrevemos que o processo de difusão dos preços sob a medida
martingal é dado por
dXt
= µ (Xt , t) dt + σL (Xt , t) dB̃t 0≤t≤T (6.84)
Xt
onde µ (Xt , t) = µt Xt = (r − αt ) Xt e αt é a taxa instantânea de dividendos. Trabal-
haremos como preço da opção sem o fator de desconto e−r(T −t) e será designado por c̄t .
Assim podemos escrever a equação (6.82) como
Z ∞
c̄t (K, T ; x) = (XT − K) φ (XT , T ; x) dXT 0≤t≤T (6.85)
K
Usando a equação de Fokker-Planck (veja seção 6.5) e observando que as variáveis for-
ward são XT e T , temos
∂φ 1 ∂ 2 2 ∂
− + 2
σ (XT , T ) φ − [µ (XT , T ) φ] = 0 (6.86)
∂T 2 ∂XT ∂XT
Também sabemos que o termo de difusão na equação (6.84) é dado por σ 2 (XT , T ) =
σL2 XT2 . O drift é dado pore µ (XT , T ) = (r − αT ) XT = µT XT onde µT é o drift do
processo na MME. A equação acima será
∂φ 1 ∂2 2 2 ∂
= 2
σ L XT φ − [µT XT φ] (6.87)
∂T 2 ∂XT ∂XT
200
O resultado em (6.83) permite escrever
∂ 2 c̄t (K, T ; x)
φ (K, T ; x) = (6.88)
∂K 2
Diferenciando a equação (6.85) em relação a K, temos
Z ∞
∂c̄t (K, T ; x) ∂
= φ (XT , T ; x) (XT − K) dXT (6.89)
∂T K ∂T
∂φ
A equação (6.87) fornece ∂T e usando este resultado em (6.89), temos
Z ∞
1 ∂2

∂c̄ (K, T ; x) 2 2
∂
= σ X φ − (µT XT φ) (XT − K) dXT
∂T K 2 ∂XT2 L T ∂XT
= (6.90)
A solução da integral acima leva ao resultado
∂ 2 c̄

∂c̄ (K, T ; x) 1 ∂c̄
= σL2 K 2 + µT c̄ − K (6.91)
∂T 2 ∂K 2 ∂K
que é denominada de equação de Dupire. Isto implica que dadas as informações dos
preços das opções para todos os preços de exercı́cio e maturidades, existirá somente um
valor de σL (K, T ; x) que atenderá a equação (6.91). Observe também que a derivação
da equação acima independe da natureza da dinâmica dos preços.
Pode-se também demonstrar a relação entre a volatilidada local e a volatilidade implı́cita.

Da mesma forma, demonstra-se que a variância local é o valor esperado, sob a medida
neutra, da variância instantânea, condicional a que o preço do ativo subjacente no venci-
mento seja o preço de exercı́cio. Este último resultado pode ser visto em Derman e Kani
(1998) [26] e em Dupire (1996) [31]. Ainda dentro deste contexto temos o conceito de
superfı́cie de volatilidade implı́cita em que a volatilidade implı́cita é definida em cada
maturidade para diferentes preços de exercı́cio. Todos estes tópicos são perfeitamente
passı́veis de desenvolvimento com os instrumentos já apresentados neste texto. No en-
tanto não o faremos e deixamos que o leitor interessado busque-os nas referências citadas.
Caso contrário, sairı́amos do objetivo principal a que nos propusemos.
A literatura conta com várias pesquisas empı́ricas para o levantamento da curva smile,
da superfı́cie de volatilidade implı́cita e da função densidade neutra ao risco. No mercado
brasileiro referimo-nos ao trabalho de Yoshino (2001) [102].
201
202
Capı́tulo 7
Derivativos Americanos
No capı́tulo 5 apresentamos alguns derivativos exóticos. Esses derivativos diferem do

tradicional derivativo do tipo Europeu por dois aspectos distintos: (i) pela forma como
é definido o valor do derivativo no vencimento (pode ser definido com base na trajetória
do preço do ativo subjacente), (ii) pela possibilidade de exercı́cio antecipado. Dentro da
classe dos derivativos com possibilidade de exercı́cio antecipado destacam-se os do tipo
Americano e Bermudiano. Os derivativos do tipo Americano são os mais negociados
nas bolsas em todo o mundo. Neste capı́tulo estudaremos as importantes questões
relacionadas ao seu apreçamento. Da mesma forma como fizemos no capı́tulos anteriores
o nosso enfoque será em opções de compra e venda.
As referências básicas sobre derivativos Americanos são Hull (2000) [53], McDonald
(2003) [70], Neftci (2000) [77], Joshi (2003) [59] e Wilmott, Howison e Dewynne (1995)
[101]. Com um nı́vel de rigor mais elevado citamos Musiela e Rutkowski (2004), Shreve
(2004) [94], Øksendal (2003) [80], Elliot e Kopp (2005) [34]. Muito dos conceitos dos
capı́tulos 4 e 7 podem ser encontrados no clássico artigo de Smith (1976) [96].

Definição 7.1. (Opção Americana) O contrato de uma opção financeira do tipo
Americano fornece ao seu proprietário o direito, mas não a obrigação, de comprar/vender
um ativo (ativo objeto ou subjacente) por um preço K (preço de exercı́cio) em qualquer
data t (t ∈ [0, T ]) até a data T de vencimento.
Definição 7.2. (Opção Bermudiana) O contrato de uma opção financeira do tipo

Bermudiano fornece ao seu proprietário o direito, mas não a obrigação, de comprar/vender
um ativo (ativo objeto ou subjacente) por um preço K (preço de exercı́cio) em algumas
datas especı́ficas tk , onde tk ∈ [0, T ].
A definição 7.1 estabelece que o detentor do contrato pode exercer o seu direito em
qualquer data antes do vencimento T . Isto faz com que o proprietário de uma opção
Americana tenha um comportamento mais ativo que aquele de uma opção Européia.
Este último somente terá a decisão de exercı́cio em T . No caso da opção Americana
ele deve estar constantemente perguntando se é melhor exercer agora ou esperar o dia
seguinte. O mesmo raciocı́nio aplica-se ao caso da opção Bermudiana para as datas de
exercı́cio.
203
A opção do tipo Bermuda é um caso intermediário entre a opção Européia e Amer-
icana. Não existem fórmulas fechadas para o apreçamento das opções Americanas e
Bermudianas. Em geral recorre-se a aproximações e/ou soluções numéricas. O fato de
não haver uma fórmula definida, implica que as aproximações devem cuidadosamente
atender as restrições que surgem da formulação analı́tica que será apresentada neste
capı́tulo.
Definição 7.3. (Valor intrı́nseco) O valor intrı́nseco de uma opção em uma data t
é o valor resultante do seu exercı́cio neste instante, assim escrevemos
(Xt − K)+ opção de compra

(7.1)
(K − Xt )+ opção de venda
Considere o caso de um investidor proprietário de uma opção de compra Americana.

A cada instante de tempo ele deve preocupar-se acerca do momento ótimo de exercı́cio.
Em outras palavras, o investidor pergunta-se: o valor intrı́nseco é maior que o valor es-
perado da situação de não exercê-la (manter viva a opção) até o vencimento? Podemos
formalizar esta questão como se segue.
Seja então t ∈ [0, T ]. Será mais vantajoso o exercı́cio em t do que esperar pelo ex-
ercı́cio no vencimento se
Xt − K > E Q e−r(T −t) (XT − K)+ |Ft

(7.2)
onde r é a taxa livre de risco admitida como constante no perı́odo de maturação do

contrato. A questão que se segue é saber qual o instante t leva o investidor ao exercı́cio
ótimo. No vencimento T o fluxo de caixa recebido pelo investidor, dado que não houve
exercı́cio prévio, será XT − K. Seja t1 ∈ [0, T ] a primeira data imediatamente anterior
a T em que a opção pode ser exercida. Então será vantajoso o exercı́cio em t1 se
Xt1 − K > E Q e−r(T −t1 ) (XT − K)+ |Ft1

(7.3)
ou ainda podemos escrever
Xt1 − K > E Q e−rτ F CT |Ft1

onde F CT representa o fluxo de caixa em T e τ o tempo remanescente para o vencimento.
Seja agora t2 < t1 a primeira data anterior a t1 em que a opção pode ser exercida.
Será vantajoso exercer em t2 se
Xt2 − K > E Q e−r(t1 −t2 ) (Xt1 − K)+ |Ft2

(7.4)
ou ainda
Xt2 − K > E Q e−rτi F C|Ft2

onde τi pode ser tanto t1 − t2 como T − t2 (caso não tenha havido exercı́cio em t1 ) e
F C o respectivo fluxo de caixa em t1 ou T . Assim, trabalhando recursivamente pode-se
204
obter as possı́veis datas de exercı́cio antecipado.
Denomina-se por t? o instante ótimo de exercı́cio, onde o termo ótimo está associ-
ado ao maior valor dentre todas as possı́veis datas de exercı́cio antecipado. Definido o
instante ótimo t? , resta calcular o valor do derivativo Americano em uma data qualquer
t, 0 ≤ t < t? ≤ T . A data de exercı́cio ótimo t? é chamado de tempo de parada.
Se soubermos definir o tempo de parada sabemos que devemos exercer a opção neste
instante. Portanto, o tempo de parada é um importante conceito para o apreçamento
de derivativos Americanos. A inexistência de fórmulas fechadas para o apreçamento de
opções Americanas e Bermudianas está associada à caracterı́stica estocástica do tempo
de parada.
O tempo de parada é uma variável aleatória assumindo valores no intervalo [0, ∞].
No instante t quando observa-se uma realização para o tempo de parada escrevemos
que t? = t. Isto significa que a variável aleatória t? assume o valor t de um instante de
tempo do intervalo [0, ∞].
Considere um derivativo do tipo Americano cujo ativo subjacente é um processo es-

tocástico governado pelo processo Browniano Bt tal que t ∈ [0, T ] e T é data do venci-
mento. Seja Ft a σ-álgebra natural gerada por Bt . Nesta situação em que conhecemos
Ft sabemos dizer se t? ≤ t (houve exercı́cio do derivativo).
Definição 7.4. (Tempo de parada) O tempo de parada é uma variável Ft -mensurável
assumindo valores em [0, ∞] tal que
t? ≤ t para todo t ≥ 0 (7.5)
7.2 Apreçamento do derivativo

Com as definições da seção anterior podemos tratar do apreçamento de derivativos
Americanos. Nesta seção definiremos o derivativo Americano de forma genérica e na
seção seguinte o foco é apreçamento de uma opção de venda.
Definição 7.5. (Preço do derivativo Americano) Seja Xt um processo estocástico
governado por Bt com σ-álgebra natural Ft . Seja Θ o conjunto de todos os tempos de
parada entre t e T e seja θ ∈ Θ. Seja Λ (Xt , t) o preço de um derivativo Americano em
t sobre o ativo subjacente Xt tal que t ∈ [0, T ], então
Λ (Xt , t) = max E Q e−r(θ−t) Λ (Xθ , t, θ) |Ft

(7.6)
θ∈Θ
onde r é a taxa livre de risco admitida como constante em [0, T ].

A definição acima estabelece que para todos os possı́veis tempos de parada, onde o
investidor pode exercer o seu direito, devemos calcular o valor esperado sob Q, do valor
descontatado do derivativo e escolher o maior resultado. Assim, um dos valores de θ
será o tempo de parada t? . Veremos adiante como fazê-lo.
Exercı́cio 7.1. Escreva a equação em (7.6) para uma opção de venda cujo preço em t é
dado por V (Xt , t) e Xt é o processo do ativo subjacente conforme definido nesta seção.
205
Do que vimos até o momento está claro que o apreçamento de uma opção Americana
é mais oneroso que o caso de uma Européia.
Tomemos o caso de uma opção de venda do tipo Européia cujo preço é v (Xt , t) onde
Xt é o ativo subjacente descrito por um processo geométrico Browniano. Do capı́tulo 4
sabemos que v ( ·) deve satisfazer a EDP (4.24) aqui reescrita
∂v ∂v 1 2 2 ∂ 2 v
+ rX + σ X = rv (7.7)
∂t ∂x 2 ∂x2
juntamente com as condições de contorno em (4.26) a (4.28).
Na equação (7.7) o exercı́cio antecipado não é permitido pois trata-se de um opção

Européia. Seja V (Xt , t) o preço de uma opção de venda Americana sobre o mesmo
ativo subjacente. É intuitivo que o investidor que possui o direito de exercı́cio da opção
antes do vencimento atribuirá a este direito mais valor que no caso de uma opção Eu-
ropéia, mantidas as mesmas caracterı́sticas de prazo e preço entre os dois casos. Com
mais direitos envolvidos o seu preço deverá ser maior (V (Xt , t) ≥ v (Xt , t)) e portanto
V (·) não satisfará a EDP (7.7).
Agora vejamos o comportamento de uma opção de venda Européia em um gráfico simi-

lar ao da figura 7.1 e aqui reproduzido. Vemos que há regiões onde v é inferior ao valor
Figura 7.1: Opção de venda para τ = 2, K = 7, r = 5% e σ = 25%
intrı́nseco K − Xt . Considere o caso em que v (Xt , t) < K − Xt e considere também a

possibilidade de exercı́cio antecipado. Logo podemos comprar o ativo subjacente por Xt
e a opção por v (Xt , t) e exercer imediatamente o direito vendendo o ativo subjacente
por K. Então recebemos K e desembolsamos Xt + v resultando em um lucro sem risco
de K − Xt − v (pois por hipótese v é inferior a K − Xt ). Portanto, se há possibilidade
de exercı́cio antecipado V (Xt , t) ≥ K − Xt (usando a notação de maı́sculo para o caso
206
do exercı́cio antecipado ou opção Americana). Ou mais apropriadamente
V (Xt , t) ≥ (K − Xt )+ t ∈ [0, T ] (7.8)
Argumento idêntico pode ser construı́do para o caso de uma opção de compra em que o
ativo subjacente paga dividendos e temos então que
C (Xt , t) ≥ (Xt − K)+ t ∈ [0, T ] (7.9)
Exercı́cio 7.2. Considere que duas opções de compra Americanas diferem somente pela
data de exercı́cio. Apresente argumentos que levem à conclusão de que
C (Xt , t; K, T1 , σ, r) ≥ C (Xt , t; K, T2 , σ, r) (7.10)
onde T1 > T2 .
Exercı́cio 7.3. Considere duas opções de compra Americanas que diferem somente pelo
preço de exercı́cio, mostre que
C (Xt , t; K1 , T, σ, r) ≥ C (Xt , t; K2 , T, σ, r) (7.11)
onde K1 > K2 .
Exercı́cio 7.4. Com base nos exercı́cios 7.2 e 7.3 apresente os argumentos que levem
a conclusão de que o preço de uma ação ordinária é superior ou igual ao de uma opção
de compra Americana perpétua sobre esta ação com preço de exercı́cio zero, isto é
Xt ≥ C (Xt , t; 0, ∞, σ, r) ≥ C (Xt , t; K, T, σ, r) (7.12)
7.3 Apreçamento da opção de venda

Conforme vimos na seção anterior o apreçamento do derivativo Americano mostra-se
mais complexo que o de um Europeu, senão vejamos.
Considere o caso de uma opção de venda Americana V (Xt , t) onde Xt , (t ≥ 0) é o

ativo subjacente, com expiração em T , preço de exercı́cio K e taxa livre de risco cons-
tante r em [0, T ]. Para resolvermos o problema em (7.6) temos primeiramente que tomar
o máximo do valor esperado entre todos os tempos de parada, ou seja
max E Q e−r(θ−t) V (Xθ ) |Ft

(7.13)
θ
Feito isto, precisamos definir se o θ selecionado é realmente o tempo de parada. O valor

escolhido de θ será um tempo de parada t? = θ se for atendida a regra
?
V (Xt? , t? ) ≥ E Q e−r(t−t ) V (Xt , t) Ft? para t > t?

(7.14)
A equação (7.14) estabelece que haverá o exercı́cio antecipado (θ será um tempo de

parada: θ = t? ) quando o valor intrı́nseco do exercı́cio for superior ou igual ao valor
esperado de continuação (ou seja, o de manter viva a opção).
207
Ao aplicarmos os procedimentos especı́ficos descritos em (7.13) e (7.14) definiremos
em um plano Xt versus t duas regiões distintas: (i) em uma delas haverá o exercı́cio e
(ii) na outra não haverá o exercı́cio. Assim a estratégia ótima será da forma
t? = min [u : Xu < LV (Xu , u)] (7.15)

u
onde LV (Xt , t) define a equação da fronteira ótima de exercı́cio para a opção de venda
que separa as duas regiões acima.
Uma vez que conhecemos (ou sabemos determinar) LV (Xt , t) a decisão de exercı́cio
do derivativo Americano fica definida. Exploraremos os conceitos da fronteira ótima na
próxima seção.
Além da fronteira ótima, precisamos saber qual o preço da opção de venda em t = 0,

por exemplo. Imagine que tenhamos um plano Xt versus t e que apliquemos os proced-
imentos acima, resultando na definição do tempo de parada t? . Então o preço da opção
de venda Americana será o valor esperado do valor intrı́nseco em t? , descontado à data
inicial, em outras palavras se t = 0 é a data inicial, temos
?
V0 = E Q e−rt (K − Xt? )

(7.16)
7.4 Fronteira ótima de exercı́cio

Vimos na seção anterior o procedimento para o apreçamento de uma opção de venda
do tipo Americana. Entretanto o procedimento é geral e pode ser aplicado ao caso de
uma opção de compra, fazendo-se as modificações necessárias. Todo o procedimento da
estratégia ótima definida pelas equações (7.13) a (7.15) é denominado de problema de
contorno livre. Esta denominação resulta do fato de não conhecermos a priori a fronteira
ótima de exercı́cio LV (Xt , t). A aplicação destas equações irá definir a fronteira ótima e
possibilitará a definição do preço do derivatio como em (7.16). Esta seção define algumas
propriedades da fronteira ótima de exercı́cio que surgem no problema de contorno livre.
A primeira propriedade foi definida pelas equações (7.8) e (7.9), onde o valor do deriva-
tivo Americano é maior ou igual ao seu valor intrı́nseco. Esta condição foi obtida a
partir da não possibilidade de arbitragem quando existe o exercı́cio antecipado. Quando
prevalece a condição de igualdade significa que o derivativo Americano deve ser exercido.
Quando prevalece a desigualdade, não há o exercı́cio e a EDP de BMS é satisfeita.
Então outra forma de expressar este fato é considerar uma desigualdade na equação
de BMS, isto é
∂V ∂V 1 ∂ 2V
+ rx + σ 2 x2 2 − rV ≤ 0 (7.17)
∂t ∂x 2 ∂x
Para o caso de uma opção de venda na situação (ou região) de não exercı́cio vale a
igualdade em (7.17) e escrevemos
∂V ∂V 1 ∂ 2V
+ rx + σ 2 x2 2 − rV = 0 (7.18)
∂t ∂x 2 ∂x
208
V (Xt , t) > (K − Xt )+ (7.19)
Na situação em que há exercı́cio
V (Xt , t) = K − Xt (7.20)
E além disto vale a desigualdade estrita na equação (7.17), ou seja
∂V ∂V 1 ∂ 2V
+ rx + σ 2 x2 2 − rV < 0 (7.21)
∂t ∂x 2 ∂x
Usando a condição de (7.20) na equação (7.21) (e considerando que Xt < K) observamos
que o primeiro membro desta última será igual a −rK, consequentemente escrevemos
∂V ∂V 1 ∂ 2V
+ rx + σ 2 x2 2 − rV = −rK < 0 (7.22)
∂t ∂x 2 ∂x
Em um plano Xt versus t (veja a figura 7.3) observamos as duas regiões distintas onde
é vantajoso o exercı́cio da opção de venda (equações (7.22) e (7.20)) e a outra região
onde é vantajoso manter viva a opção (não exercê-la) (equações (7.18) e (7.19)).
Agora vamos investigar o comportamento de V (·) com relação ao preço do ativo sub-
jacente Xt . Portanto considere um plano de V (·) versus Xt . Neste plano temos uma
o
reta com inclinação de 45 representando o valor intrı́nseco. Uma questão a observar é
a inclinação da solução ótima em relação a função valor intrı́nseco V (Xt , t) = K − Xt .
Nos pontos da fronteira ótima de exercı́cio ∂V ∂x
= −1. Veja na figura 7.2 a função valor
intrı́nseco. Observe agora a curva (a) onde notamos que ocorrem situações em que
∂V
∂x
< −1. Note que estes casos são incompatı́veis com a ausência de arbitragem, senão
Figura 7.2: Transição suave na curva (b) compatı́vel com a aus encia de arbitragem
vejamos. Quando Xt aumenta a partir da insterseção com a reta do valor intrı́nseco,

o valor da opção é inferior a este último (veja na curva (a)). E isto está em desacordo
com a condição em (7.8) em que V (·) ≥ (K − Xt )+ . Um argumento similar é obtido
209
se imaginarmos o caso sem que ∂V
∂x
> −1. Resta portanto a condição em que ∂V ∂x
= −1
como mostrado na curva (b). Esta condição, que expressa a derivada da solução ótima
V (·) no ponto de contato com a função valor intrı́nseco, é denominada de transição
suave. Temos portanto que
∂V (Xt , t)
= −1 (7.23)
∂x

x = fronteira
onde x = fronteira significa todos os pontos pertencentes a fronteira LV (Xt , t). Assim
V (Xt , t) e ∂V (X
∂x
t ,t)
são ambas contı́nuas ao longo da fronteira.
Podemos sintetizar o que foi visto nesta seção com o gráfico onde esquematizamos no
plano Xt versus t o esboço da fronteira ótima de exercı́cio. Enfatizamos que não há
solução analı́tica para determinarmos LV (Xt , t). A figura 7.3 mostra a fronteira ótima
de exercı́cio. Para Xt ≥ LV (Xt , t) temos a região onde não há exercı́cio e onde a
Figura 7.3: Fronteira ótima de exercı́cio para uma opção de venda Americana
manutenção da opção viva é melhor que exercê-la. Nela são válidas as equações (7.18)
e (7.19). Para Xt ≤ LV (Xt , t), temos o caso em que é vantajoso o exercı́cio antecipado.
Nesta região são válidas as equações (7.20) e (7.22). Além disso, a condição de transição
suave é válida ao longo da fronteira ótima de exercı́cio. Podemos expressá-la para pontos
acima e abaixo de LV (Xt , t) escrevendo
∂V (Xt , t) ∂V (Xt , t)
+= − = −1 (7.24)
∂x x ∂x x
A transição suave não é válida em t = T . Neste instante na região superior (onde não
há exercı́cio) temos V (XT , T ) = 0. Na região inferior onde há o exercı́cio V (XT , T ) =
K − XT , que é o mesmo valor da opção Européia no vencimento. Isto implica que em
t = T , temos
∂V (XT , T ) ∂V (XT , T )
+=0 e − = −1 (7.25)
∂x x ∂x x
210
Ainda temos que quando o preço do ativo subjacente tende a zero, o valor da opção de
venda tende a K, isto é
lim V (Xt , t) = K 0≤t≤T (7.26)

Xt →0
Da mesma forma, se o preço do ativo subjacente cresce indefinidamente, a opção de

venda não tem nenhum valor
lim V (Xt , t) = 0 0≤t≤T (7.27)

Xt →∞
O preço da opção de venda V (Xt , t) pode ser obtido numericamente com o uso
(i) da equação (7.18) para Xt ≥ L (Xt , t),
(ii) da equação (7.20) para Xt ≤ L (Xt , t),
(iii) das equações de transição suave (7.24), e
(iv) da condição terminal definida pela equação V (XT , T ) = (K − XT )+
Ao se definir os valores de V (Xt , t) simultaneamente obtem-se a fronteira ótima de ex-

ercı́cio LV (Xt , t).
Se o domı́nio da EDP (7.18) fosse conhecido, apenas a condição de contorno (7.20)

seria necessária. No entanto o domı́nio não é conhecido e faz-se necessária mais uma
condição de contorno (equação (7.24)) para que o problema seja resolvido. Implı́cita
nesta argumentação está o uso da condição terminal.
7.5 Soluções Numéricas

Vimos, nas seções anteriores, que o preço de um derivativo, que tenha possibilidade
de exercı́cio antecipado, não possui solução analı́tica. A sua determinção deverá ser
estabelecida por procedimentos numéricos, conforme mencionado nas seções anteriores.
Existem vários métodos para tal, como por exemplo árvores binomiais, Monte-Carlo,
diferenças finitas, aproximações numéricas, dentre outros. Este texto não tem como
objetivo discorrer sobre métodos numéricos em finanças. Existem várias obras dedicadas
exclusivamente a este tópico. Não obstante, reservamos uma seção para introduzir os
conceitos do método binomial dada a sua importância e popularidade em finanças. Já
mencionamos várias referências que tratam de procedimentos numéricos relacionados a
economia e finanças. Aqui enfatizamos novamente tais textos: Hull (2000) [53], Wilmott,
Howison e Dewynne (1995) [101], Brandimarte (2003) [13], Glasserman (2003) [41],
Jäckel (2002) [57], McLeish (2005) [71], Judd (1998) [60], Duffy (2006) [29], e Huynh,
Lai e Soumare (2008) [55].
7.5.1 Método binomial

O método binomial, ou simplesmente árvore binomial, consiste na consideração de que
o movimento do preço de um tı́tulo entre os instantes t e t + ∆t será representado por
211
dois estados da natureza. Em geral considera-se que o primeiro estado representa uma
valorização do tı́tulo e o segundo uma desvalorização, ou seja, movimentos ascendente
e descendente do preço, respectivamente. Trata-se de um importante e popular método
em finanças onde a modelagem é simples e os resultados satisfatórios. Tem largo uso
didático e prático e há vários textos e capı́tulos de livros dedicados ao método binomial.
Além dos clássicos textos de finanças já referenciados, vale ressaltar o livro Shreve(2004)
[95] dedicado aos modelos de finanças, integralmente com o uso do método binomial.
Vamos considerar que em t o preço do tı́tulo seja Xt . Neste mesmo instante um deriva-
tivo Europeu sobre este tı́tulo tem preço Λt . Admitamos que o movimento de alta do
u
tı́tulo leve-o, em t + ∆t, ao preço Xt+∆t = uXt , onde u > 1. Da mesma forma para o
d
movimento de baixa temos Xt+∆t = dXt , onde d < 1. Consideremos também que p e
1 − p são as probabilidades de alta e baixa de Xt , respectivamente. Nos movimentos de
alta e de baixa os preços do derivativo serão Λut+∆t e Λdt+∆t , respectivamente.
Vamos montar um portfólio formado pela compra de ∆ tı́tulos e a venda de um unidade

do derivativo Europeu. Trata-se do mesmo portfólio usado na seção 4.2 para derivação
da EDP do modelo de Black e Scholes (1973). Então temos que o valor do portfólio em
t é Πt = ∆Xt − Λt .
Quando o tı́tulo subir teremos Πut+∆t = ∆Xt+∆t u

− Λut+∆t e da mesma forma quando
d d d
cair Πt+∆t = ∆Xt+∆t − Λt+∆t . O portfólio será livre de risco se para os movimentos de
alta e baixa o seu valor for o mesmo, isto é, Πut+∆t = Πdt+∆t . Nesta situação podemos
escrever
u
∆Xt+∆t − Λut+∆ = ∆Xt+∆t
d
− Λdt+∆t
∆uXt − Λut+∆t = ∆dXt − Λdt+∆t
Λut+∆t − Λdt+∆t
∆= (7.28)
uXt − dXt
O valor de ∆ na equação (7.28) tem o mesmo significado que aquele da equação (4.9).
Ou seja, significa a variação do preço do derivativo pela variação do preço do ativo
subjacente no instante t + ∆t.
O valor em t deste portfólio será
Πt = ∆uXt − Λut+∆t e−r∆t

(7.29)
onde r é a taxa livre de risco entre os instantes de tempo. Note que estamos supondo a
ausência de arbitragem e neste caso a taxa de desconto deverá ser a taxa livre de risco.
Então podemos escrever que
Πt = ∆Xt − Λt = ∆uXt − Λut+∆t e−r∆t

(7.30)
Enfatizamos que ao igualar o portfólio formado em t com o valor do portfólio em t + ∆t

descontado, estamos considerando a ausência da possibilidade de arbitragem. O preço
do derivativo será
Λt = ∆Xt − ∆uXt − Λut+∆t e−r∆t

(7.31)
212
Inserindo o valor de ∆ obtido na equação (7.28) na equação (7.31), resulta que
Λt = qΛut+∆t + (1 − q) Λdt+∆t e−r∆t

(7.32)
onde
er∆t − d
q= (7.33)
u−d
A equação (7.32) estabelece o preço do derivativo em t. Note que é uma ponderação
dos valores Λut+∆t e Λdt+∆t pelas quantidades q e 1 − q. De fato, q e 1 − q represntam
as probabilidades na medida neutra ao risco. A equação (7.32) é o valor esperado neste
medida dos prováveis preços do derivativo nos dois estados da natureza.
Portanto temos que p e 1 − p são as probabilidades de alta e baixa entre t e t + ∆t,

respectivamente. Estas são as medidas históricas, fı́sicas ou reais de evolução dos preços
entre os dois instantes. Os valores de q e 1 − q representam as probabilidades entre
estes mesmos instantes em uma situação de neutralidade ao risco. Podemos escrever a
equação (7.32) conforme fizemos anteriormente quando usamos os conceitos de finanças
em tempo contı́nuo
Λt = E Q e−r∆t Λt+∆t |Ft

(7.34)
onde Q representa o valor esperado sob a MME.
Podemos também escrever que
E P (Xt+∆t |Ft ) = pXt+∆t

u d
+ (1 − p) Xt+∆t (7.35)
onde P representa a medida real de probabilidade.
Exercı́cio 7.5. Considere as definições apresentadas nesta seção. Seja p e 1 − p as

probabildades de aumento e queda do preço do tı́tulo Xt , respectivamente, entre os in-
stantes t e t + ∆t. O que ocorre com o preço do derivativo Λt quando aumentamos ou
diminuimos o valor de p?
Exercı́cio 7.6. Calcule o valor esperado de Xt+∆t na MME, isto é E Q (Xt+∆t |Ft ).
Vamos considerar a situação com um perı́odo de tempo adicional. Agora o tı́tulo Xt

u d
pode evoluir no primeiro intervalo de tempo para Xt+∆t ou Xt+∆t . Evoluindo mais um
intervalo de tempo o preço pode, em cada estado, subir ou cair resultando na árvore
binomial mostrada na figura 7.4. A evolução do preço do derivativo está representado
na figura 7.5. Se um derivativo Europeu tem o seu vencimento em T = t + 2∆t então
sabemos o seu valor no vencimento. Usando a equação (7.34) podemos calcular o seu
preço no momento que antecede o vencimento, isto é
−r∆t
Λut+∆t = qΛuu ud

t+2∆t + (1 − q) Λt+2∆t e (7.36)
−r∆t
Λdt+2∆t = qΛud dd

t+2∆t + (1 − q) Λt+2∆t e (7.37)
onde q é dado pela equação (7.33). Procedendo de modo similar chegamos ao valor de
Λt
Λt = qΛut+∆t + (1 − q) Λdt+∆t e−r∆t

(7.38)
213
Figura 7.4: Árvore binomial com 2 perı́odos e 3 estados terminais
onde Λut+∆t e Λdt+∆t foram calculados em (7.36) e (7.37), respectivamente. Inserindo

estas equações em (7.38), temos
2 dd −2r∆t
Λt = q 2 Λuu ud

t+2∆t + 2q (1 − q) Λt+2∆t + (1 − q) Λt+2∆ e (7.39)
O caso anterior era de uma árvore binomial com dois instantes de tempo t+∆t e t+2∆t.
Nesta situação o número de estados da natureza no vencimento (T = t+2∆t) é três (veja
figura 7.4). Para o caso em que temos M perı́odos, o vencimento será em T = t + M ∆t
e teremos M + 1 estados da natureza nesta data. Em um instante ti = t + i∆t temos
simultaneamente i + 1 nós (ou estados) representativos do preço do ativo subjacente.
Assim podemos escrever que os preços neste instante são
Xt+i∆t = di−j uj Xt 0≤j≤i (7.40)
onde j representa os estados da natureza. Assim para i = 2, os valores de Xt+2∆t serão
(i) j = 0 ⇒ d2−0 u0 Xt = d2 Xt
(ii) j = 1 ⇒ d2−1 u1 Xt = duXt
(iii) j = 2 ⇒ d2−2 u2 Xt = u2 Xt
Esta árvore está representada na figura 7.4. Em uma árvore com M perı́odos o valor
do derivativo Europeu no vencimento é uma função do preço do ativo subjacente no
vencimento
Λt+M ∆t = h (Xt+M ∆t ) (7.41)
onde h (·) representa a função que fornece o valor no vencimento. No caso de uma
opção de compra temos h (Xt+M ∆t ) = Xt+M ∆t − K onde K é o preço de exercı́cio.
214
Figura 7.5: Árvore binomial com os preços do derivativo em cada nó
De forma similar para a opção de venda o valor será h (Xt+M ∆t ) = K − Xt+M ∆t . A

figura 7.6 apresenta simplificadamente uma árvore binomial com M perı́odos. O valor
do derivativo Europeu em um instante ti desta árvore é dado pelo valor esperados dos
nós subsequentes sob a medida Q. Então escrevemos
h i
Λjt+i∆t = qΛj+1
t+(i+1)∆t + (1 − q) Λj
t+(i+1)∆t e
−r∆t
0 ≤ j ≤ i e 0 ≤ i ≤ M − 1 (7.42)
onde j representa os estados de alta e baixa subsequentes ao tempo ti = t+i∆t. Variando

j (0 ≤ j ≤ i) e i (0 ≤ i ≤ M − 1) chega-se ao valor do derivativo Europeu em t. Por
exemplo o valor de Λ1t+∆t , na árvore da figura 7.6 é dado por
Λ1t+∆t = qΛ2t+∆t + (1 − q) Λ1t+∆t e−r∆t

Para que o processo descrito pelos preços do ativo subjacente, no modelo binomial, seja
aderente ao processo geométrico Browniano, devemos ajustar adequadamente os valores
de u e d. No restante desta subseção nos dedicaremos a esta tarefa. Assim temos que o
processo geométrico Browninao escrito na medida real é dado por
1 2
Xt+∆t = Xt e(µ− 2 σ )∆t+σBt+∆t (7.43)
O valor esperado é
E P (Xt+∆t |Ft ) = Xt eµ∆t (7.44)
Este resultado deve ser idêntico ao da equação (7.35), ou seja
Xt eµ∆t = pXt+∆t
u d
+ (1 − p) Xt+∆t
= puXt + (1 − p) dXt
que resulta em
eµ∆t − d
p= (7.45)
u−d
215
Figura 7.6: Árvore binomial com M perı́odos e M + 1 nós no vencimento
onde p representa a probabilidade real para um movimento de alta.
No processo geométrico Browniano
dXt
= µdt + σdBt (7.46)
Xt
onde o primeiro membro representa o retorno dos preços do ativo subjacente entre t e
t + ∆t. Calculando as variâncias dos retornos temos

P Xt+∆t − Xt
V ar |Ft = σ 2 ∆t (7.47)
Xt
A variância dos retornos no modelo binomial entre t e t + ∆t é

Xt+∆t − Xt
V ar P
|Ft = pu2 + (1 − p) d2 − [pu + (1 − p) d]2 (7.48)
Xt
Igualando as equações (7.47) e (7.48) para adequar a volatilidade do modelo binomial à

volatilidade do processo geométrico Browniano, temos
pu2 + (1 − p) d2 − [pu + (1 − p) d]2 = σ 2 ∆t (7.49)
Usando a equação (7.45) na equação (7.49) resulta em
eµ∆t + (1 − p) d2 − ud − e2µ∆t − σ 2 ∆t = 0 (7.50)
O primeiro estudo da adequação do modelo binomial ao processo geométrico Browniano

foi realizado por Cox, Ross e Rubinstein (1979) [24]. Devido a sua popularidade este
modelo ficou conhecido como modelo binomial de CRR, referente às iniciais dos autores.
216
Neste estudo CRR desprezaram os termos de ordem superior a dois para o tempo, isto é
(∆t)2 ≈ 0. Também consideraram que u = d1 . Assim a equação (7.50) tem como solução
√
u = eσ ∆t
(7.51)
√
d = e−σ ∆t
(7.52)
Subsequentemente a este pioneiro trabalho outros autores apresentaram propostas para
a calibragem de u e d. O Apêndice deste capı́tulo contém os detalhes da calibragem do
modelo binomial de CRR.
Exercı́cio 7.7. Escreva

a variãncia
dos retornos de Xt entre t e t + ∆t na medida
Q Xt+∆t −Xt
MME, isto é V ar Xt
|Ft .
Exercı́cio 7.8. Considere o modelo binomial de CRR com dois perı́odos: t e t + ∆t.
Seja Xt o preço do ativo subjacente e ct o preço da opção de compra Européia com
preço de exercı́cio K. Os movimentos de alta e baixa do ativo subjacente são obtidos
com os fatores u e d. Considere que a taxa livre de risco seja zero. Calcule o preço da
opção de venda para o mesmo preço de exercı́cio. Verifique se o resultado encontrado
está de acordo com a paridade entre opções de compra e venda Européia definida pela
equação (4.2).
Exercı́cio 7.9. Seja o modelo binomial de CRR com n perı́odos e vencimento em T =

t + n∆t. A probabilidade de alta do ativo subjacente Xt é p. Calcule: (i) a probabilidade
de exercı́cio de uma opção de compra Européia com preço de exercı́cio K sobre tal ativo,
(ii) a probabilidade de exercı́cio da opção de venda Européia nas mesmas condições.
7.5.2 Derivativos Americanos e Bermudianos

Considere a árvore apresentada na figura 7.6. Para avaliação do derivativo Ameri-
cano/Bermudiano o procedimento segue a mesma ordem dos eventos que no caso do
derivativo Europeu. Isto é, iniciamos do final da árvore (data do vencimento) para o
inı́cio. No vencimento o valor do derivativo Americano é idêntico ao do Europeu. Em
qualquer instante ti anterior ao vencimento temos ti = t + i∆t onde i ≤ M − 1. Nestes
casos devemos computar a equação (7.42) e comparar com o valor intrı́nseco dado pela
função h (·). Em cada instante ti a opção Americana vale o maior entre os dois valores.
Assim temos
h i
j j+1 j −r∆t
Λt+i∆t = max h (Xt+i∆t ) , qΛt+(i+1)∆t + (1 − q) Λt+(i+1)∆t e
0≤j≤i 0≤i≤M −1 (7.53)
O primeiro argumento entre colchetes é o valor intrı́nseco de exercı́cio. O segundo ar-

gumento é o valor esperado de continuação atualizado para a data ti . Fazendo variar
j e i nas equações (7.40) e (7.41) e simultaneamente aplicando a condição de máximo
definida na equação (7.53) chegaremos ao preço do derivativo Americano Λt .
Agora vejamos como definir a fronteira ótima de exercı́cio LV (Xt , t). Abaixo seguem as
etapas:
217
(i) definimos a partir de t a árvore de preços usando a equação (7.40) e um valor
inicial Xt ,
(ii) usamos a equação (7.41) para definir o valor do derivativo no vencimento,
(iii) procedemos o cálculo da opção Americana usando a equação (7.53),
(iv) repetimos todo o procedimento anterior para outro valor inicial Xt .
Se estivermos determinando a fronteira ótima para uma opção de venda Americana

(LV (·)) como na figura 7.3, devemos, em cada instante ti = t + i∆t, 0 ≤ i ≤ M − 1,
tomar o menor valor de Xti para o qual o valor esperado de continuação supera o valor
intrı́nseco. Procedendo desta forma para todos os ti , definimos a fronteira LV (Xti , ti ).
No caso de uma opção de compra Americana a fronteira LC (Xt , t) será obtida a partir
de cada ti , tomando o maior valor de Xti para o qual o valor esperado de continuação
supera o valor intrı́nseco.
O apreçamento de um derivativo Americano sobre um ativo subjacente que paga divi-

dendos deve ser procedido da mesma forma apresentada acima, apenas levando-se em
consideração que a árvore binomial dos preços de Xt+i∆t terá a influência de um redutor
(1 − α) referente a taxa de dividendos α a partir da data de pagamento dos mesmos.
Os derivativos com possibilidade de exercı́cio antecipado podem ser apreçados numeri-

camente através do método de simulação de Monte-Carlo. O leitor encontrará em Car-
riere (1996) [21], Tsitsiklis e Van Roy (2001) [99] e Longstaff e Schwartz (2001) [67]
detalhes sobre tais procedimentos. Esta última referência, que tornou-se popular, re-
cebeu a denominação de Mı́nimos Quadrados Monte-Carlo, ou LSM. Os autores usam
as informações dos preços simulados para o cálculo do valor esperado de continuação.
Este é obtido por uma regressão (MQO) dos fluxos de caixa subsequentes, no caso
de não exercı́cio da opção, versus o preço do ativo subjacente, avaliado por diferentes
funções (polinômios clássicos, de Legendre, de Hermite, de Laguerre, etc). Os métodos
de apreçamento por simulação de Monte-Carlo, em geral, demandam um grande tempo
computacional. Entretanto, são particularmente interessantes para o apreçamento de
derivativos Americanos/Bermudianos onde estejam presentes mais de uma fonte de in-
certeza (como por exemplo modelos de mais de um fator).
As aproximações numéricas são úteis para o apreçamento como uma alternativa aos
procedimentos numéricos. Referenciamos as aproximações quadráticas abordadas em
MaCMillan (1986) [69] e Barone-Adesi e Whaley (1987) [4]. Maiores detalhes podem
ser encontrado nas referências mencionadas no inı́cio da seção.
7.6 Propriedades das opções

Nesta seção iremos apresentar algumas propriedades das opções Americanas. O conteúdo
desta seção é útil para estabelecer limites para o preço da opção Americana compar-
ativamente ao preço da opção Européia e ao preço do ativo subjacente. Desta forma,
218
as metodologias numéricas, quando corretamente formuladas, devem fornecer resulta-
dos coerentes com os resultados até então definidos neste capı́tulo incluindo os que se
seguem.
Proposição 7.1. Uma opção de compra Americana sobre uma ação que não paga div-
idendos nunca será exercida antes do vencimento.
Prova. Considere a formação de dois portfólios A e B. O portfólio A é composto de

uma opção de compra Européia que na data t tem preço c (Xt , t; K, T, σ, r), (que por
simplicidade de notação será escrita como c (Xt , t; K, T )) e por K tı́tulos de renda fixa
que valem Ke−r(T −t) ou Ke−rτ , onde T é o vencimento e τ = T − t. O portfólio B
é composto de uma ação Xt . A tabela 7.1 abaixo mostra os valores dos porftólios na
data atual t e no vencimento T . Observe que não há fluxos de dividendos no portfólio
Tabela 7.1: Valores dos portfólios A e B na data atual e no vencimento

Portfólio Valor atual Valor no vencimento
XT < K XT > K
A c (Xt , t; K, T ) + Ke−rτ 0+K (XT − K) + K
B Xt XT XT
B. No vencimento, quando XT < K, o portfólio A vale a mais que B. Similarmente,

quando XT > K os dois portfólios tem o mesmo valor. Se o valor do portfólio A é maior
ou igual ao de B em qualquer estado da natureza na data do vencimento, então para
evitar a possibilidade de arbitragem, deverá apresentar a mesma forma de dominância
em qualquer anterior a T . Desta forma escreve-se
c (Xt , t; K, T ) + Ke−rT ≥ Xt (7.54)
A equação (7.54) pode ser escrita por

+
c (Xt , t; K, T ) ≥ Xt − Ke−rτ (7.55)
Podemos ainda escrever que

+
C (Xt , t; K, T ) ≥ c (Xt , t; K, T ) ≥ Xt − Ke−rτ (7.56)
Note que se exercida em t, uma opção de compra Americana vale (Xt − K)+ que é menor
+
que (Xt − Ke−rτ ) . Desta forma, o proprietário da opção Americana prefere vendê-la
a exercê-la. Isto permite concluir que na ausência de dividendos uma opção de compra
Americana nunca será exercida antes do vencimento e portanto seu preço será igual ao
de uma Européia.
Esta propriedade tem aplicação imediata pois sabemos que o apreçamento da opção
de compra Européia é feito com o uso de uma fórmula fechada de BMS.
Proposição 7.2. Uma opção Americana perpétua sobre uma ação ordinária que não
paga dividendos deve valer tanto quanto esta ação.
219
Prova. Da equação (7.56) temos que
+
C (Xt , t; K, T ) ≥ Xt − Ke−rτ (7.57)
Para uma opção perpétua T = ∞, ou seja, τ = ∞ (τ = T − t). Logo, Ke−rτ = 0 e então
C (Xt , t; K, T ) ≥ Xt (7.58)
Por outro lado da equação (7.12) temos que
Xt ≥ C (Xt , t; K, ∞) (7.59)
Das equações (7.58) e (7.59) concluı́mos
Xt = C (Xt , t; K, ∞) (7.60)
Proposição 7.3. O preço de uma opção de compra Americana é uma função convexa
do preço de exercı́cio. Se K2 = λK1 + (1 − λ) K3 , onde K1 ≥ K2 ≥ K3 e 0 ≤ λ ≤ 1,
então
C (Xt , t; K2 ) ≤ λC (Xt , t; K1 ) + (1 − λ) C (Xt , t; K3 ) (7.61)
Tabela 7.2: Valores dos portfólios A e B na data atual e no vencimento

Portfólio Valor atual Valor no vencimento
XT ≤ K3 K3 < XT < K2 K2 < XT < K1 XT ≥ K1
A λC (·; K1 ) + 0+ 0+ 0+ λ (XT − K1 ) +
κC (·; K3 ) 0 κ (XT − K3 ) κ (XT − K3 ) κ (XT − K3 )
B C (·; K2 ) 0 0 XT − K2 XT − K2
Prova. Considere dois portfólios A e B. O portfólio A contém λ opções de compra com

preço de exercı́cio K1 e (1 − λ) opções de compra com preço de exercı́cio K3 . O portfólio
B contém uma opção de compra com preço de exercı́cio K2 . A tabela 7.2 mostra os
valores atual e no vencimento de cada portfólio (usamos a denominação κ = 1 − λ). No
vencimento, em todos os estados da natureza dos preços XT , relativamente aos preços de
exercı́cios K1 , K2 e K3 , o valor do portfólio A é maior ou igual ao de B. Portanto, para
que não haja arbitragem, na data t deve prevalecer a mesma dominância do vencimento
e portanto vale a relação em (7.61).
Exercı́cio 7.10. Considere uma opção de compra Americana sobre uma ação que paga
dividendos. Mostre que é possı́vel que haja exercı́cio da opção antes do vencimento.
220
Este capı́tulo analisou os conceitos relevantes para o apreçamento de derivativos com
possibilidade de exercı́cio antecipado. A maior parte dos conceitos foram desenvolvidos
usando o caso de uma opção de venda Americana. Neste contexto foi apresentado o
conceito de tempo de parada e a sua importância para definir o preço do derivativo
Americano. Sabemos que a ausência de uma solução fechada para o preço do derivativo
Americano é um obstáculo para o seu apreçamento imediato. Por esta razão os conceitos
deste capı́tulo são necessários para o desenvolvimento de algorı́tmos que tenham por
finalidade tal apreçamento. O proprietário de uma opção Americana deve ser ativo
durante todo o tempo de maturação do derivativo. Ser ativo, neste caso, significa
que deve estar continuamente avaliando o ganho do exercı́cio imediato contra o valor
esperado de continuação (ou de manter viva a opção). Ao aplicarmos continuamente
este conceito desenvolvemos uma estratégia ótima de tal forma que definimos o tempo
de parada por
t? = min [u : Xu < L (Xu , u)] (7.62)
u
A fronteira ótima LV (Xt , t) é definida, neste caso, pelo menor preço que torna o valor
de continuação superior ao valor da opção quando exercida (opção de venda). Na região
de continuação vale a equação de BMS e o valor da opção é superior ao valor intrı́nseco.
Na região em que é favorável o exercı́cio o preço da opção é dado pelo valor intrı́nseco e
prevalece uma desigualdade estrita na equação de BMS. Foi mostrado que sob o argu-
mento de não arbitragem a derivada ∂V ∂x
ao longo da fronteira ótima de exercı́cio é tal
∂V ∂V
que ∂x + = ∂x−
= −1. Esta condição é denominada transição sauve. Isto significa que,
no ponto ótimo de exercı́cio, a taxa de variação do preço da opção em relação ao preço
do ativo é idêntico para pontos imediatamente acima e abaixo da fronteira.
A definição das fronteira LV (·) e LC (·) é feita numericamente e simultaneamente ao

apreçamento da opção Americana. Por esta razão o problema de apreçamento de uma
opção Americana é um problema de fronteira livre.
Em geral, no apreçamento, são utilizadas metodologias como método de Monte-Carlo,

diferenças finitas, método binomial, etc. Neste texto dedicamos atenção ao método
binomial dada a sua importância em finanças. A calibragem do método binomial ao
ambiente do modelo de BMS (processo geométrico Browniano) foi explorada sob a ótica
do modelo de Cox, Ross e Rubinstein (1979) [24]. Sugerimos aos leitores interessdos
na metodologia de apreçamento por Monte-Carlo que consultem a referência relativa
ao método LSM em Longstaff e Schwartz (2001) [67]. Finalizamos o capı́tulo apresen-
tando algumas propriedades úteis para o apreçamento que foram demonstradas sob o
argumento de não arbitragem entre um instante t (antes do vencimento) e a data de
maturação T .
7.8 Apêndice - Método binomial de CRR

Este Apêndice apresenta os detalhes da calibração dos parâmetros com o processo log-
normal dos preços do ativo subjacente, conforme Cox, Ross e Rubinstein (1979) [24].
221
Para simplificar a notação vamos considerar a data de vencimento t = T e a data inicial
T
será t = 0. Cada incremento de tempo ∆t do processo binomial será ∆t = M .
Em primeiro lugar e processo geométrico Browniano em tempo contı́nuo e a respec-

tiva solução da EDP são
dXt
= µdt + σdBt (7.63)
Xt
1 2
Xt = xe(µ− 2 σ )t+σBt x = X0 (7.64)
Sabemos que estas mesmas equações escritas na MME são dadas por
dXt
= rdt + σdB̃t (7.65)
Xt
1 2
Xt = xe(r− 2 σ )t+σB̃t x = X0 (7.66)
Escrevendo as equações (7.64) e (7.66) em termos do logaritmo neperiano, temos

Xt 1 2
ln = µ − σ t + σBt (7.67)
x 2

Xt 1 2
ln = r − σ t + σ B̃t (7.68)
x 2
Os valores esperados incondicionais de (7.67) e (7.68) são

P Xt 1 2
E = ln = µ− σ t (7.69)
x 2

Q Xt 1 2
E = ln = r− σ t (7.70)
x 2
As variâncias incondicionais são idênticas e dadas por

P Xt Q Xt
V ar ln = V ar ln = σ2t (7.71)
x x
Agora discretizando o processo em intervalos de tempo iguais a ∆t, observamos que

após n intervalos, temos t = n∆t. As equações (7.69), (7.70) e (7.71) tornam-se

P Xt 1 2
E = ln = µ − σ n∆t (7.72)
x 2

Q Xt 1 2
E = ln = r − σ n∆t (7.73)
x 2

P Xt Q Xt
V ar ln = V ar ln = σ 2 n∆t (7.74)
x x
Estas equações acima definem o processo estocástico e os seus dois primeiros momentos
da variável Xt que representa o preço do ativo subjacente no ambiente Gaussiano do
modelo de BMS.
222
Para manter a coerência da resposta do modelo binomial com a modelagem de BMS,
necessitamos calibrar os parâmetros u e d para que os dois primeiros momentos sejam
os mesmos nos dois casos. Vamos agora nos reportar ao modelo binomial.
Seja Z a variável aleatória associada aos movimentos de alta e baixa dos preços no
modelo binomial. Se o preço sobe entre (i − 1) ∆t e i∆t temos que Zi = 1. Se o preço
cai neste mesmo intervalo Zi = 0. Isto significa Zi = 1 com probabilidade p e Zi = 0
com probabilidade 1 − p. Entre os instantes i∆t e (i + 1) ∆t a situação repete-se e os
movimentos são independentes daqueles do intervalo anterior. Em outras palavras, Z é
uma variável aleatória que tem distribuição de Bernoulli com parâmetro p (veja seção
n intervalos de tempo temos t = n∆t e o preço teve ni=1 Zi movimentos de
P
1.3). Após P
alta e n − ni=1 movimentos de baixa. Então o preço Xt será
Pn
Zi n− n
P
Xt = xu i=1 d i=1 Zi
Trabalhando a expressão acima, temos

n
Xt u X
ln = n ln d + ln Zi (7.75)
x d i=1
Calculando o valor incondicional de (7.75), temos

" n
#
Xt u X
E P ln = E n ln d + ln Zi
x d i=1
n
!
X
= n ln d + (ln u − ln d) E Zi
i=1
= n ln d + (ln u − ln d) np
= np ln u + n (1 − p) ln d (7.76)
Xt

A distribuição de ln x
para grandes valores de n será próxima de uma distribuição
d
normal. Isto porque limn→∞ ni=1 Zi = N (·). Este resultado é devido ao Teorema Cen-
P
tral do Limite (veja o teorema 1.4). Ou seja, o mundo em que o ativo tem movimentos
de alta e/ou baixa (distribuição binomial) tenderá a uma distribuição normal para os
log-retornos quando n é grande. Por esta razão impomos a condição dos dois primeiros
momentos serem os mesmos daqueles do modelo de BMS.
Assim igualamos as equações (7.76) e (7.72)

1 2
np ln u + n (1 − p) ln d = µ − σ n∆t
2

1 2
p ln u + (1 − p) ln d = µ − σ ∆t
2
p ln u + (1 − p) ln d = µ? ∆t (7.77)
onde µ? = µ − 12 σ 2 .
223
Sob a condição de neutralidade ao risco a equação (7.77) será
q ln u + (1 − q) ln d = µ?N ∆t (7.78)
onde µ? = r − 21 σ 2 .
Xt

Calculando a variância incondicional de ln na equação (7.75), temos
x
" n
#
Xt u X
V arP ln = V arP n ln d + ln Zi
x d i=1
n
!
h u i2 X
= ln V arP Zi
d i=1
h u i2
= ln np (1 − p) (7.79)
d
Igualando as equações (7.79) e (7.74), temos
h u i2
ln np (1 − p) = σ 2 n∆t
d
h u i2
p (1 − p) ln = σ 2 ∆t (7.80)
d
Na condição de neutralidade ao risco a variância não é afetada.
Mencionamos anteriormente que no modelo de CRR havia a consideração de que u = d1 ,

então ln u = − ln d. Este resultado levado na equação (7.77) resulta em
p ln u + (1 − p) (− ln u) = µ? ∆t
2p ln u = µ? ∆t + ln u
1 µ?
p= + (7.81)
2 2 ln u
Observando a equação (7.80) vemos que para calcular a variância devemos computar
p (1 − p). Faremos isto com o resultado da equação (7.81), então
1 µ? ∆t 1 µ? ∆t

p (1 − p) = + −
2 2 ln u 2 2 ln u
2
1 1 µ? ∆t

= − (7.82)
4 4 ln u
Também devemos computar ln ud . Assim temos

u
ln = 2 ln u (7.83)
d
Usando os resultados de (7.82) e (7.83) na equação (7.80), temos
" 2 #
1 1 µ∗ ∆t

− (2 ln u)2 = σ 2 ∆t (7.84)
4 4 ln u
224
Os autores consideraram que as potências de ∆t maiores ou iguais da dois são aproxi-
mandamente zero (desprezı́veis), logo resulta em
(ln u)2 = σ 2 ∆t
√
ln u = σ ∆t
√
u = eσ ∆t
(7.85)
Consequentemente √
d = e−σ ∆t
(7.86)
Usando o resultado de (7.85) na equação (7.81)
1 µ? ∆t 1 1 µ? √
p= + √ = + ∆t (7.87)
2 2σ ∆t 2 2σ
Note que para valores infinitesimais de ∆t (∆t → ∞), p tende a 12 . Por outro lado,
vimos na equação (7.33) que sob a MME a probabilidade (de alta) é
er∆t − d
q=
u−d
A partir desta definição pode-se demonstrar que para valores infinitesimais de ∆t (∆t →
∞) q tende a 12 .
Exercı́cio 7.11. Sabendo que como consequência de não arbitragem o valor de q é
er∆t − d
q=
u−d
então mostre que
1
lim q =
∆t→0 2
Exercı́cio 7.12. Defina quais condições que u e d devem atender para que tenhamos
0 ≤ q ≤ 1.
225
226
Referências Bibliográficas
[1] Akaike, H. A new look at the statistical model identification. IEEE Transactions
on Automatic Control 19, 6 (1974), 716–723.
[2] Anderson, H., Nam, K., and Vahid, F. Asymmetric nonlinear smooth transi-
tion GARCH models. Nonlinear Time Series Analysis of Economic and Financial
Data, Boston: Kluwer (1999), 191–207.
[3] Baidya, T., and Castro, P. Uma aplicação do teorema da integral de Fourier
na solução da equação diferencial de Black e Scholes para precificação de opções
de compra. Revista Brasileira de Mercado de Capitais 17, 45 (1992).
[4] Barone-Adesi, G., and Whaley, R. Efficient analytic approximation of

American option values. Journal of Finance (1987), 301–320.
[5] Baxter, M., and Rennie, A. Financial Calculus: an introduction to derivative

pricing. Cambridge University Press, 1996.
[6] Baz, J., and Chacko, G. Financial derivatives: pricing, applications, and
mathematics. Cambridge University Press, 2004.
[7] Björk, T. Arbitrage theory in continuous time. Oxford University Press, USA,
2004.
[8] Black, F. The price of commodity contracts. Journal of Financial Economics 3

(1976), 167–79.
[9] Black, F., and Scholes, M. The pricing of options and corporate liabilities.
Journal of Political Economy 81, 3 (1973), 637–654.
[10] Bollerslev, T. Generalized autoregressive conditional heteroskedasticity. Jour-

nal of Econometrics 31 (1986), 307–327.
[11] Bollerslev, T. A conditionally heteroskedastic time series model for speculative

prices and rates of return. The review of economics and statistics (1987), 542–547.
[12] Bollerslev, T., and Wright, J. High-frequency data, frequency domain

inference, and volatility forecasting. Review of Economics and Statistics 83, 4
(2001), 596–602.
[13] Brandimarte, P. Numerical methods in finance: a MATLAB-based introduc-

tion. Wiley-Interscience, 2003.
227
[14] Breeden, D., and Litzenberger, R. Prices of contingent claims implied in
option prices. Journal of Business 51 (1978), 621–651.
[15] Breidt, F., and Carriquiry, A. Improved quasi-maximum likelihood estima-

tion for stochastic volatility models. Modelling and prediction: honoring Seymour
Geisser (1996), 228–247.
[16] Brock, W., D., D., Sheinkman, J., and LeBaron, B. A test for inde-
pendence based on the correlation dimension. Econometrics Review 15, 3 (1996),
197–235.
[17] Broto, C., and Ruiz, E. Estimation methods for stochastic volatility models:
a survey. Journal of Economic Surveys 18, 5 (2004), 613–649.
[18] Brown, J., and Churchill, R. Fourier series and boundary value problems.
McGraw-Hill Singapore, 1978.
[19] Campbell, J., Lo, A., and McKinlay, C. The Econometrics of Financial
Markets. Princeton, New Jersey: Princeton University Press, 1997.
[20] Carnero, M., Pena, D., and Ruiz, E. Persistence and kurtosis in GARCH
and stochastic volatility models. Journal of Financial Econometrics 2, 2 (2004),
319–342.
[21] Carriere, J. Valuation of the early-exercise price for options using simula-
tions and nonparametric regression. Insurance Mathematics and Economics 19, 1
(1996), 19–30.
[22] Casella, G., and Berger, E. L., 1990: Statistical Inference. Duxbury Press,
Belmont, California, 2001.
[23] Cox, J., Ingersoll Jr, J., and Ross, S. A theory of the term structure of
interest rates. Econometrica: Journal of the Econometric Society (1985), 385–407.
[24] Cox, J., Ross, S., and Rubinstein, M. Option pricing: A simplified approach.
Journal of Financial Economics 7 (1979), 229–263.
[25] Derman, E., and Kani, I. Riding on a smile. Risk 7, 2 (1994), 32–39.
[26] Derman, E., and Kani, I. Stochastic implied trees: Arbitrage pricing with
stochastic term and strike structure of volatility. International Journal of Theo-
retical and Applied Finance 1, 1 (1998), 61–110.
[27] Dickey, D., and Fuller, W. Distribution of the estimators for autoregressive
time series with a unit root. Journal of the American Statistical Association
(1979), 427–431.
[28] Duffie, D. Dynamic asset pricing theory. Princeton University Press Princeton,
NJ, 2001.
[29] Duffy, D. Finite Difference Methods in Financial Engineering: A Partial Dif-

ferential Equation Approach. John Wiley& Sons Ltd, 2006.
228
[30] Dupire, B. Pricing with a smile. Risk 7 (1994), 18–20.
[31] Dupire, B. A unified theory of volatility. Tech. rep., Banque Paribas working
paper, reprinted in Derivatives Pricing: The Classic Collection, edited by Peter
Carr, 2004 (Risk Books, London), 1997.
[32] Dupire, B. Pricing and hedging with smiles. Mathematics of derivative securities
1, 1 (1997), 103–111.
[33] Durbin, J., and Koopman, S. Time series analysis by state space methods.
Oxford University Press, 2001.
[34] Elliot, R., and Kopp, P. Mathematics of Financial Markets. New-York,

Springer, 2nd, 2005.
[35] Embrechts, P. Copulas: A personal view. Journal of Risk and Insurance (2008).
[36] Engle, R. Autoregressive conditional heteroscedasticity with estimates of the

variance of United Kingdom inflation. Econometrica: Journal of the Econometric
Society (1982), 987–1007.
[37] Engle, R., and Ng, V. Measuring and testing the impact of news on volatility.
Journal of Finance (1993), 1749–1778.
[38] Fornari, F., and Mele, A. Sign-and volatility-switching ARCH models: the-
ory and applications to international stock markets. Journal of Applied Econo-
metrics (1997), 49–65.
[39] Franses, P., and Van Dijk, D. Nonlinear time series models in empirical
finance. Cambridge University Press, 2000.
[40] Fuller, W. Introduction to statistical time series. Wiley-Interscience, 1996.
[41] Glasserman, P. Monte Carlo methods in financial engineering. Springer Verlag,

2003.
[42] Glosten, L., Jagannathan, R., and Runkle, D. On the relation between
the expected value and the volatility of the nominal excess return on stocks. Jour-
nal of Finance (1993), 1779–1801.
[43] González-Rivera, G. Smooth-transition GARCH models. Studies in Nonlinear

Dynamics and Econometrics 3, 2 (1998), 61–78.
[44] Gourieroux, C., and Jasiak, J. Financial econometrics: problems, models,

and methods. Princeton University Press, 2001.
[45] Hagerud, G. Anew non-linear GARCH model. PhD thesis, PhD Dissertation,
Stockholm School of Economics, 1997.
[46] Hamilton, J. Time series analysis. Princeton Univ Pr, 1994.
229
[47] Harrison, J., and Kreps, D. Martingales and arbitrage in multiperiod secu-
rities markets. Journal of Economic theory 20, 3 (1979), 381–408.
[48] Harrison, J., and Pliska, S. Martingales and stochastic integrals in the
theory of continous trading. Stochastic processes and their applications 11 (1981),
215–260.
[49] Harvey, A. Forecasting, structural time series models and the Kalman filter.
Cambridge University Press, 1991.
[50] Harvey, A., Ruiz, E., and Shephard, N. Multivariate stochastic variance
models. The Review of Economic Studies (1994), 247–264.
[51] Heston, S. A closed-form solution for options with stochastic volatility with
applications to bond and currency options. Review of Financial Studies (1993),
327–343.
[52] Hogg, R., Craig, A., and McKean, J. Introduction to mathematical statis-
tics. Prentice Hall, New Jersey, 2004.
[53] Hull, J. Options, futures, and other derivatives. Pearson Prentice Hall, 2008.
[54] Hull, J., and White, A. Pricing interest-rate-derivative securities. Review of

financial studies (1990), 573–592.
[55] Huynh, H., Lai, V., and Soumare, I. Stochastic Simulation and Applications
in Finance with MATLAB Programs. John Wiley & Sons, 2009.
[56] Iório Jr, R., and Iório, V. Fourier analysis and partial differential equations.
Cambridge University Press, 2001.
[57] Jäckel, P. Monte Carlo methods in finance. Wiley, 2002.
[58] Jarrow, R., and Protter, P. A short history of stochastic integration and
mathematical finance: the early years, 1880-1970. Lecture Notes-Monograph Series
45 (2004), 75–91.
[59] Joshi, M. The concepts and practice of mathematical finance. Cambridge Uni-
versity Press, 2003.
[60] Judd, K. Numerical methods in economics. The MIT Press, 1998.
[61] Kim, S., Shephard, N., and Chib, S. Stochastic volatility: likelihood inference
and comparison with ARCH models. Review of Economic studies (1998), 361–393.
[62] Klebaner, F. Introduction to stochastic calculus with applications. Imperial

College Pr, 2005.
[63] Kloeden, P., and Platen, E. Numerical solution of stochastic differential

equations. Springer, 1992.
230
[64] Kloeden, P., Platen, E., and Schurz, H. Numerical solution of SDE through
computer experiments. Springer Verlag, 1994.
[65] Koopman, S., Harvey, A., Doornik, J., and Shephard, N. STAMP:
Structural time series analyser, modeller and predictor. Timberlake Consultants
London, 2000.
[66] Kreyszig, E. Advanced engineering mathematics. John Wiley & Sons, Inc.,
2007.
[67] Longstaff, F., and Schwartz, E. Valuing American options by simulation: A

simple least-squares approach. Review of Financial Studies 14, 1 (2001), 113–147.
[68] MacKinnon, J., Engle, R., and Granger, C. Long-run economic relation-
ships: readings in cointegration. Oxford University Press (1991).
[69] MacMillan, L. Analytic approximation for the American put option. Advances
in futures and options research 1, 119-139 (1986), 4.
[70] McDonald, R. Derivatives markets. Addison-Wesley Reading, MA, 2003.
[71] McLeish, D. Monte Carlo simulation and finance. Wiley, 2005.
[72] McLeod, A., and Li, W. Diagnostic checking ARMA time series models using
squared-residual autocorrelations. Journal of Time Series Analysis 4, 4 (1983),
269–273.
[73] Merton, R. Theory of rational option pricing. The Bell Journal of Economics
and Management Science (1973), 141–183.
[74] Meucci, A. Risk and asset allocation. Springer, 2007.
[75] Mikosh, T. Elementary stochastic calculus with finance in view, vol. 6. World
Scientific Publishing Co. Pte. Ltd., 1999.
[76] Moretin, P., and Toloi, C. Análise de séries temporais. São Paulo: Edgarg
Blucher, 2004.
[77] Neftci, S. An introduction to the mathematics of financial derivatives. Academic

Press, 2000.
[78] Nelson, D. The time series behavior of stock market volatility and returns.
PhD thesis, PhD Dissertation, Massachusetts Institute of Technology, Dept. of
Economics, 1988.
[79] Nelson, D. Conditional heteroskedasticity in asset returns: A new approach.

Econometrica: Journal of the Econometric Society (1991), 347–370.
[80] Øksendal, B. Stochastic differential equations: an introduction with applica-

tions. Springer, 2003.
231
[81] Oliveira, E.C. e Tygel, M. Métodos Matemáticos para Engenharia. Socidade
Brasileira de Matemática, Rio de Janeiro, 2005.
[82] Pestman, W. Mathematical statistics: an introduction. Walter De Gruyter Inc,

1998.
[83] Polson, N., Jacquier, E., and Rossi, P. Bayesian analysis of stochastic
volatility models. Journal of Business and Economic Statistics 20 (2002), 69–87.
[84] Rabemananjara, R., and Zakoian, J. Threshold ARCH models and asym-
metries in volatility. Journal of Applied Econometrics (1993), 31–49.
[85] Ruiz, E. Quasi-maximum likelihood estimation of stochastic volatility models.

Journal of Econometrics 63, 1 (1994), 289–306.
[86] Samuelson, P. Rational Theory of Warrant Pricing, in P. Cootner (ed.), The

Random Character of Stock Market Prices, 1965.
[87] Sandmann, G., and Koopman, S. Estimation of stochastic volatility models

via Monte Carlo maximum likelihood. Journal of Econometrics 87, 2 (1998),
271–301.
[88] Schwartz, E. The stochastic behavior of commodity prices: Implications for

valuation and hedging. Journal of Finance (1997), 923–973.
[89] Schwartz, E., and Smith, J. Short-term variations and long-term dynamics
in commodity prices. Management Science (2000), 893–911.
[90] Schwarz, G. Estimating the dimension of a model. The annals of statistics

(1978), 461–464.
[91] Sentana, E. Quadratic ARCH models. The Review of Economic Studies (1995),
639–661.
[92] Shephard, N., and Pitt, M. Likelihood analysis of non-Gaussian parameter-

driven models. Economics Discussion Paper-Nuffield College Oxford (1995).
[93] Shimko, D. Finance in continuous time: a primer. Kolb, 1992.
[94] Shreve, S. Stochastic Calculus for Finance: Continuous-Time Models. Springer,

2004.
[95] Shreve, S. Stochastic calculus for finance: The binomial asset pricing model.
Springer Verlag, 2004.
[96] Smith Jr, C. Option pricing: a review. Journal of Financial Economics 3, 1-2
(1976), 3–51.
[97] Steele, J. Stochastic calculus and financial applications. Springer Verlag, 2001.
[98] Tsay, R. Analysis of financial time series. Wiley-Interscience, 2005.
232
[99] Tsitsiklis, J., and Van Roy, B. Regression methods for pricing complex
American-style options. IEEE Transactions on Neural Networks 12, 4 (2001),
694–703.
[100] Vasicek, O. An equilibrium characterization of the term structure. Journal of

financial economics 5, 2 (1977), 177–188.
[101] Wilmott, P., Howison, S., and Dewynne, J. The mathematics of financial
derivatives: a student introduction. Cambridge University Press, 1995.
[102] Yoshino, J. Uma metodologia para a estimação do risco no mercado acionário

brasileiro: preço Arrow-Debreu. Pesquisa e planejamento econômico, IPEA 31, 1
(2001), 125–152.
[103] Zakoian, J. Threshold heteroskedastic models. Journal of Economic Dynamics

and Control 18, 5 (1994), 931–955.
233
Índice Remissivo
árvore binomial, 213 convergência, 28

de ordem p, 96
aglomerados de volatilidade, 53 em distribuição, 28
AIC, 51 em probabilidade, 28
AR, 46 média quadrática, 96
arbitragem, 116, 162 quase certa, 28, 29
ARCH, 58, 59 covariância, 19
ARIMA, 50 curtose, 4
ARMA, 46
assimetria, 4 delta ∆, 120
ativo, 9 densidade, 3
financeiro, 9 de probabilidade, 24
objeto, 115 condicional, 18
subjacente, 115 conjunta, 17, 18, 20, 30
autocorrelação, 61 implı́cita, 198
autocovariância, 39 neutra ao risco, 199
marginal, 17, 18
BIC, 51
neutra
Box e Jenkins, 45
implı́cita, 164
Box-Jenkins, 37
normal
Browniano, 73
bivariada, 21, 22
multivariado, 178
multivariada, 21
cálculo estocástico, 73 densidade de transição, 176
multivariado, 178 dependência linear, 53
cı́rculo unitário, 47 derivada de Radon-Nikodym, 150
cauda, 5 derivativo, 114
pesada, 5 Americano, 168, 203, 217
coeficiente, 4 Bermudiano, 168, 203, 217
de assimetria, 4 exótico, 168
de correlação, 19 desigualdade, 27
complementar, 2 Chebyshev, 35, 36
condição de Chebyshev, 27
de Hölder, 112 de Markov, 28
de Lipshitz, 105, 112 dos momentos, 28
de Novikov, 153 em probabilidade, 27
condição de primeira ordem, 33 Jensen, 28
contrato Markov, 36
forward, 115 Schwarz, 28
futuro, 115 desvio padrão, 4
234
diferenciável, 75 estimador, 31
distribuição, 1 de máxima verossimilhança, 33, 34
de Bernoulli, 6 não tendencioso, 31
de Poisson, 3 estratégia, 161
de probabilidade, 3 auto-financiável, 161
binomial, 3, 7 de proteção, 162
condicional, 13, 15, 16, 21, 22 evento, 1
de Cauchy, 12 aleatório, 1
de Poisson, 7 exponencial estocástico, 191
de probabilidade
conjunta, 13 fórmula
exponencial, 3 de Itô, 99, 101
gama, 3, 10 de Itô, 73
lognormal, 9 multivariada, 103
FAC, 40
marginal, 13, 15, 21
FACP, 41
normal, 3, 8
fator
simétrica, 5
de integração, 106, 107
t de Student, 11
fatos estilizados, 37, 53
uniforme, 3, 9
Feynman-Kac, 189
econometria, 37 filtração, 89
EDE, 81, 82, 95, 104 natural, 89
EDP, 120 filtro, 69
de Black e Scholes, 120 de Kalman, 69
efeito alavanca, 53, 64 finanças, 9
equação fronteira ótima, 208, 217
do calor, 120, 133, 134 função, 3
de Dupire, 201 geradora de momentos, 5
de Feynman-Kac, 189 caracterı́stica, 5, 6
de Kolmogorov, 184 de autocorrelação, 40
de Langevin, 106 de autocorrelação parcial, 41
diferencial de verossimilhança, 31, 33
estocástica, 81, 82, 95, 100, 104, 175 densidade, 3, 4, 6, 8–12
ordinária, 143 conjunta, 14, 16
parabólica, 134 marginal, 14
parcial, 113, 120 distribuição, 3
fundamental de apreçamento, 160, 168, função distribuição de transição, 176
171 GARCH, 37, 58
espaço, 1 AR, 37
dos resultados, 1 gerador da difusão de Itô, 181
amostral, 1 multivariado, 183
de probabilidade, 86 univariado, 181
paramétrico, 31 grau de liberdade, 11
estacionariedade, 42 gregas, 129
de segunda ordem, 42
fraca, 42 hedge, 129
testes, 56 dinâmico, 129
235
heterocedástico, 53 completo, 162
Hull e White, 196 de opções, 116
MME, 156, 157
inferência, 30 moda, 5
estatı́stica, 30 modelo, 45
integrável, 76 de Cox, Ingersoll e Ross, 197
integração, 92 de Hull e White, 196
estocástica, 92 de Vasicek, 196
integral, 76 Box e Jenkins, 45
de Itô, 95, 96, 98 de Black e Sholes, 117
de Reimann, 93 de BMS, 113, 117
de Reimann-Stieltjes, 94 de Vasicek, 102
estocástica, 76 EGARCH, 64
inversibilidade, 47 martingal, 55
isometria de Itô, 98 RW1, 54
RW2, 55
Kolmogorov, 184
RW3, 55
lei fraca dos grandes números, 28 modelo CIR, 197
lema de Itô, 73, 99, 101 modelo QGARCH, 65
multivariado, 103 modelo TARCH, 64
duas variáveis, 101 momento, 4
multivariado, 179 de ordem m, 5
log-retorno, 53 primeiro, 4
LSTGARCH, 65 segundo, 4
terceiro, 4
média, 4 Monte-Carlo, 57, 69, 147
condicional, 14, 16, 19, 60, 61 mudança de medida, 147
incondicional, 16, 20, 60, 61
método NYMEX, 43
binomial, 211 opção, 114
CRR, 217 lookback, 170
de monte-carlo, 171 Americana, 115, 203
LSM, 218 Asiática, 170
MA, 46 Bermudiana, 168, 203
Markov, 28 com barreira, 169
propriedade, 176, 181 de venda, 122
mediana, 5 Européia, 114
medida, 86 exótica, 115, 168
de probabilidade, 86, 147 operador, 41
martingal, 157 lag, 41
martingal equivalente, 153, 156
neutra ao risco, 163 passeio aleatório, 38
medidas equivalentes, 149 ponte Browniano, 79
meia-vida, 109 portfólio, 24
mensurável prêmio, 154
função, 89 de risco, 154
mercado, 9 preço, 114
236
de risco de mercado, 155 solução numérica, 211
de exercı́cio, 114 superfı́cie de volatilidade implı́cita, 201
preços, 43 swap, 115
de commodities, 108
do petróleo, 43 taxa, 102
probabilidade, 1 de juros, 102, 107, 155
condicional, 2 livre de risco, 116, 117
incondicional, 19 tempo de parada, 205
problema teorema, 1, 29
de contorno livre, 208 central do limite, 29
processo, 73 da representação martingal, 177
adaptado, 89 de Bayes, 2
aritmético de Girsanov, 153
Browniano, 80 fundamental de finanças, 163
auto-similar, 75 limite, 27
Browniano, 73 teste, 56
padrão, 74 ADF, 56
com incrementos estacionários, 74 ARCH-LM, 66
de Ornstein-Uhlenbeck, 107 Box-Pierce, 57
de Vasicek, 102 de adequação do modelo, 67
de Wiener, 74 DF, 56
estocástico do sinal do choque, 66
adaptado, 89 do tamanho do choque, 67
geométrico Ljung-Box, 57
Browniano, 80, 105 para autocorrelação, 57
martingal, 91 Phillips-Perron, 57
submartingal, 91 transformada de Fourier, 6
supermartingal, 91 transição suave, 210
processo de Itô unimodal, 5
multivariado, 178
univariado, 97 valor esperado, 4
processo estocástico, 37, 38 condicional, 14, 84
valor intrı́nseco, 204
quantil, 5 variáveis aleatórias, 2
quase certamente, 28, 29, 86, 98 iid, 2
RB, 38 independentes, 2
ruı́do branco, 38 variável, 1
aleatória, 1
série, 39 contı́nua, 3
de retorno, 52 discreta, 3
financeira, 52 momento, 4
temporal, 37, 39 multidimensional, 13
sigma σ-álgebra, 85 variância, 4
smile, 131 condicional, 17, 19, 60
smirk, 131 incondicional, 60, 61
solução forte, 192 variação, 76
solução fraca, 192 limitada, 76
237
não limitada, 76
quadrática, 77
do Browniano, 78
Vasicek, 102, 196
velocidade de reversão, 107, 108
verossimilhança, 31
vetor, 13
aleatório, 13
volatilidade, 37
condicional, 58
linear, 59
não linear, 64
estocástica, 68
implı́cita, 130
local, 199
238

Processos Estocásticos Finanças

Încărcat de

Informații document

Descriere originală:

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Processos Estocásticos Finanças

Încărcat de

Drepturi de autor:

Formate disponibile

Processos Estocásticos em Finanças

Fernando Antonio Lucena Aiube

Pontifı́cia Universidade Católica do Rio de Janeiro

4 Modelo de Black, Merton e Scholes 113

5 Mudança de Medida 147

5.7 Replicando para o apreçamento . . . . . . . . . . . . . . . . . . . . . . . 164

6 Equações Diferenciais Estocásticas 175

7 Derivativos Americanos 203

1.1 Função densidade da distribuição normal padrão . . . . . . . . . . . . . . 8

2.1 Exemplo da evolução da variável Yt . . . . . . . . . . . . . . . . . . . . . 39

3.1 Trajetória do processo Browniano . . . . . . . . . . . . . . . . . . . . . . 76

4.1 Diagrama de posição de uma opção de compra . . . . . . . . . . . . . . . 114

7.1 Opção de venda para τ = 2, K = 7, r = 5% e σ = 25% . . . . . . . . . . 206

1.1 Distribuição Exemplo 1.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

7.1 Valores dos portfólios A e B na data atual e no vencimento . . . . . . . . 219

P ({ω : X(ω) = 0}) = P ({ω : X(ω) = 1}) = 0, 5

Portanto, a variável aleatória X assume um valor associado ao evento. As propriedades

Dois eventos A e B podem ser dependentes no sentido de que a ocorrência de um

Duas variáveis aleatórias são independentes se

Exemplo 1.1. Considere A o conjunto dos eventos produzidos pelo lançamento de um

A probabilidade de ocorrer o evento B dado que aconteceu o evento A será conforme

Função distribuição e densidade Uma variável aleatória pode ser interpretada a

A segunda maneira de descrevermos uma distribuição de probabilidade de uma

Para uma variável aleatória do tipo discreto temos a função distribuição:

onde 0 ≤ pk ≤ 1 para todo k e ∞

onde µX é a média ou valor esperado de X.

O segundo momento E (X 2 ) é definido por

O segundo momento define uma importante medida de dispersão denominada variância,

O desvio padrão é definido como a raı́z quadrada da variância.

O terceiro momento centrado na média é uma medida da simetria da distribuição. As-

O quarto momento centrado na média guarda a informação do peso da cauda em relação

A curtose destaca a importância das caudas. Ou seja, informa o quão provável é a

O momento de ordem m de uma distribuição E (X m ) é definido por

O momento de uma função real g (x) é definido por

O quantil α de uma distribuição de uma variável aleatória X é definido por

O quantil α = 0, 5 (ou quantil 50%) é chamado de mediana da distribuição de proba-

Exercı́cio 1.1. Escreva a média, a variância, o m-ésimo momento e a esperança de

Função geradora de momentos e função caracterı́stica Vimos que a descrição de

O conceito de função geradora de momentos é muito importante na análise de processos

definem os valores esperados para distribuições contı́nuas e discretas, respectivamente.

1.3 Algumas distribuições

veja no Exemplo 1.1 abaixo o cálculo da função geradora de momentos da distribuição

Exemplo 1.2. Encontre a função geradora de momentos da distribuição binomial de-

MX0 (u) = n [(1 − p) + peu ]n−1 peu

Logo o primeiro momento será µ = E (X) = M 0 (0) = np

A segunda derivada da função geradora é

V ar (X) = σ 2 = MX00 (0) − (np)2 = np (1 − p)

Distribuição de Poisson Uma variável aleatória X definida no conjunto {0, 1, . . .}

A função geradora de momentos e a função caracterı́stica de uma distribuição normal

Figura 1.1: Função densidade da distribuição normal padrão

Exemplo 1.3. Encontre os primeiro e segundo momentos de uma variável aleatória

Distribuição uniforme A distribuição uniforme é utilizada para modelar eventos que

Exercı́cio 1.2. Calcule a média e a variância de X ∼ U (a, b) conforme definido na

Distribuição Lognormal Uma importante distribuição de probabilidade em finanças

Exercı́cio 1.3. Seja Y = ln (X) onde Y ∼ N (µ, σ 2 ) e portanto X é lognormal. Mostre

onde a função Gama é definida por

A Figura 1.3 mostra a função densidade da distribuição gama com parâmetros α = 2 e

Distribuição t de Student Tal como a normal, a distribuição t de Student é utilizada

Distribuição de Cauchy Uma variável aleatória X possui distribuição de Cauchy

1.4 Variáveis aleatórias multidimensionais

As distribuições de probabilidade das variáveis aleatórias X e Y são dadas por

As distribuições de probabilidades pi e qj constituem as distribuições marginais da dis-