Sunteți pe pagina 1din 248

Processos Estocásticos em Finanças

Fernando Antonio Lucena Aiube

Pontifı́cia Universidade Católica do Rio de Janeiro


http://www.ind.puc-rio.br/pagina professores.aspx?id=faiube
aiube@puc-rio.br

Petróleo Brasileiro SA
aiube@petrobras.com.br

26 de março de 2010
Sumário

Prefácio ix

1 Conceitos Preliminares 1
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Conceitos em probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Algumas distribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Variáveis aleatórias multidimensionais . . . . . . . . . . . . . . . . . . . . 13
1.5 Transformação de densidade de probabilidade . . . . . . . . . . . . . . . 24
1.6 Desigualdades em probabilidade e teoremas limites . . . . . . . . . . . . 27
1.7 Inferência estastı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.8 Apêndice - Desigualdades de Chebyshev e Markov . . . . . . . . . . . . . 35
1.8.1 Desigualdade de Chebyshev . . . . . . . . . . . . . . . . . . . . . 35
1.8.2 Desigualdade de Markov . . . . . . . . . . . . . . . . . . . . . . . 36

2 Econometria em Finanças 37
2.1 Processos estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2 Conceitos básicos em séries temporais . . . . . . . . . . . . . . . . . . . . 39
2.3 Estacionariedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4 Formulação dos modelos Box e Jenkins . . . . . . . . . . . . . . . . . . . 45
2.5 Séries financeiras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.5.1 Séries de retornos . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.5.2 Modelos para as séries de retornos . . . . . . . . . . . . . . . . . . 54
2.5.3 Testes para estacionariedade . . . . . . . . . . . . . . . . . . . . . 56
2.5.4 Testes para autocorrelação . . . . . . . . . . . . . . . . . . . . . . 57
2.6 Volatilidade condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.6.1 Modelos de volatilidade condicional lineares . . . . . . . . . . . . 59
2.6.2 Modelos de volatilidade condicional não lineares . . . . . . . . . . 64
2.6.3 Teste para GARCH linear . . . . . . . . . . . . . . . . . . . . . . 66
2.6.4 Teste para GARCH não linear . . . . . . . . . . . . . . . . . . . . 66
2.6.5 Testes de adequação do modelo . . . . . . . . . . . . . . . . . . . 67
2.7 Volatilidade estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.8 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.9 Resumo e considerações finais . . . . . . . . . . . . . . . . . . . . . . . . 70
2.10 Apêndice - Função de Autorcorrelação Parcial . . . . . . . . . . . . . . . 70
2.10.1 Função de Autocorrelação Parcial . . . . . . . . . . . . . . . . . . 70

i
ii SUMÁRIO

3 Cálculo Estocástico 73
3.1 Processo Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.1.1 Propriedades do processo Browniano . . . . . . . . . . . . . . . . 75
3.1.2 Variação quadrática . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.1.3 Regras básicas de operacionalização . . . . . . . . . . . . . . . . . 78
3.2 Valor esperado condicional . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.2.1 Conceito básico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.2.2 Noção de σ-álgebra . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2.3 Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2.4 Espaço e medida de probabilidade . . . . . . . . . . . . . . . . . . 86
3.2.5 Regras básicas de operacionalização . . . . . . . . . . . . . . . . . 86
3.3 Processos martingais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.4 Integração estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.4.1 Integral de Reimann . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.4.2 Integral de Reimann-Stieltjes . . . . . . . . . . . . . . . . . . . . 94
3.4.3 Integral de Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.5 Fórmula de Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.6 Exemplos de EDE´s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.6.1 Processo geométrico Browniano . . . . . . . . . . . . . . . . . . . 105
3.6.2 Equação de Langevin . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.6.3 Processo de Ornstein-Uhlenbeck . . . . . . . . . . . . . . . . . . . 107
3.7 Resumo e considerações finais . . . . . . . . . . . . . . . . . . . . . . . . 109
3.8 Apêndice - Variação quadrática, condições de Lipshitz e Hölder . . . . . . 111
3.8.1 Variação quadrática . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.8.2 Condições de Lipshitz e Hölder . . . . . . . . . . . . . . . . . . . 112

4 Modelo de Black, Merton e Scholes 113


4.1 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.2 Modelo de Black e Scholes . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.3 Modelo de Merton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.4 Modelo de Margrabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.5 Gregas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.6 Volatilidade implı́cita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.7 Resumo e considerações adicionais . . . . . . . . . . . . . . . . . . . . . . 132
4.8 Apêndice - Solução da EDP de BMS . . . . . . . . . . . . . . . . . . . . 134
4.8.1 Solução da EDP de BMS . . . . . . . . . . . . . . . . . . . . . . . 134
4.8.2 Transformada de Fourier . . . . . . . . . . . . . . . . . . . . . . . 142
4.8.3 Solução da equação do calor . . . . . . . . . . . . . . . . . . . . . 143
4.8.4 Resultados básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 145

5 Mudança de Medida 147


5.1 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
5.2 Mudança de medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.3 Mudando a medida do Browniano . . . . . . . . . . . . . . . . . . . . . . 151
5.4 Teorema de Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.5 Apreçamento pela medida martingal . . . . . . . . . . . . . . . . . . . . 157
5.6 Teoremas fundamentais de finanças . . . . . . . . . . . . . . . . . . . . . 161
SUMÁRIO iii

5.7 Replicando para o apreçamento . . . . . . . . . . . . . . . . . . . . . . . 164


5.8 Extensões do modelo de BMS . . . . . . . . . . . . . . . . . . . . . . . . 166
5.9 Derivativos exóticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
5.9.1 Opções com barreiras . . . . . . . . . . . . . . . . . . . . . . . . . 169
5.9.2 Opções Lookback . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.9.3 Opções Asiáticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.10 Resumo e considerações finais . . . . . . . . . . . . . . . . . . . . . . . . 170
5.11 Apêndice - Método de Monte-Carlo . . . . . . . . . . . . . . . . . . . . . 171

6 Equações Diferenciais Estocásticas 175


6.1 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
6.2 Cálculo estocástico multivariado . . . . . . . . . . . . . . . . . . . . . . . 178
6.3 Gerador de difusão de Itô . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.4 Equação de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
6.5 Equação de Fokker-Planck . . . . . . . . . . . . . . . . . . . . . . . . . . 188
6.6 Equação de Feynman-Kac . . . . . . . . . . . . . . . . . . . . . . . . . . 189
6.7 Equações diferenciais estocásticas . . . . . . . . . . . . . . . . . . . . . . 191
6.7.1 Definições básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
6.7.2 Solução forte da EDE . . . . . . . . . . . . . . . . . . . . . . . . . 192
6.7.3 Solução geral da EDE . . . . . . . . . . . . . . . . . . . . . . . . 193
6.8 Resumo e considerações finais . . . . . . . . . . . . . . . . . . . . . . . . 197
6.9 Apêndice - Densidade implı́cita e volatilidade local . . . . . . . . . . . . . 198
6.9.1 Densidade implı́cita . . . . . . . . . . . . . . . . . . . . . . . . . . 198
6.9.2 Volatilidade local . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

7 Derivativos Americanos 203


7.1 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
7.2 Apreçamento do derivativo . . . . . . . . . . . . . . . . . . . . . . . . . . 205
7.3 Apreçamento da opção de venda . . . . . . . . . . . . . . . . . . . . . . . 207
7.4 Fronteira ótima de exercı́cio . . . . . . . . . . . . . . . . . . . . . . . . . 208
7.5 Soluções Numéricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
7.5.1 Método binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
7.5.2 Derivativos Americanos e Bermudianos . . . . . . . . . . . . . . . 217
7.6 Propriedades das opções . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
7.7 Resumo e considerações finais . . . . . . . . . . . . . . . . . . . . . . . . 221
7.8 Apêndice - Método binomial de CRR . . . . . . . . . . . . . . . . . . . . 221
iv SUMÁRIO
Lista de Figuras

1.1 Função densidade da distribuição normal padrão . . . . . . . . . . . . . . 8


1.2 Função densidade da distribuição lognormal . . . . . . . . . . . . . . . . 10
1.3 Função densidade da distribuição gama . . . . . . . . . . . . . . . . . . . 11
1.4 Funções densidades das distribuições t de Student e normal . . . . . . . . 12
1.5 Densidades Cauchy, t de Student e normal . . . . . . . . . . . . . . . . . 13
1.6 Densidade normal bivariada com X e Y independentes . . . . . . . . . . 22
1.7 Distribuição normal: (a) e (b) X e Y independentes, (c) e (d) ρX,Y = 0, 8 23
1.8 Regiões de integração da função densidade . . . . . . . . . . . . . . . . . 26
1.9 Regiões de integração da função densidade . . . . . . . . . . . . . . . . . 27

2.1 Exemplo da evolução da variável Yt . . . . . . . . . . . . . . . . . . . . . 39


2.2 Duas realizações do passeio aleatório yt = 5 + t . . . . . . . . . . . . . . 40
2.3 Preços do petróleo de jan 1985 a mai 2008 . . . . . . . . . . . . . . . . . 43
2.4 Histograma das sub-amostras dos preços . . . . . . . . . . . . . . . . . . 44
2.5 Retornos do petróleo de jan 1985 a mai 2008 . . . . . . . . . . . . . . . . 45
2.6 Histograma das sub-amostras dos retornos . . . . . . . . . . . . . . . . . 46
2.7 Processo yt = 0, 6yt−1 + t : (a) simulações, (b) FAC . . . . . . . . . . . . 49

3.1 Trajetória do processo Browniano . . . . . . . . . . . . . . . . . . . . . . 76


3.2 Gráfico com dez trajetórias do processo Browniano . . . . . . . . . . . . 77
3.3 Trajetórias do processo geométrico Browniano . . . . . . . . . . . . . . . 83
3.4 Simulações do processo geométrico de reversão . . . . . . . . . . . . . . . 109

4.1 Diagrama de posição de uma opção de compra . . . . . . . . . . . . . . . 114


4.2 Diagrama de posição de uma opção de venda . . . . . . . . . . . . . . . . 115
4.3 Opção de compra para K = 7, r = 5% e σ = 25% . . . . . . . . . . . . . 123
4.4 Opção de venda para K = 7, r = 5% e σ = 25% . . . . . . . . . . . . . . 123
4.5 Comportamento do Vega com o preço do ativo (K = 7, r = 5% e σ = 25%)130
4.6 Volatilidade implı́cita - gráfico smirk . . . . . . . . . . . . . . . . . . . . 132

7.1 Opção de venda para τ = 2, K = 7, r = 5% e σ = 25% . . . . . . . . . . 206


7.2 Transição suave na curva (b) compatı́vel com a aus encia de arbitragem . 209
7.3 Fronteira ótima de exercı́cio para uma opção de venda Americana . . . . 210
7.4 Árvore binomial com 2 perı́odos e 3 estados terminais . . . . . . . . . . . 214
7.5 Árvore binomial com os preços do derivativo em cada nó . . . . . . . . . 215
7.6 Árvore binomial com M perı́odos e M + 1 nós no vencimento . . . . . . . 216

v
vi LISTA DE FIGURAS
Lista de Tabelas

1.1 Distribuição Exemplo 1.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 15


1.2 Distribuição marginal de X . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Distribuição marginal de Y . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Distribuição condicional de X|Y =0 . . . . . . . . . . . . . . . . . . . . 15
1.5 Distribuição condicional de X|Y =1 . . . . . . . . . . . . . . . . . . . . 16
1.6 Distribuição condicional de X|Y =2 . . . . . . . . . . . . . . . . . . . . 16
1.7 Distribuição Exercı́cio 1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . 20

7.1 Valores dos portfólios A e B na data atual e no vencimento . . . . . . . . 219


7.2 Valores dos portfólios A e B na data atual e no vencimento . . . . . . . . . . 220

vii
viii LISTA DE TABELAS
Prefácio

.........................Em construção.....

ix
Capı́tulo 1

Conceitos Preliminares

Este primeiro Capı́tulo trata dos conceitos fundamentais como o de variáveis aleato-
rias e suas propriedades, distribuições das variáveis aleatórias e teoremas limites. As
disciplinas que abordam tais assuntos estão em teoria de probabilidade e matemática
estatı́stica. O leitor que está familiarizado com tais assuntos e não sente dificulade em
resolver os exercı́cios apresentados, pode iniciar os estudos pelo Capı́tulo 2. Os con-
ceitos apresentados no primeiro capı́tulo podem ser encontrados em vários textos dentre
os quais citamos Hogg e Craig(1990) [52], Pestman (1998) [82], Casella e Berger (2001)
[22] e Meucci (2005) [74].

1.1 Introdução
No mundo real o resultado de um evento (experimento) ou de um jogo é incerto. O
arremesso de uma moeda ou de um dado são experimentos em que os resultados não
são previsı́veis. Da mesma forma podemos imaginar que o ı́ndice da bolsa de valores
amanhã pode aumentar ou diminuir dependendo dos eventos econômicos e polı́ticos que
se sucederão até o próximo dia.
Os experimentos aleatórios são denominados eventos aleatórios (ou simplesmente
eventos). Tais eventos produzem resultados. Ao conjunto de todos os possı́veis resul-
tados denominamos espaço amostral Ω. Aos resultados dos eventos podemos associar
números. Por exemplo, no caso de uma moeda podemos descrever os resultados por
uma variável aleatória X = X(ω) ∈ {0, 1}, onde 1 representa o resultado cara e 0
representa o resultado coroa e ω pertence ao espaço dos resultados Ω = {cara, coroa}.
Em termos matemáticos X = X(ω) é uma função real definida no espaço Ω. Portanto,
uma variável aleatória associa um número com cada possı́vel resultado de um evento.
Se a moeda do evento é equilibrada então, baseados em evidências empı́ricas, pode-
mos dizer que as probabilidades de ocorrência de tais eventos são dadas por

P ({ω : X(ω) = 0}) = P ({ω : X(ω) = 1}) = 0, 5

Portanto, a variável aleatória X assume um valor associado ao evento. As propriedades


da variável aleatória são descritas em termos dos valores que pode assumir, ou seja, de
sua distribuição. À distribuição estão associados o espaço de eventos Ω e a probabili-
dade de ocorrência dos eventos P .

1
1.2 Conceitos em probabilidade
Sejam A e B dois eventos tais que A e B ∈ Ω, então a ocorrência de um evento ou outro
é dado pelos resultados contidos na união dos conjuntos que descrevem os eventos A e
B, e sua probabilidade de ocorrência é descrita por:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Se A e B são disjuntos, A ∩ B = ∅, então:
P (A ∪ B) = P (A) + P (B)
Seja Ac o complementar de A, então: P (Ac ) = 1 − P (A). Além disso, P (Ω) = 1 e
P (∅) = 0.

Dois eventos A e B podem ser dependentes no sentido de que a ocorrência de um


irá alterar a probabilidade de ocorrência de outro. Assim sendo, o conhecimento da
ocorrência de um evento irá ajudar a prever melhor a ocorrência de outro evento. Defin-
imos então o conceito de probabilidade condicional. A probabilidade de ocorrer A dado
que ocorreu B é definida por

P (A ∩ B) P (A ∩ B)
P (A|B) = e P (B|A) = (1.1)
P (B) P (A)
Das equações acima podemos escrever
P (B|A) P (A) P (A|B) P (B)
P (A|B) = ou P (B|A) =
P (B) P (A)
Se {B1 , B2 , . . . Bn } são eventos disjuntos, temos P (A) = ni=1 P (A|Bi ) P (Bi )
P

P (A|Bi ) P (Bi )
P (Bi |A) = i = 1, 2 . . . n (1.2)
P (A)
P (A|Bi ) P (Bi )
P (Bi |A) = Pn i = 1, 2 . . . n (1.3)
i=1 P (A|Bi ) P (Bi )
que é conhecida com Teorema de Bayes.

Duas variáveis aleatórias são independentes se


P (X ∈ A, Y ∈ B) = P (X ∈ A) P (Y ∈ B) (1.4)
para AeB ∈ Ω. Os eventos {X ∈ A} e {Y ∈ B} são ditos independentes. Neste caso
P (A|B) = P (A). Ou seja, a ocorrência de B em nada afeta a ocorrência de A. Quando
duas variáveis aleatórias são independentes e possuem a mesma distribuição dizemos
que são iid (independentes e identicamente distribuı́das).

Exemplo 1.1. Considere A o conjunto dos eventos produzidos pelo lançamento de um


dado em que o resultado seja menor ou igual a 4. Considere B o conjunto dos eventos
do lançamento do dado em que o resultado seja igual ou superior a 2 e inferior a 6.
Calcule P (A ∪ B) e P (B|A).

2
Solução: Os conjuntos A e B são tais que A = {1, 2, 3, 4} e B = {2, 3, 4, 5}. A in-
terseção dos dois conjuntos é A ∩ B = {2, 3, 4}. Como os eventos são independentes
temos que P (A) = 64 , P (B) = 64 e P (A ∩ B) = 36 . Usando a relação acima temos que
P (A ∪ B) = 64 + 46 − 63 = 56 .

A probabilidade de ocorrer o evento B dado que aconteceu o evento A será conforme


a equação (1.1)
3
P (A ∩ B) 3
P (B|A) = = 64 =
P (A) 6
4


Função distribuição e densidade Uma variável aleatória pode ser interpretada a


partir dos resultados dos eventos a ela associado. Conhecer uma variável aleatória
significa saber quais os números associdados aos eventos e a lei de probabilidade que
governa tais eventos. A lei de probabilidade é denominada de distribuição de probabi-
lidade. A maneira mais usual de descrevermos a distribuição de probabilidade de uma
variável aleatória X é através da função densidade fX (x). A função densidade é tal
que fX (x) ≥ 0. É definida de forma que a área sob a função densidade fornece a pro-
babilidade de ocorrer um evento associado ao intervalo que delimita esta área, isto é
Z b
P {X ∈ [a, b]} = fX (x) dx
a
Se a variável aleatória está definida no eixo real então
Z ∞
fX (x) dx = 1
−∞

A segunda maneira de descrevermos uma distribuição de probabilidade de uma


variável aleatória X é através do conceito de função distribuição FX (x), assim definida
FX (x) = P (X ≤ x) = P ({ω : X (ω) ≤ x}) x∈R (1.5)

Para uma variável aleatória do tipo discreto temos a função distribuição:


X
FX (x) = pk x∈R (1.6)
k:xk ≤x

onde 0 ≤ pk ≤ 1 para todo k e ∞


P
k=1 pk = 1. As distribuições binomial e Poisson são
exemplos de distribuições de variáveis aleatórias do tipo discreto.

Para uma variável aleatória do tipo contı́nuo que tenha função densidade fX (x), a
função distribuição é dada por
Z x
FX (x) = P (X ≤ x) = fX (x) dx x∈R (1.7)
−∞
R∞
onde fX (x) ≥ 0 para todo x ∈ R e −∞ fX (x) dx = 1. As distribuições normal, expo-
nencial, gama e uniforme são alguns exemplos de variáveis aleatórias do tipo contı́nuo.

3
Momentos de uma variável aleatória O primeiro momento E (X) uma variável
aleatória do tipo contı́nuo é dado por:
Z ∞
µX = E (X) = xfX (x) dx (1.8)
−∞

onde µX é a média ou valor esperado de X.

O segundo momento E (X 2 ) é definido por


Z ∞
2
x2 fX (x) dx

E X = (1.9)
−∞

O segundo momento define uma importante medida de dispersão denominada variância,


V ar (X):
V ar (X) = E (X − E (X))2 = E X 2 − E 2 (X)
  
(1.10)
A variância também pode ser definida como
Z ∞
V ar(X) = (x − µX )2 fX (x) dx (1.11)
−∞

O desvio padrão é definido como a raı́z quadrada da variância.

O terceiro momento centrado na média é uma medida da simetria da distribuição. As-


sim, define-se o coeficiente de assimetria Sk , como sendo o terceiro momento de X
centrado na média e normalizado pelo desvio padrão elevado ao cubo (ou pela variância
elevada à potência 23 ):
E [X − E (X)]3

Sk (X) =  3 (1.12)
E [X − E (X)]2 2
As distribuições simétricas em relação à média possuem coeficiente de assimetria nulo.
O coeficiente de assimetria positivo significa que a função densidade possui mais massa
à esquerda. O coeficiente de assimetria negativo indica que a função densidade possui
sua massa concentrada do lado direito.

O quarto momento centrado na média guarda a informação do peso da cauda em relação


à massa de toda a função densidade. A medida de curtose Ku da distribuição provê esta
informação. Ela é definida como o quarto momento centrado na média e normalizado
pelo desvio padrão elevado à potência 4 (ou pela variância elevada à potência 2).

E [X − E (X)]4

Ku (X) = 2 (1.13)
E [X − E (X)]2


A curtose destaca a importância das caudas. Ou seja, informa o quão provável é a


ocorrência de valores da variável aleatória nas regiões distantes da porção central da
distribuição. Um valor elevado de curtose indica que a distribuição possui caudas pe-
sadas. O valor de referência é a curtose da distribuição normal, que é 3. Assim é comum
referir-se a distribuições com caudas pesadas àquelas distribuições com valores de cur-
tose superiores a 3. Ou também é usual mencionar o excesso de curtose para esses casos,

4
significando o quanto excede a 3 a curtose da distribuição.

O momento de ordem m de uma distribuição E (X m ) é definido por


Z ∞
m
E (X ) = xm fX (x) dx (1.14)
−∞

O momento de uma função real g (x) é definido por


Z ∞
E (g (x)) = g (x) fX (x) dx (1.15)
−∞

O quantil α de uma distribuição de uma variável aleatória X é definido por

FX (xα ) = α

O quantil α = 0, 5 (ou quantil 50%) é chamado de mediana da distribuição de proba-


bilidade. Uma distribuição de probabilidade é simétrica em relação a um valor a se é
satisfeita a condição
fX (a − x) = fX (a + x) ∀x
Para uma distribuição simétrica temos a = E (x), ou seja, a média e a mediana são
coincidentes. A moda de uma variável aleatória é o valor de X para o qual fX (x) é
máximo local. Será unimodal para o caso de apenas um máximo.

Exercı́cio 1.1. Escreva a média, a variância, o m-ésimo momento e a esperança de


g (x) para a variável aleatória X do tipo discreto.

Função geradora de momentos e função caracterı́stica Vimos que a descrição de


uma variáevel aleatória X pode ser feita pelas funções densidade ou função distribuição.
Uma terceira maneira é através da função geradora de momentos. Posteriormente ver-
emos um quarto modo de descrever as propriedades de uma variável aleatória, trata-se
da função caracterı́stica.

O conceito de função geradora de momentos é muito importante na análise de processos


estocásticos e na demonstração de teoremas relacionados à convergência. Suponha que
o valor esperado de E (eux ) exista, então
Z ∞
uX
eux fX (x) dx

E e = (1.16)
−∞

 X ux
E euX = e fX (x) (1.17)
x

definem os valores esperados para distribuições contı́nuas e discretas, respectivamente.


Estes valores esperados são funções da variável u e são denominados de funções geradoras
de momentos, ou seja
MX (u) = E euX

(1.18)

5
Nem toda distribuição possui função geradora. Entretanto, quando uma distribuição
possui função geradora ela é única e permite a caracterização completa da distribuição
da variável aleatória. Observe que
Z ∞
dMX (u) 0
= MX (u) = xeux fX (x) dx (1.19)
du −∞

dMX (u) X
= MX0 (u) = xeux fX (x) (1.20)
du x
Fazendo u = 0 nas equações (1.19) e (1.20) obtemos o primeiro momento da distribuição
MX0 (0) = E (X) = µ
O segundo momento é obtido a partir da segunda derivada de MX (u):
Z ∞
00
MX (u) = x2 eux fX dx (1.21)
−∞
X
MX00 (u) = x2 eux fX (x) (1.22)
x
Temos portanto
E X 2 = MX00 (0)


E analogamente
(m)
E (X m ) = MX (0)

 √
Vamos definir o valor esperado E eiuX ) onde i é o número imaginário −1. A
função φX (u) = E eiuX existe para toda a distribuição e é denominada função carac-
terı́stica. Assim temos Z ∞
φX (u) = eiux fX (x) dx (1.23)
−∞
X
φX (u) = eiux fX (x) (1.24)
x
as funções caracterı́sticas das distribuições contı́nuas e discretas, respectivamente. Cada
distribuição possui uma função caracterı́stica que permite a obtenção dos seus momentos
e portanto, a completa descrição da distribuição. Assim temos: iE (X) = φ0 (0) e
i2 E (X 2 ) = φ00 (0). As transformações integrais como Laplace e Fourier são similares aos
conceitos acima de MX (u) e φX (u). Mais apropriadamente, a função caracterı́stica é a
transformada de Fourier da função densidade de probabilidade (veja estes conceitos na
seção 4.8.2).

1.3 Algumas distribuições


Distribuição de Bernoulli Seja X uma variável aleatória que pode assumir os val-
ores 0 e 1. Seja P (X = 1) = p, dizemos que X tem uma distribuição de Bernoulli
com parâmetro p (0 < p < 1)). A média e a variância de X são E (X) = p e
V ar (X) = p (1 − p).

6
Distribuição binominal A função densidade de uma variável aleatória X com dis-
tribuição binomial e parâmetros n e p é dada por
 
n x
fX (x) = p (1 − p)n−x (1.25)
x

veja no Exemplo 1.1 abaixo o cálculo da função geradora de momentos da distribuição


binomial.

Exemplo 1.2. Encontre a função geradora de momentos da distribuição binomial de-


scrita pela equação (1.25).

Solução: A função geradora, de acordo com a equação (1.18), será dada por
X n
MX (u) = eux px (1 − p)n−x
x
x

X n
MX (u) = (peu )x (1 − p)n−x
x
x
MX (u) = [(1 − p) + peu ]n
Derivando a equação acima em relação a t, temos

MX0 (u) = n [(1 − p) + peu ]n−1 peu

Logo o primeiro momento será µ = E (X) = M 0 (0) = np

A segunda derivada da função geradora é


n−2 2 2u
MX00 (u) = n (n − 1) (1 − p) p2 e2u + peu p e + np [(1 − p) + peu ]n−1 eu


MX00 (0) = n (n − 1) p2 + np
E a variância será

V ar (X) = σ 2 = MX00 (0) − (np)2 = np (1 − p)

Distribuição de Poisson Uma variável aleatória X definida no conjunto {0, 1, . . .}


tem uma distribuição de Poisson com parâmetro λ > 0 se
λx −λ
fX (x) = P (X = x) = e para x = 0, 1, . . . (1.26)
x!
A média e a variância de X são: E (X) = λ e V ar (X) = λ. Em uma distribuição binom-
inal que tenha o parâmetro n suficientemente grande e o parâmetro p muito pequeno, a
mesma pode ser aproximada por uma distribuição de Poisson tal que x p (1 − x)n−x ≈
n x

λx −λ
x!
e e λ = np, x = 0, 1, . . ..

7
Distribuição Normal A distribuição normal é a mais comumente utilizada para de-
screver uma variável aleatória que assume valores no eixo R e que sejams simétricos em
relação à moda. Se X é uma variável aleatória com distribuição Normal escrevemos que
X ∼ N (µ, σ 2 ), onde µ é a média e σ o desvio padrão de X. A sua função densidade é
dada por
" #
1 (x − µ)2
fX (x) = √ exp − x∈R (1.27)
2πσ 2σ 2

A função geradora de momentos e a função caracterı́stica de uma distribuição normal


são respectivamente

σ 2 u2 σ2
M (u) = eµu+ 2 φX (t) = eiµu− 2
u

A Figura 1.1 mostra a função densidade da distribuição normal padronizada, isto é, com
média µ = 0 e desvio padrão σ = 1.

Figura 1.1: Função densidade da distribuição normal padrão

Exemplo 1.3. Encontre os primeiro e segundo momentos de uma variável aleatória


X ∼ N (µ, σ 2 ) usando a função geradora M (u).

8
Solução: Sabemos que os momentos são dados pelas derivadas de M (t). Então temos
que
σ 2 u2
 
0
µ + σ2u

M (u) = exp µu +
2
2 2
σ 2 u2
   
00 σ u 2
2
M (u) = exp µu + µ + σ u + exp µu + σ2
2 2
E (X) = M 0 (0) = µ
E X 2 = M 00 (0) = µ2 + σ 2


Distribuição uniforme A distribuição uniforme é utilizada para modelar eventos que


sejam equiprováveis dentro do range de valores que a variável aleatória assume. Se X
é uma variável aleatória com distribuição uniforme escrevemos X ∼ U (a, b), onde b e a
são parâmetros (a < b) tais que
(
1
se x ∈ (a, b)
fX (x) = b−a (1.28)
0 caso contrário.

Exercı́cio 1.2. Calcule a média e a variância de X ∼ U (a, b) conforme definido na


equação (1.28). Calcule a probabilidade P (c ≤ X ≤ d) onde [c, d] é um subintervalo de
[a, b].

Distribuição Lognormal Uma importante distribuição de probabilidade em finanças


é a distribuição Lognormal. Em várias situações a literatura utiliza tal distribuição
modelando os preços de ativos financeiros, tal como os preços de ações no mercado. Os
capı́tulos seguintes tratarão com detalhes este fato. Uma variável aleatória X possui
distribuição lognormal com parâmetros µ e σ se sua função densidade é dada por
" #
1 (ln x − µ)2
fX (x) = √ exp − x>0 (1.29)
xσ 2π 2σ 2
Se X possui distribuição lognormal, então Y = ln (X) é normalmente distribuı́da tal
que Y ∼ N (µ, σ 2 ). A média e a variância de X, são respectivamente,
σ2
E (X) = E eY = eµ+ 2

(1.30)
2
 2

V ar (X) = V ar eY = e2µ+σ eσ − 1

(1.31)
A Figura 1.2 mostra a função densidade da distribuição lognormal com parâmetros µ = 0
e σ = 0, 5.

Exercı́cio 1.3. Seja Y = ln (X) onde Y ∼ N (µ, σ 2 ) e portanto X é lognormal. Mostre


que a média e a variância de X são dadas pelas equações (1.30) e (1.31), respectiva-
mente.

9
Figura 1.2: Função densidade da distribuição lognormal

Distribuição Gama Uma variável aleatória X possui distribuição Gama com parâmetros
α > 0 e β > 0 se sua função densidade é tal que

β α α−1 (−βx)
fX (x) = x e x>0 (1.32)
Γ (α)

onde a função Gama é definida por


Z ∞
Γ (u) = xu−1 e−x dx u>0
0

A Figura 1.3 mostra a função densidade da distribuição gama com parâmetros α = 2 e


β = 1.

Exercı́cio 1.4. Seja X uma variável aletória com distribuição Gama com parâmetros
α e β, conforme equação (1.32). Calcule a média e a variância de X. Note que para
α = 1 e β = λ tem-se a distribuição Exponencial.

Distribuição t de Student Tal como a normal, a distribuição t de Student é utilizada


para modelar eventos que assumem valores no eixo R e que sejam simétricos em relação
a moda. Possui um formato análogo ao de uma normal porém apresenta mais peso nas
caudas. Este peso é função do parâmetro ν, denominado graus de liberdade. Exatamente
por possuir esta propriedade, a literatura adota a distribuição t de Student como uma
distribuição que retrata melhor o comportamento dos retornos de ativos financeiros. Um

10
Figura 1.3: Função densidade da distribuição gama

fato estilizado1 nas séries de retornos é a presença de caudas pesadas. Este efeito pode
ser capturado pela distribuição t de Student. Dizemos então que X possui distribuição
t de Student e escrevemos X ∼ St (ν, µ, σ 2 ), onde ν representa o número de graus de
liberdade, µ é a média e σ 2 está relacionado à variância da distribuição. A função
densidade é dada por

!− ν+1
2
Γ ν+1
 2
2 1 1 (x − µ)
fX (x) = ν
√ 1+ (1.33)
Γ 2 νπσ ν σ2

p ν
A variância de X, definida para ν > 2, é dada por V ar (X) = ν−2 σ. A assimetria
6
é zero e a curtose, definida para ν > 4, é Ku (X) = 3 + ν−4 . Para ν da ordem de
30 a distribuição t de Student praticamente sobrepôe-se à distribuição normal que tem
os mesmos parâmetros de µ e σ 2 . Baixos valores de ν significam excesso de curtose e
caudas bem mais espessas que a normal. A Figura 1.4 mostra as funções densidades das
distribuições t de Student com parâmetros µ = 0, σ = 1, ν = 3 e normal padronizada.
Observe o efeito das caudas pesadas da distribuição t de Student sobre a normal. Este
efeito diminui à medida que o número de graus de liberdade aumenta. Para ν = 30, por
exemplo, as duas distribuições praticamente se sobrepõem.

1
Os fatos estilizados são regularidades estatı́sticas observadas em um grande número de séries finan-
ceiras de retornos, a partir de estudos empı́ricos em diversos mercados.

11
Figura 1.4: Funções densidades das distribuições t de Student e normal

Distribuição de Cauchy Uma variável aleatória X possui distribuição de Cauchy


com parâmetros µ e σ se sua função densidade é dada por

σ
fX (x) = para x ∈ R (1.34)
π σ + (x − µ)2
 
2

Os parâmetros µ e σ são tais que −∞ < µ < ∞ e σ > 0. Tal como a distribuição normal
e t de Student, a distribuição de Cauchy está definida em R e distribui-se simetricamete
em relação a moda. É utilizada para modelar eventos extremos já que possui caudas
mais pesadas (excesso de curtose) que as da distribuição t de Student. Os momentos
de X não estão definidos pois os mesmos envolvem a integração da função densidade da
equação (1.34) que não converge. A mediana e a moda de X é o parâmetro µ. A Figura
1.5 mostra as funções densidades das distribuições Cauchy com parâmetros µ = 0, σ = 1;
t de Student com parâmetros µ = 0, σ = 1, ν = 3 e normal padronizada. Observe que
a distribuição Cauchy apresenta caudas mais pesadas que as demais.

Exercı́cio 1.5. Uma variável aleatória possui distribuição Exponencial com parâmetro
λ > 0 se sua função densidade é tal que fX (x) = λ exp (−λx) , x ≥ 0. Calcule a
média e a variância de X. Escreva a função distribuição FX (x).

12
Figura 1.5: Densidades Cauchy, t de Student e normal

1.4 Variáveis aleatórias multidimensionais


Variáveis discretas Considere uma variável aleatória no espaço de dimensão dois es-
crita como um vetor aleatório (X, Y ) em que X e Y podem assumir os valores x0 , . . . , xn
e y0 , . . . , yn , respectivamente.

As distribuições de probabilidade das variáveis aleatórias X e Y são dadas por


pi = P (X = xi ) i = 0, 1, . . . , n (1.35)
qj = P (Y = yj ) j = 0, 1, . . . , n (1.36)
Agora considere o evento em que X = xi e Y = yj . A probabilidade deste evento é
rij = P (X = xi ∩ Y = yj )
em que rij define a distribuição de probabilidade conjunta do vetor aleatório (X, Y ).
Podemos escrever que
n
X n
X
pi = rij i = 0, . . . , n qj = rij j = 0, . . . , n (1.37)
j=0 i=0

As distribuições de probabilidades pi e qj constituem as distribuições marginais da dis-


tribuição conjunta (X, Y ). Pela definição de probabilidade condicional em (1.1), pode-
mos definir as distribuições condicionais de X|Y e de Y |X como
rij
P (X = xi |Y = yj ) = i = 0, 1, . . . , n (1.38)
qj

13
rij
P (Y = yj |X = xi ) = j = 0, 1 . . . , n (1.39)
pi
Uma vez que definimos as distribuições condicionais, podemos definir o valor esperado
condicional
n
X rij
E (X|Y = yj ) = xi (1.40)
i=0
qj
n
X rij
E (Y |X = xi ) = yj (1.41)
j=0
pi

Observe que o valor esperado condicional é uma variável aleatória pois a condição varia,
assim para E (X|Y ) podemos admitir os seguintes valores para esta variável aleatória:
E (X|Y = y0 ), E (X|Y = y1 ) . . . E (X|Y = yn ).

Portanto, se E (X|Y ) é uma variável aleatória, podemos calcular a sua média, ou seja,
E (E (X|Y )). Assim temos
n
X
E (E (X|Y )) = E (X|Y = yj ) P (Y = yj )
j=0

Usando as definições de cada termo do somatório acima dados em (1.40) e (1.36), temos:
n X
n n n
X rij XX
E (E (X|Y )) = xi q j = xi rij
j=0 i=0
qj j=0 i=0

n
X n
X
E (E (X|Y )) = xi rij
i=0 j=0

Usando a equação (1.37) que define o somatório interno acima, temos:


n
X
E (E (X|Y )) = xi pi = E (X)
i=0

Da mesma forma que provamos que E (E (X|Y )) = E (X) prova-se que E (E (Y |X)) =
E (Y ). Da definição de independência entre eventos aleatórios na equação (1.4) temos
que se o evento X = xi é independendete de Y = yi , então a probabilidade conjunta rij
é dada por

rij = P (X = xi ∩ Y = yi ) = P (X = xi ) P (Y = yi ) = pi qi

Exemplo 1.4. Sejam X e Y duas variáveis aleatórias com função densidade conjunta
fXY (x, y) descrita na tabela acima. Encontre as duas funções densidades marginais e
as médias condicionais: E (X|Y = 0), E (X|Y = 1) e E (X|Y = 2).

14
Tabela 1.1: Distribuição Exemplo 1.2
(x, y) (0,0) (0,1) (0,2) (1,0) (1,1) (1,2) (2,0) (2,1) (2,2)

1 2 3 5 6 4 3 2 1
fXY (x, y) 27 27 27 27 27 27 27 27 27

Solução: Usando a notação do texto, temos que pi e qj representam as distribuições


(ou densidades) marginais de X e Y , respectivamente. Logo temos
2
X
pi = rij i = 0, 1, 2
j=0

2
X
qj = rij j = 0, 1, 2
i=0

aqui rij equivale a fXY (x, y). Assim, temos a Tabela 1.2

Tabela 1.2: Distribuição marginal de X


x 0 1 2

6 15 6
pi 27 27 27

A distribuição marginal de Y esta descrita na Tabela 1.3.

Tabela 1.3: Distribuição marginal de Y


y 0 1 2

9 10 8
qj 27 27 27

A distribuição condicional de X|Y = 0 está descrita na Tabela 1.4 e foi calculada


conforme as equações (1.38) e (1.37): O primeiro valor de probabilidade condicional

Tabela 1.4: Distribuição condicional de X|Y = 0


x 0 1 2

1 5 3
P (X|Y = 0) 9 9 9

1
rij
desta tabela é dado por qj
= 27
9 . A distribuição condicional de X|Y = 1 está descrita
27
na Tabela 1.5.

15
Tabela 1.5: Distribuição condicional de X|Y = 1
x 0 1 2

2 6 2
P (X|Y = 1) 10 10 10

Tabela 1.6: Distribuição condicional de X|Y = 2


x 0 1 2

3 4 1
P (X|Y = 2) 8 8 8

A distribuição condicional de X|Y = 2 está descrita na Tabela 1.6.


As médias condicionais serão:
1 5 3 11
E (X|Y = 0) = 0 × +1× +2× =
9 9 9 9
2 6 2
E (X|Y = 1) = 0 × +1× +2× =1
10 10 10
3 4 1 6
E (X|Y = 2) = 0 × + 1 × + 2 × =
8 8 8 8
A média incondicional E (X) é a ponderação das médias condicionais acima pelas prob-
abilidades P (Y = 0), P (Y = 1) e P (Y = 2), tal que
11 9 10 6 8
E (X) = × +1× + × =1
9 27 27 8 27
Observe também que a média incondicional E (X) pode ser obtida diretamente da Tabela
1.2 que fornece a distribuição marginal de X:
6 15 6
E (X) = 0 × +1× +2× =1
27 27 27


Variáveis contı́nuas Sejam X e Y variáveis aleatórias do tipo contı́nuo, distribuı́das


tal que x ∈ R e y ∈ R. A função distribuição conjunta de (X, Y ) é dada por

FX,Y = P (X ≤ x, Y ≤ y)

Se as derivadas parciais com relação a x e y existem, então a função densidade conjunta


de (X, Y ) é dada por
∂ 2 FX,Y (x, y)
fXY (x, y) =
∂x∂y
A função distribuição pode ser definida por
Z x Z y
FXY (x, y) = fXY (x, y) dxdy
−∞ −∞

16
Analogamente ao caso discreto, as funções densidades marginais (ou simplesmente as
distribuições marginais) de X e Y são respectivamente:
Z ∞
fX (x) = fXY (x, y) dy (1.42)
−∞
Z ∞
fY (y) = fXY (x, y) dx (1.43)
−∞

Se as variáveis aleatórias são independentes podemos escrever

FXY = FX (x) FY (y)

onde FX (x) e FY (y) são funções distribuições marginais de X e Y , respectivamente.

Da mesma forma, a densidade conjunta é dada por

fXY (x, y) = fX (x) fY (y)

onde fX (x) e fY (y) são as densidades marginais de X e Y , respectivamente.

Seguindo o caso discreto, as funções densidades condicionais são definidas por

fXY (x, y)
fX (x|y) = (1.44)
fY (y)

fXY (x, y)
fY (y|x) = (1.45)
fX (x)
As variáveis aleatórias E (X|Y ) e E (Y |X) são escritas como
Z ∞
E (X|Y = y) = xfX (x|y) dx
−∞
Z ∞
E (Y |X = x) = yfY (y|x) dy
−∞

São válidas as propriedades para as variáveis aleatórias X, Y e Z:

(i) E (E (X|Y )) = E (X) e E (E (Y |X)) = E (Y )

(ii) E (X + Y |Z) = E (X|Z) + E (Y |Z)

(iii) E (XY ) = E (XE (Y |X))

Se X e Y são independentes temos que E (X|Y ) = E (X) e E (XY ) = E (X) E (Y ).

A variância condicional de X dado Y é definida por


Z ∞
2 
(x − E (X|y))2 fX (x|y) dx

V ar (X|Y = y) = E (X − E (X|y)) |y =
−∞

17
Também podemos escrever

V ar (X|Y ) = E X 2 |y − (E (X|y))2


Das equações (1.44) e (1.43), temos que


fXY (x, y) fXY (x, y)
fX (x|y) = =R
fY (y) fXY (x, y) dx
Usando a equação (1.45), temos
fY (y|x) fX (x)
fX (x|y) = R (1.46)
fY (y|x) fX (x) dx
A equação (1.46) é o teorema de Bayes que fornece a densidade condicional de X em
termos das densidades condicional de Y e da densidade marginal de X.
Exemplo 1.5. Sejam X e Y duas variáveis aleatórias com função densidade conjunta
dada por (
1
2
se 0 < x < y < 2
fXY (x, y) =
0 caso contrário.

(i) Encontre as funções densidades marginais

(ii) Encontre a funções densidades condicionais

(iii) Calcule a variável aleatória E (X|Y ) (média condicional)

(iv) Calcule a variância condicional V ar (X|Y )

(v) Calcule P 1 < X < 23 |Y = 32 e P 1 < X < 23


 

Solução: Vamos denominar o espaço onde a função densidade conjunta é definida por
A = {(x, y) : 0 < x < y < 2}.
(i) As densidades marginais de X e de Y são:
Z 2 (
1
1 (2 − x) 0 < x < 2
fX (x) = dy = 2
x 2 0 caso contrário
Z y
1 1
fY (y) = dx = y 0<y<2
0 2 2
(ii) As densidades condicionais de X e Y são
( 1
fXY (x,y)
fY (y)
= y2 = y1 0<x<y 0<y<2
fX (x|y) = 2

0 caso contrário
( 1
fXY (x,y) 1
fX (x)
= 2
2−x = 2−x
0<x<y 0<y<2
fY (y|x) = 2

0 caso contrário

18
(iii) A média condicional E (X|Y ) é dada por
Z Z y
1 y
E (X|Y ) = xfX (x|y) dx = x dx = 0<y<2
0 y 2

(iv) A variância condicional V ar (X|Y )


Z y
2
(x − E (X|y))2 fX (x|y) dx
 
V ar (X|Y ) = E (X − E (X|Y )) |y =
0
Z y
 y 2 1 1
= x− dx = y 2 0<y<2
0 2 y 12

(v) O valor da probabilidade P 1 < X < 32 |Y = 32 é dada por




Z x2
P (x1 < X < x2 |Y = y1 ) = fX (x|y) dx
x1
  Z 3
3 3 2 1
P 1 < x < |Y = = dx
2 2 1 y
   
3 3 1 3 1
P 1 < x < |Y = = 3 × −1 =
2 2 2
2 3
O valor da probabilidade incondicional P 1 < X < 32 é dada por


Z Z
P (x1 < X < x2 ) = fXY (x, y) dxdy
A
3
  Z Z 2
3 2 1 3
P 1<X< = dydx =
2 1 x 2 16

Definição 1.1. (Covariância) A covariância entre duas variáveis aletórias X e Y é
dada por
Cov (X, Y ) = E [(X − E (X)) (Y − E (Y ))] (1.47)
Definição 1.2. (Correlação) O coeficiente de correlação é dado por
Cov (X, Y )
ρXY = p p (1.48)
V ar (X) V ar (Y )
O coeficiente de correlação é tal que −1 < ρXY < 1 para quaisquer variáveis
aleatórias X e Y . Se ρXY = ±1 então exite uma relação linear entre X e Y tal que
Y = aX + b, sendo a e b duas constantes. Se X e Y são independentes, ρXY = 0. O
coeficiente de correlação define o quão as variáveis aleatórias X e Y estão associadas
linearmente. Dizemos que X e Y são descorrelatadas se ρXY = 0. Segue da definição de
ρXY que caso X e Y sejam descorrelatadas (ρXY = 0) então E (X, Y ) = E (X) E (Y ),
que é o caso de independência. Portanto, se X e Y são independentes, são também
descorrelatados. Se X e Y são descorrelatados não são necessariamente independentes.

19
Tabela 1.7: Distribuição Exercı́cio 1.5
(x, y) (-1,-2) (-1,0) (-1,2) (0,-2) (0,0) (0,2) (1,-2) (1,0) (1,2)

1 3 1 3 5 3 4 3 4
fXY (x, y) 27 27 27 27 27 27 27 27 27

Exercı́cio 1.6. Sejam X e Y duas variáveis aleatórias com função densidade descrita
na Tabela abaixo. Mostre que ρX,Y = 0 e verifique que X e Y não são independentes.

Exemplo 1.6. A função densidade conjunta de (XY ) é dada por


(
3
(x2 + y 2 ) 0 < x < 1 0 < y < 1
fXY (x, y) = 2
0 caso contrário

Calcule o coeficiente de correlação ρXY .

Solução: A média incondicional é dada por


Z 1Z 1
3 3
x x2 + y 2 dxdy =

E (X) =
0 0 2 8

O segundo momento E (X 2 ) é dado por


Z 1Z 1
2 3 7
x2 x2 + y 2 dxdy =
 
E X =
0 0 2 15
A variância de X é
 2
2
 27 5 73
V ar (X) = E X − E (X) = − =
15 8 960
5
A simetria das variáveis aleatórias X e Y permite concluir que E (Y ) = 8
e V ar (Y ) =
73
960
. O momento de E (XY ) é dado por
Z 1 Z 1
3 2 3
x + y 2 dxdy =

E (XY ) = xy
0 0 2 8
A covariância de X e Y é dada por
3 55 1
Cov (X, Y ) = E (XY ) − E (X) E (Y ) = − =−
8 88 64
Finalmente o coeficiente de correlação definido na equação (1.33) é
1
− 64 15
ρXY = q q =−
73 73 73
960 960

20
Exercı́cio 1.7. Calcule o coeficiente de correlação entre X e Y para a função densidade
conjunta definida no Exemplo 1.5.
Exercı́cio 1.8. Considere X e Y variáveis aleatórias com variãncia finita e sejam α e
β ∈ R. Mostre que Cov (X + α, Y + β) = Cov (X, Y ).
Definição 1.3. (Densidade Normal Multivariada) Considere o vetor aleatório mul-
tivariado X = (X1 , X2 , . . . , Xn )> de dimensão n cuja média é o vetor µ = (µ1 , µ2 , . . . , µn )> ;
o vetor x = (x1 , x2 , . . . , xn )> e a matriz de covariância Σ = (σij ). Então x tem uma
distribuição normal multivariada se a densidade conjunta é dada por
 
1 1 > −1
fX (x) = p exp − (x − µ) Σ (x − µ) (1.49)
(2π)n |Σ| 2

onde |Σ| e Σ−1 representam o determinante e a inversa de Σ e (x − µ)> é o transposto


do vetor x − µ. Cada densidade marginal fXi (xi ) possui distribuição normal tal que
Xi ∼ N (µ, σ 2 ) em que σi2 = Σii . Se as variáveis aleatórias Xi são descorrelatadas a
matriz Σ será diagonal com Σij = 0 para i 6= j.

Considere a distribuição normal multivariada em que o vetor X é separado em dois


conjuntos P e Q com dimensões p e q = n − p, respectivamente. Então escrevemos que
     
XP µP ΣP ΣP Q
X= µ= Σ=
XQ µQ ΣQP ΣQ
A distribuição marginal de XP é normal tal que XP ∼ N (µP , ΣP ). A distribuição
condicional de XQ dado xP é normal tal que
XQ |xP ∼ N (µQ |xP , ΣQ |xP )
onde
µQ |xP = µQ + ΣQP Σ−1
P (xP − µP )

ΣQ |xP = ΣQ − ΣQP Σ−1


P ΣP Q

Como visto anteriormente duas variáveis aleatórias com distribuição normal conjunta
são independentes se e somente se sua covariância é zero:
(Xi , Xj ) são independentes ⇔ Cov (Xi , Xj ) = 0 (1.50)
Definição 1.4. (Densidade Normal Bivariada) Sejam as variáveis X e Y com
2
distribuições normais tais que X ∼ N (µX , σX ) e Y ∼ N (µY , σY2 ), onde −∞ < µX < ∞,
−∞ < µY < ∞, σX > 0 e σY > 0. Define-se que o vetor aleatório (X, Y ) possui
distribuição normal bivariada se a função densidade conjunta é dada por
1
fXY (x, y) = p ×
2πσX σY (1 − ρ2XY )
( " #)
1 (x − µX )2 2ρ (x − µX ) (y − µY ) (y − µY )2
exp − − +
2 (1 − ρ2XY ) σX2
σX σY σY2
onde −1 < ρXY < 1, x ∈ R e y ∈ R.

21
As funções densidades marginais de X e Y são
" #
2
1 (x − µX )
fX (x) = √ exp − 2
2πσX 2σX
" #
1 (y − µY )2
fY (y) = √ exp −
2πσY 2σY2
Vamos rever a consideração da equação (1.48) sob outra perspectiva. Para que X e Y
sejam independentes é necessário fXY (x, y) = fX (x) fY (y). Isto somente ocorrerá se
ρXY = 0, e isto significa também descorrelação. Portanto, em uma distribuição normal
bivariada, X e Y são independentes se e somente se X e Y são descorrelatados. A
Figura 1.6 mostra a densidade de uma distribuição normal bivariada em que X e Y são
independentes.

Figura 1.6: Densidade normal bivariada com X e Y independentes

A Figura 1.7 mostra na parte superior esquerda o mesmo gráfico da Figura 1.6.
Ainda na parte superior à direita temos uma simulação com 1.000 pontos mostrandos
duas distribuições normais independentes (descorrelacionadas). Na Figura 1.7 na parte
inferior temos uma distribuição normal bivariada em que o coeficiente de correlação é
ρX,Y = 0, 8. No canto inferior direito temos uma simulação com 1.000 pontos em que
ρX,Y = 0, 8.

Exemplo 1.7. Sejam X1 ∼ N (1, 2), X2 ∼ N (2, 1) e ρ1,2 = 0, 5. Escreva a matriz Σ,


defina a função densidade de (X1 , X2 ) e especifique a distribuição condicional de X2 |X1 .

22
Figura 1.7: Distribuição normal: (a) e (b) X e Y independentes, (c) e (d) ρX,Y = 0, 8

Solução: A matriz Σ é dada por


√ !
2
 
σ12 ρσ1 σ2 2 2
Σ= = √
ρσ1 σ2 σ22 2
1
2

A função densidade é dada por


1
fXY (x, y) = √ √ ×
2π 2 1 − 0, 25
" !#
1 (x1 − 1)2 (x1 − 1) (x2 − 2)
exp × − √ + (x2 − 2)2
2 (1 − 0, 25) 2 2

  
1 1 2 2
fXY (x, y) = √ × exp (x1 − 1) − 2 (x1 − 1) (x2 − 2) + 2 (x2 − 2)
π 6 3
A distribuição condicional X2 |x1 é tal que

X2 |x1 ∼ N µ2 |x1 , σ22 |x1




onde √
2
µ2 |x1 = 2 + (x1 − 1)
4
3
σ22 |x1 =
4


23
Soma de variáveis aleatórias O valor esperado da soma de variáveis aleatórias (do
tipo discreto ou contı́nuo) é igual a soma do valor esperado de cada variável aleatória.
Em outras palavras !
X n X n
E Xi = E (Xi ) (1.51)
i=1 i=1

esta verificação é imediata a partir da definição de valor esperado.

A variância da soma de variáveis aleatórias é dada por


n
! n
X X Xn
V ar Xi = V ar (Xi ) + 2 Cov (Xi , Xj ) (1.52)
i,j=1
i=1 i=1 i<j

Se as variáveis aleatórias são descorrelatadas o termo da covariância desaparece e então


pode-se dizer que a variância da soma de variáveis aleatórias descorrelatadas é igual à
soma das variâncias de cada variável aleatória. Para variáveis aleatórias iid, com média
µ e variância σ 2 , pode-se afirmar
n
! n
!
X X
E = nµ V ar Xi = nσ 2
i=1 i=1

Exemplo 1.8. Considere que os retornos de dois ativos A e B tenham distribuições tais
que RA ∼ N (2, 4) e RB ∼ N (1, 2). A correlação entre A e B é ρ = −0, 4. Encontre a
média e variância de um portfólio formado pelos ativos A e B.

Solução: O valor esperado para o retorno do portfólio formado pelos dois ativos, con-
forme equação (1.51), é E (RA + RB ) = E (RA ) + E (RB ) = 3.

A variância, conforme equação (1.52), é

V ar (RA + RB ) = V ar (RA ) + V ar (RB ) + 2 Cov (RA , RB )


√| {z√ }
=ρ V ar(RA ) V ar(RB )
√ √
= 4 + 2 + 2 × (−0, 4) × 4 2
= 3, 737

1.5 Transformação de densidade de probabilidade


Considere X um vetor aleatório multivariado de dimensão n cuja função densidade é
conhecida. Seja g : Rn → R uma função contı́nua. Desejamos expressar a densidade
g (X) em termos da densidade de X. Os exemplos abaixo esclarecem os procedimentos
para a transformação da função densidade.

Exemplo 1.9. Seja a função densidade de X dada por fX (x) = 1 0 < x < 1. Encontre
a função densidade de Y = X 2 .

24
Solução: Buscamos encontrar a função densidade de Y tal que
√ √
FY (y) = P (Y ≤ y) = P X 2 ≤ y = P (− y ≤ X ≤ y)


Como a variável X está definida no intervalo (0, 1), temos



y
√ √
Z
FY (y) = P (Y ≤ y) = P (0 < X ≤ y) = 1dx = y
0

Logo escrevemos 
0
 y≤0

FY (y) = y 0<y<1

1 y≥1

A função densidade será


(
1

2 y
0<y<1
fY (y) =
0 caso contrário

Exemplo 1.10. Sejam X e Y variáveis aleatórias cuja função densidade conjunta é


dada por (
1 0 < x < 1, 0 < y < 1
fX,Y (x, y) =
0 caso contrário
Encontre a função densidade de Z = X + Y .

Solução: Temos que

FZ (z) = P (Z < z) = P (X + Y < Z) = P [(X, Y ) ∈ A]

onde A = {(X, Y ) : x + y < z}. Então temos para 0 ≤ z < 1 (equivale à área A1 da
Figura 1.8).
Z z Z z−x
z2
Z Z
FZ (z) = P (Z < z) = fX<Y (x, y) dxdy = 1dydx =
A 0 0 2

Para 1 ≤ z < 2, temos (equivale à área A2 na Figura 1.8)


1 1
(2 − z)2
Z Z
FZ (z) = P (Z < z) = 1 − 1dydx = 1 −
z−1 z−x 2

Logo escrevemos: 


 0 z<0
 z2

0≤z<1
2
FZ (z) = (2−z)2


 1− 2
1≤z<2
z≥2

1

25
Figura 1.8: Regiões de integração da função densidade

E a função densidade será



z
 0<z<1
fZ (z) = 2 − z 1≤z<2

0 caso contrário

Exemplo 1.11. Considere o mesmo enunciado do Exemplo 1.10. Encontre a função


densidade Z = XY .

Solução: Vamos encontrar a função distribuição de Z, FZ (z). Esta função dis-


tribuição será zero para z ≤ 0, pois a variável aleatória Z não está definida para tais
valores. Para z ≥ 1 a função distribuição assume valor 1. Resta agora definir a função
para 0 < z < 1, assim temos:

FZ (z) = P (Z < z) = P (XY < z)

Os valores da variável aleatória Z são definidas pelo produto de X e Y , ou seja, y = xz .


Logo
FZ (z) = P (Z < z) = P [(X, Y ) ∈ A]
onde A = {(x, y) : xy < z}. Veja na Figura 1.9 as áreas A1 e A2 que estão sendo
integradas:

26
Figura 1.9: Regiões de integração da função densidade
Z Z
FZ (z) = P (Z < z) = fX,Y (x, y) dxdy = Área A1 + Área A2
z
Z z Z 1 Z 1 Z
x 1
= 1dydx + 1dydx = z + z ln
0 0 z 0 z
Logo a função densidade de Z é dada por
(
ln z1 0≤z<1
fZ (z) =
0 caso contrário

1.6 Desigualdades em probabilidade e teoremas lim-


ites
Definição 1.5. (Desigualdade de Chebyshev) Seja X uma variável aleatória com
média µ e variância σ 2 . Seja também k > 0, então pode-se escrever que
1
P (|X − µ| ≥ kσ) ≤ (1.53)
k2
Em outras palavras, a desiguladade de Chebyshev estabelece um limite superior
para a probabilidade da variável aleatória situar-se em determinada faixa de valores. A
demonstração deste resultado está no Apêndice deste capı́tulo.

27
Definição 1.6. (Desigualdade de Markov) Seja f (x) uma função não negativa e
crescente de uma variável aleatória X definida no intervalo x ≥ 0. Seja c ≥ 0, então
pode-se escrever
E [f (X)]
P (|X| ≥ c) ≤
f (c)
Este também é um resultado que fornece limites para os resultados dos valores da
probabilidade de X situar-se em uma faixa de valores. A demonstração está feita no
Apêndice do capı́tulo.
Definição 1.7. (Desigualdade dos momentos) São válidas as seguintes desigual-
dades:
(i) Desigualdade de Schwarz: [E (XY )]2 ≤ E (|X|2 ) E (|Y |2 )
(ii) Desigualdade de Jensen: Seja f uma função convexa em R. Considere que E (|X|)
e E [|f (X) |] sejam finitas, então f [E (X)] ≤ E [f (X)].
Os teoremas limites estão fundamentados em critérios de convergência para uma
sequência de variáveis aleatórias.
Definição 1.8. (Convergência em Probabilidade) Uma sequência de variáveis
aleatórias {X1 , X2 , . . .} converge em probabilidade para uma variável aleatória X se
para  > 0 ocorre
lim P (|XN − X| > ) = 0
N →∞

Definição 1.9. (Convergência de ordem p) Uma sequência de variáveis aleatórias


{X1 , X2 . . .} tal que E [|XN |p ] < ∞, N = 1, 2, . . . converge no primeiro momento com
ordem p (1 ≤ p < ∞) para a variável aletória X, se
lim E [|XN − X|p ] = 0
N →∞

Para o caso em que p = 2 temos o caso da convergência média quadrática. Este con-
ceito de convergência será utilizado para a definição de integral no ambiente estocástico.
Definição 1.10. (Convergência quase certa) Uma sequência de variáveis aleatórias
{X1 , X2 . . .} converge com probabilidade 1 ou quase certamente (q.c.) para X se
h i
P lim XN = X = 1
N →∞

Definição 1.11. (Convergência em distribuição) Seja a sequência de variáveis


aleatórias {X1 , X2 . . .}. Considere que FXi (X) é a função distribuição de Xi . A sequência
acima converge para X com função distribuição FX (x) se
lim FXN = lim P (XN ≤ x) = P (X ≤ x) = FX (x)
N →∞ N →∞

Teorema 1.1. (Lei fraca dos grandes números) Considere X̄N a média de uma
amostra de tamanho N de uma variável aletória X que tem média µ e variânciaP σ 2 . Seja
{X1 , X2 . . .} uma sequencia iid desta variável aleatória. Sabemos que X̄N = N N
1
i=1 Xi .
A sequência {X1 , X2 . . .} converge em probabilidade para µ se
P (|XN − µ| > ) = 0
onde  > 0.

28
σ2
Prova. A variância de X̄N é N
. A desigualdade de Chebyshev garante que

1
P [|X − µ| ≥ kσ] ≤
k2

Temos que provar que limN →∞ P |X̄N − µ| >  = 0.
1
N2

Considere P |X̄N − µ| >  . Então tomando k = σ
, temos
 
  kσ
P |X̄N − µ| >  = P |X̄N − µ| ≥  = P |X̄N − µ| > 1
N2

e a desigualdade de Chebyshev garante que tal probabilidade deve ser menor ou igual
1 σ2 σ2

a k2 = N 2 . Logo P |X̄N − µ| >  ≤ N 2 . Tomando o limite quanto N → ∞ temos o
resultado desejado. Esta é a lei fraca dos grandes números.

Teorema 1.2. Seja {X1 , X2 . . .} uma sequência de variáveis aleatórias com média µ.
A correspondete sequência X̄1 , X̄2 , . . . converge quase certamente (converge com pro-
babilidade 1) para µ.

Teorema 1.3. Seja {X1 , X2 . . .} uma sequência de variáveis aleatórias com parametros
P∞ σi 2
µi = E (Xi ) e σi2 = V ar (Xi ) sob a condição de que i=1 i < ∞. A sequência
1
PN
{Y1 , Y2 . . .} tal que YN = X̄N − N i=1 µi converge quase certamente (convergência com
probabilidade 1) para zero.

Estes dois últimos teoremas representam a lei forte dos grandes números, pois o
critério de convergência é o critério quase certamente (convergência com probabilidade
1).

O Teorema Central do Limite é um importante resultado da Teoria de Probabilidade


que estabelece que se X1 , X2 , . . . , XN são os elementos de uma amostra aleatória de
tamanho N de qualquer√
distribuição que tenha variância finita σ 2 e média µ, então a
N (X̄−µ)
variável aleatória σ
tem como limite uma distribuição normal com méida zero e
variância 1. A partir deste teorema pode-se inferir probabilidades sobre X̄.

Teorema 1.4. (Teorema Central do Limite) Seja {X1 , X2 . . .} uma sequência de


variáveis aleatórias iid de uma distribuição com média µ e variância σ 2 . Então a
variável aleatória √
PN 
X i − N µ N X̄ N − µ
YN = i=1√ =
Nσ σ
tem uma distribuição que tende para uma normal com média zero e variância 1 quando
N → ∞.

Exemplo 1.12. Seja X̄ a média de uma amostra aleatória de tamanho 1800 extraı́da de 
uma distribuição Gama de parâmetros α = 2 e β = 3. Avalie o valor de P 5, 8 < X̄ < 6, 2 .

29
Solução: A solução do Exercicio 1.4 fonece o valor da média e variância da distrbuição
Gama. A média é dada por µ = αβ e a variância σ 2 = αβ 2 . Isto é µ = 6 e σ 2 = 18.
Logo pode-se escrever com base no Teorema Central do Limite que
√ √  √ !
 N (5, 8 − µ) N X̄ − µ N (6, 2 − µ)
P 5, 8 < X̄ < 6, 2 = P < <
σ σ σ
 
= P −2 < 10 X̄ − 6 < 2
= 0.9545

Exercı́cio 1.9. Considere X̄ a média de uma amostra aleatória de tamanho 100 extraı́da
 tal que U ∼ (0, 2).
de uma distribuição uniforme
Avalie P 1, 95 < X̄ < 2, 05 .

1.7 Inferência estastı́stica


Um importante assunto em finanças é o tratamento de dados obtidos em mercados a
partir de negociações de ativos entre os agentes. Estes dados permitem inferir sobre
as propriedades de determinada variável sobre a qual estamos analisando o comporta-
mento. Por exemplo, podemos a partir de uma série histórica de preços do petróleo
concluir que a distribuição lognormal descreve bem esta variável? Se afirmativo quais
os valores dos parâmetros desta distribuição? Note que buscamos descrever a variável
preço do petróleo inferindo sobre o tipo da distribuição e os parâmetros que a definem.
O assunto que trata tais questões em estatı́stica é denominado inferência estatı́stica.
Nesta seção vamos apenas destacar alguns conceitos relevantes. O Capı́tulo 2 será mais
abrangente e apresentará com detalhes a aplicação de conceitos estatı́sticos aos dados
de preços.

Os conceitos de população e amostra já nos são familiares, vamos definir o conceito
de estatı́stica. Sejam X1 , . . . , XN uma amostra aleatória de uma variável X, qualquer
função que seja dependente
PN unicamente da amostra é denominada de estatı́stica. Por
1
exemplo, X̄ = N i=1 Xi , é uma estatı́stica, a mediana de uma amostra é também
2
uma estatı́stica. Outro exemplo importante é a estatı́stica N1 N
P
i=1 Xi − X̄ que está
relaciona ao segundo momento da distribuição de X.

Seja X1 , . . . , XN uma amostra da variável aleatória X, considere então que as variáveis


X1 , . . . , XN são independentes. Isto significa que cada valor Xi é obtido por um sorteio a
partir da função densidade que representa X independentemente de outro valor sorteado
Xj , i 6= j. Esta amostra é dita iid pois as variáveis aleatórias são independentes e iden-
ticamente distribuı́das (têm a mesma origem).

A partir deste conjunto de variáveis aleatórias ou amostra iid podemos escrever que
a densidade conjunta é o produto das funções densidades individuais à semelhança do

30
conceito de probabilidade de eventos independentes na equação (1.4).

Mais especificamente vamos considerar que cada variável aleatória seja oriunda da
função densidade que tenha θ como parâmetro que define a distribuição. Assim a função
densidade conjunta, será
N
Y
f (x1 , . . . , xN ; θ) = f (xi ; θ) (1.54)
i=1

A função densidade conjunta também é conhecida como função de verossimilhança


de θ. A questão central é definir o parâmetro θ, ou melhor inferir sobre θ, dada a
observação amostral. Então escrevemos que a versossimilhança é
N
Y
L (θ; x) = f (xi ; θ) (1.55)
i=1

A função de verossimilhança será utilizada como uma das metodologias para es-
timação do parâmetro θ. O verdadeiro valor de θ somente poderá ser obtido se tivéssemos
acesso a toda a população dos dados. Na prática isto é impossı́vel, conhecemos apenas
parte da população, ou seja, uma amostra. Por isto que estimação do parâmetro θ é
função da amostra. Dizemos então que θ̂ é um estimador do verdadeiro parâmetro θ.
O range de valores que o estimador pode assumir é denominado de espaço paramétrico
Θ. Se por exemplo o parâmetro que estamos estimando é a média de uma distribuição
normal, o espaço paramétrico será o conjutno dos reais, tal que θ̂ ∈ R. Se o parâmetro
for a variância o espaço paramétrico será o conjunto dos reais positivos, θ̂ ∈ R+ .

Um estimador θ̂ é não tendencioso se o seu valor esperado é o verdadeiro parâmetro


θ, ou seja  
E θ̂ = θ (1.56)

Exemplo 1.13. Considere X1 , . . . , XN , uma amostra iid da variável aleatória X de


média µ e variância σ 2 . Seja a estatı́stica
N
1 X
X̄ = Xi
N i=1
 
Calcule E X̄ e V ar X̄ .

Solução: O valor esperado de X̄ é


" N
# N
 1 X 1 X 1
E X̄ = E Xi = E (Xi ) = (N µ) = µ
N i=1 N i=1 N

A variância de X̄
N
! N
1 X 1 X 1 1
V ar (Xi ) = 2 N σ 2 = σ 2

V ar X̄ = V ar Xi = 2
N i=1 N i=1 N N

31
Logo o estimador X̄ é um estimador não tendencioso da média µ da variável aleatória
X.

Exemplo 1.14. Retome o enunciado do Exemplo 1.13. Seja a estatı́stica


N
21 X 2
σ̂ = Xi − X̄
N i=1

Verifique se σ̂ 2 é um estimador não tendencioso da variância σ 2 de X.


h P 2 i
Solução: O valor esperado de σ̂ 2 é E (σ 2 ) = E N1 N
i=1 X i − X̄ . Vamos trabalhar
no somatório acima, tal que o mesmo pode ser obtido conforme abaixo
X X 2
(Xi − µ)2 =

Xi − X̄ + X̄ − µ
X 2 X  
= Xi − X̄ − 2 Xi − X̄ X̄ − µ
X 2
+ X̄ − µ
P  P
Mas Xi − X̄ = Xi − N X̄ = 0, logo
X X 2 2
(Xi − µ)2 = Xi − X̄ + N X̄ − µ

ou ainda X 2 X 2
Xi − X̄ = (Xi − µ)2 − N X̄ − µ
Então o valor esperado acima pode ser assim reescrito
( " N #)
1 X 2
E σ̂ 2 = E (Xi − µ)2 − N X̄ − µ
 
N i=1

ou ainda
N
1 X h 2 i
E σ̂ 2 = E (Xi − µ)2 − E X̄ − µ

N i=1
Sabemos que
h 2 i  σ2
E (Xi − µ)2 = σ 2 e pelo Exemplo 1.13: E X̄ − µ
 
= V ar X̄ =
N
Levando estes resultados na última equação, ficamos com
1 σ2
E σ̂ 2 = N σ 2 −

N N
N −1 2
= σ
N
E portanto o estimador σ̂ 2 definido pela estatı́stica acima é tendencioso.

32
2
No exemplo 1.14 se definı́ssemos a estatı́stica Ŝ 2 = N1−1 N
P
i=1 Xi − X̄ encon-
 
trarı́amos E Ŝ 2 = σ 2 , ou seja, Ŝ 2 é um estimador não tendencioso. Embora σ̂ 2 seja
tendencioso observe que limN →∞ E (σ̂ 2 ) = limN →∞ NN−1 σ 2 = σ 2 , ou seja, assintotica-
mente σ̂ 2 não é tendencioso. Isto significa que para grandes amostras pode-se usar σ̂ 2
ou Ŝ 2 como estimadores para a variância σ 2 de X. Um estimador θ̂ que converge assin-
toticamente para θ é dito um estimador consistente de θ.

Seja X1 , . . . , XN uma amostra aleatória iid de uma variável aleatória X com função
densidade f (x; θ) tal que θ ∈ Θ. A função de verossimilhança é dada pela equação (1.55).
O estimador de máxima verossimilhança é o valor de θ ∈ Θ tal que θ̂ maximiza a função
a função L (θ; x). Na prática iremos maximizar o ln L (θ; x) já que o valor que maximiza
L (·) também maximiza o seu logarı́tmo.

Exemplo 1.15. Seja X1 , . . . , XN uma amostra iid de uma distribuição normal N (θ, 2),
onde θ ∈ R. Determine o estimador de máxima verossimilhança da média.

Solução: A função densidade conjunta é

f (x1 , . . . , xN ) = f (x1 ; θ) f (x2 ; θ) , . . . , f (xN ; θ)


 2

onde f (xi ; θ) = 2√12π exp − (xi −θ) 4
. A função verossimilhança é

N
Y
L (θ; x) = f (xi ; θ)
i=1
N N
!
(xi − θ)2

1 X
= √ exp −
2 2π i=1
4

Tomando o logarı́tmo

X (xi − θ)2 N
1
ln L (θ; x) = N ln √ −
2 2π i=1
4

A condição de primeira ordem para o máximo do ln L (θ; x) é


 
N 2 x − θ̂
d ln L (θ; x) X i
=− (−1) = 0
dθ i=1
4

ou ainda
N  N
X  1 X
xi − θ̂ = 0 ⇒ θ̂ = xi = X̄
i=1
N i=1
A condição de segunda ordem é imediata.

33
Exemplo 1.16. Seja X1 , . . . , XN uma amostra aleatória iid de uma variável X com
função densidade dada por
(
θxθ−1 0 < x < 1 e θ ∈ R+
f (x; θ) =
0 caso contrário

Determine o estimador de máxima verossimilhança de θ.

Solução: A função de verossimilhança é


L (θ; x) = θxθ−1
1 . . . θxθ−1
N
N
Y
=θ N
xθ−1
i
i=1

O logarı́tmo da verossimilhança é
N
X
ln L (θ; x) = N ln θ + (θ − 1) ln xi
i=1

Tomando a condição de primeira ordem do máximo


N
d ln L (θ; x) 1 X −N
=N + ln xi = 0 ⇒ θ̂ = PN
dθ θ̂ i=1 i=1 ln xi

A condição de segunda ordem é imediata.

Exercı́cio 1.10. Seja X1 , . . . , XN uma amostra aleatória iid de uma variável aleatória
X com distribuição normal X ∼ (µ, σ 2 ). Mostre que os estimadores de máxima verossim-
2
ilhança θ̂1 e θ̂2 de µ e σ 2 , respectivamente são θ̂1 = X̄ e θ̂2 = N1 N
P
i=1 X i − X̄ , onde
1
PN
X̄ = N i=1 Xi .
Exercı́cio 1.11. Seja X1 , . . . , XN uma amostra aleatória iid de uma variável com dis-
tribuição de Poisson conforme equação (1.26) e aqui reescrita em termos do parâmetro
θ
θx
f (x; θ) = e−θ para x = 0, 1, . . . e θ > 0
x!
Encontre o estimador de máxima verossimilhança de θ.
Além da estimação por máxima verossimilhança, existem outras metodologias para
estimação dos parâmetros, como por exemplo o método dos momentos onde os mo-
mentos amostrais são igualados aos momentos populacionais. Em geral estimação
paramétrica é acompanhada da estimação por intervalo, onde é analisada a distribuição
que o parâmetro θ̂ possui e consequentemente define-se um intervalo de confiança para
o valor estimado do parâmetro. Todos estes tópicos podem ser encontrados nas re-
ferências mencionadas no inı́cio do capı́tulo. Para os objetivos deste livro a estimação
por verossimilhança é suficiente. Sua aplicação à séries financeiras será vista no próximo
capı́tulo.

34
1.8 Apêndice - Desigualdades de Chebyshev e Markov
1.8.1 Desigualdade de Chebyshev
Primeiramente vamos demonstrar uma proposição e em seguida usar tal resultado mostrando
a desiguldade de Chebyshev.
Proposição 1.1. Seja f (X) uma função não negativa de uma variável aleatória X.
Considere que exista o valor esperado E [f (X)] então para c > 0, pode-se escrever
E [f (X)]
P [f (X) ≥ c] ≤
c
Prova. Seja o conjunto A formado por valores de x tais que f (x) ≥ c, isto é, A =
{x|f (x) ≥ c} e seja gX (x) a função densidade de X. Então
Z ∞ Z Z
E [f (X)] = f (z) gX (z) dz = f (z) gX (z) dz + f (z) gX (z) dz
−∞ A Ac

Como os integrandos são funções positivas, o resultado de ambas integrais será um


número positivo. Consequentemente pode-se escrever
Z
E [f (X)] ≥ f (z) gX (z) dz
A

Como esta última integral está no conjunto A e como neste caso f (x) ≥ c, permanece
válida a desigualdade se substituirmos f (x) por c, isto é
Z Z
E [f (X)] ≥ cgX (z) dz = c gX (z) dz = cP (X ∈ A) = cP [f (x) ≥ c]
A A

Então como primeiro resultado pode-se escrever


E [f (x)]
P [f (x) ≥ c] ≤
c

Proposição 1.2 (Desigualdade de Chebyshev). Seja X uma variável aleatória com


média µ e variância σ 2 . Seja também k > 0, então pode-se escrever que
1
P (|X − µ| ≥ kσ) ≤
k2
Prova. Agora vamos usar o resultado da proposição anterior. Considere que a função
não negativa seja f (x) = (x − µ)2 e que c2 = k 2 σ 2 , onde σ 2 é a variância de X. Então
temos de acordo com o resultado acima
 E (X − µ)2
 
 2 2 2
P (X − µ) ≥ k σ ≤
k2σ2
Observe que a função f (x) foi escolhida de tal modo que o numerador do lado direito
resultasse na variância. Temos então
1
P (X − µ)2 ≥ k 2 σ 2 ≤ 2
 
k
35
ou ainda
1
P [|X − µ| ≥ kσ] ≤
k2
que é o esultado da desigualdade de Chebyshev. Apesar da demonstração ter sido feita
para a variável aleatória X em tempo contı́nuo, a mesma demonstração pode ser feita
para o caso discreto.

1.8.2 Desigualdade de Markov


Proposição 1.3 (Desigualdade de Markov). Seja f (x) uma função não negativa e
crescente de uma variável aleatória X definida no intervalo x ≥ 0. Seja c ≥ 0, então
pode-se escrever
E [f (X)]
P (|X| ≥ c) ≤
f (c)
Prova. O valor esperado E [f (|X|)] está calculado abaixo
Z ∞
E [f (|X|)] = f (|z|) gX (z) dz
−∞

Separando o segundo membro em duas integrais, temos:


Z ∞ Z −c
E [f (|X|)] ≥ f (|z|) gX (z) dz + f (|z|) gX (z) dz
c −∞

Esta desigualdade deve-se ao fato de que f (x) é não negativa em x ≥ 0. Por outro lado
o segundo membro acima é maior ou igual que
Z ∞ Z −c
f (|c|) gX (z) dz + f (|c|) gX (z) dz
c −∞

Esta desigualdade deve-se ao fato de que f (x) é crescente em x ≥ 0. O último resultado


é igual a Z ∞ Z −c

f (|c|) gX (z) dz + gX (z) dz =
c −∞

f (|c|) P (|X| ≥ c)
Reescrevento o resultado temos
E [(f (x))]
P (|X| ≥ c) ≤
f (c)

Note que a desigualdade de Chebyshev pode ser obtida da desigualdade de Markov para
os casos especı́ficos em que f (x) é crescente.

36
Capı́tulo 2

Econometria em Finanças

O Capı́tulo 1 foi dedicado a uma breve revisão de alguns conceitos fundamentais de teo-
ria de probabilidade e matemática estatı́stica que são úteis no desenvolvimento de um
curso em processos estocásticos e por conseguinte em finanças. Este segundo capı́tulo
apresenta os conceitos básicos em processos estocásticos com enfoque em econometria de
séries financeiras. Iniciaremos com os conceitos de forma intuitiva sem o formalismo que
se apresenta em muitos textos. Nosso objetivo final é usar estes conceitos para modelar
variáveis tais como preços, retornos, volatilidade, etc. Veremos o processo estocástico
básico denominado passeio aleatório, em seguida virão os processos auto-regressivos
e média-móveis e formalizaremos a metodologia Box-Jenkins. Passaremos então pela
análie de alguns fatos estilizados em séries financeiras. Ao final o leitor estará apto a
modelar séries financeiras por modelos AR-GARCH (auto-regressivo com volatilidade
GARCH). Dada a relevância da volatilidade no apreçamento de derivativos, entendemos
que os conceitos aqui expostos são fundamentais para a compreensão mais abrangente
da teoria em finanças. Este capı́tulo representa os conceitos fundamentais de disciplinas
como séries temporais e econometria de séries financeiras.

A literatura nestas disciplinas é vasta. O leitor pode aprofundar os conceitos prelim-


inares deste capı́tulo em referências como Campbell, Lo e McKinlay (1997) [19], Enders
(1995) [35], Franses e van Dijk (2000) [39], Gourieroux (2001) [44], Tsay (2002) [98],
Hamilton (1994) [46], dentre outros. Em lı́ngua portuguesa referimo-nos a Morettin e
Toloi (2004) [76].

2.1 Processos estocásticos


Definição 2.1. (Série temporal) Série temporal é qualquer conjunto de observações
ordenado no tempo. A abordagem da análise pode ser no domı́nio do tempo com modelos
paramétricos ou no domı́nio da frequência com modelos não paramétricos.
As séries temporais podem ser classificadas em:
(i) Discretas - quando o conjunto de observações for finito ou infinito enumerável;

(ii) Contı́nuas - quando o conjunto for infinito não enumerável;

(iii) Estocásticas - quando houver um componente aleatório;

37
(iv) Determinı́stica - quando não houver componente aleatório e o modelo puder ser
definido por funções determinı́sticas;

(v) Multivariadas - quando a série temporal é representada por um vetor;

(vi) Multidimensional - quanto t assume dimensão superior a 1.

Definição 2.2. (Processo estocástico) Um processo estocástico X é uma coleção de


variáveis aleatórias

(Xt , t ∈ [0, T ]) = (Xt (ω) , t ∈ [0, T ] , ω ∈ Ω)

definidas em algum espaço Ω. O conjunto [0, T ] representa um conjunto infinito de


instantes de tempo.

O valor de X está associado ao instante de tempo t e a possı́veis realizações ω. Estas


realizações representam os estados da natureza. Assim, para um instante de tempo t
fixo a variável aleatória é
Xt = Xt (ω), ω ∈ Ω
Para um determinado estado da natureza, ω ∈ Ω, a variável aleatória é uma função do
tempo
Xt = Xt (ω), t ∈ [0, T ]
esta função é denominada realização, trajetória ou caminho do processo de X.

Exemplo 2.1. Seja Yt o nı́vel de um reservatório de um tanque de combustı́vel medido


em relação a um marco zero. A medição do nı́vel do reservatório é feita diariamente.
O nı́vel do combustı́vel oscila a cada dia de acordo com o consumo e com a reposição
do mesmo. A Figura 2.1 apresenta a evolução da variável Yt . Esta realização mostra
a evolução do nı́vel para um estado da natureza, digamos ω1 em que a economia não
apresentará grandes oscilações. Portanto, este estado da natureza representa um cenário
em que a demanda é normal. Está representada outra evolução do nı́vel para um estado
ω2 mostrando o caso em que a demanda é maior, referente a um cenário mais favorável
da economia. As evoluções estão defasadas no nı́vel por um valor que representa o
aquecimento da demanda por combustı́vel. Temos portanto que para cada instante de
tempo t existem dois estados possı́veis para o nı́vel do reservatório: Yt (ω1 ) e Yt (ω2 ).

Definição 2.3. (Ruı́do branco) Seja {t } uma sequência de variáveis aleatórias
independentes e identicamente distribuı́das (iid) com média zero e variância σ2 . Esta
sequência é denominada ruı́do branco (RB). Assim temos t ∼ iid tal que E (t ) = 0;
V ar (t ) = σ2 ; Cov (t , t+k ) = 0 ∀k 6= 0.

Definição 2.4. (Passeio aleatório) Considere t um ruı́do branco tal que t ∼ iid (0, σ2 ).
Considere yt tal que
yt = yt−1 + t (2.1)
O processo descrito por yt define um passeio aleatório (random walk).

38
Figura 2.1: Exemplo da evolução da variável Yt

Seja o valor inicial de yt igual a y0 . Então seus valores subsequentes serão:

y1 = y0 + 1

y2 = y0 + 1 +2
| {z }
y1

..
.
yt = y0 + 1 + . . . + t
Ou seja, temos que
t
X
yt = y0 + i (2.2)
i=1

A Figura 2.2 mostra a realização de dois passeios aleatórios conforme a equação (2.1),
ambos iniciando em y0 = 5.

2.2 Conceitos básicos em séries temporais


Definição 2.5. (Autocovariância) Autocovariância γk : É a covariância entre duas
variáveis da série defasadas por k intervalos de tempo, isto é:

γk = Cov (yt , yt−k ) = E [(yt − E (yt )) (yt−k − E (yt−k ))] (2.3)

39
Figura 2.2: Duas realizações do passeio aleatório yt = 5 + t

A definição na equação (2.3) é equivalente a

γk = Cov (yt , yt−k ) = E (yt yt−k ) − E (yt ) E (yt−k )

Em um processo estacionário as médias E (yt ) e E (yt−k ) são iguais: E (yt ) = E (yt−1 ) =


µ. Neste caso a equação (2.3) pode ser assim reescrita

γk = Cov (yt , yt−k ) = E [(yt − µ) (yt−k − µ)]

Para uma amostra y1 , y2 , . . . , yN , temos o estimador de γk :


N −k
1 X
γˆk = (yt − ȳ) (yt+k − ȳ) (2.4)
N t=1

1
PN
onde ȳ = N t=1 yt e γˆk é um estimador não tendencioso1 de γk na equação (2.3).

Definição 2.6. (Função de autocorrelação) Função de autocorrelação (FAC) é


definida por
γk Cov (yt , yt+k )
ρk = = . (2.5)
γ0 V ar (yt )
onde γ0 é a variância da série.
1
Um estimador θ̂ é dito um estimador não tendencioso de θ se o valor esperado de θ̂ é igual ao
verdadeiro valor θ, ou seja, E θ̂ = θ.

40
O estimador de ρk é
γˆk
ρˆk = (2.6)
γˆ0
Observe que para o processo {t } (RB) temos que γk = 0 ∀k 6= 0, consequentemente
6 0.
ρk = 1 se k = 0 e ρk = 0 se k =

Definição 2.7. (Função de autocorrelação parcial) A função de autocorrelação


parcial (FACP) é a correlação entre as variáveis yt e yt+k dado que são conhecidos
yt+1 ,yt+2 ,. . . , yt+k−1 .

Veja no Apêndice detalhes sobre o cálclulo da FACP. Veremos na seção testes es-
tatı́sticos para identificação da FAC e FACP.

Exemplo 2.2. Seja yt um passeio aleatório como definido nas equações (2.1) e (2.2).
Calcule E (yt ), V ar (yt ).

Solução: Média E (yt ); aplicando o operador valor esperado em ambos os lados da


equação (2.2), podemos escrever
t
!
X
E (yt ) = E (y0 ) + E i
i=1
t
X
= y0 + E (i )
i=1
= y0 pois a média do RB é zero por definição

Variância V ar (yt ); aplicando o operador variância a ambos os lados da equação (2.2),


podemos escrever

V ar (yt ) = V ar (y0 + 1 + . . . + t )
t
X
= V ar (i )
i=1
= tσ2

Em séries temporais é usual trabalhar com operadores que defasam uma variável.
Define-se então o operador lag L como um operador linear tal que:

Li yt = yt−i (2.7)

São válidas as seguintes propriedades do operador L:

(i) O lag de uma constante é a própria constante Lc = c

(ii) O operador lag segue a propriedade distributiva em relação à soma (Li + Lj ) yt =


Li yt + Lj yt = yt−i + yt−j

41
(iii) É válida a propriedade associativa da multiplicação Li Lj yt = Li (Lj yt ) = Li (yt−j ) =
yt−i−j . Ou ainda Li Lj yt = Li+j yt = yt−i−j

(iv) Potências negativas de L significam um operador de avanço, L−i yt = Lj yt fazendo


j = −i. Então L−i yt = Lj yt = yt−j = yt+i
yt
(v) Se |a| < 1 a soma infinita (1 + aL + a2 L2 + . . .) yt = 1−aL

(vi) Se |a| > 1 a soma infinita 1 + (aL)−1 + (aL)−2 + . . . yt = − 1−aL


aL

yt

Exercı́cio 2.1. Mostre a validade das propriedades (v) e (vi) acima, do operador L.

2.3 Estacionariedade
Definição 2.8. (Estacionariedade) Quando o processo estocástico que gerou a série
de observações é invariante no tempo diz-se que é estacionário. Um processo é estri-
tamente estacionário se a distribuição conjunta de y1 , . . . , yt é idêntica a distribuição
conjunta de y1+k , . . . , yt+k para todo t, sendo k é um inteiro positivo. Ou seja, a estaci-
onariedade estrita requer que a função distribuição conjunta de y1 , . . . , yt seja a mesma
mediante uma defasagem no tempo.

Esta é uma definição rigorosa para a estacionariedade. Uma definição menos rigorosa
de estacionariedade é denominada de estacionariedade de segunda ordem ou estacionari-
edade fraca. Um processo é estacionário de segunda ordem se a média e a variância de yt
são idênticas para qualquer t e a covariância é função apenas da defasagem. Em outras
palavras, a estacionariedade de segunda ordem requer: (i) E (yt ) = µ, seja constante e
(ii) Cov (yt , yt−k ) = γk , seja função apenas de k.

Exemplo 2.3. Considere o processo estocástico t ∼ RB (0, σ2 ). O que dizer da estaci-
onariedade de segunda ordem de t ?

Solução: Observe que µ = E (t ) = 0, V ar (t ) = σ2 e ainda Cov (t , s ) = 0 para
t 6= s são constantes, logo o ruı́do branco é estacionário de segunda ordem.

Exemplo 2.4. Considere o processo estocástico passeio aleatório definido por yt =


yt−1 + t . O que dizer da estacionariedade de segunda ordem?

Solução: O Exemplo 2.2 apresentou o cálculo da média e variância do processo de yt .


Foi visto que V ar (yt ) = tσ2 , portanto o segundo momento é uma função do tempo não
sendo pois constante (ou seja, não é invariante). Consequentemente o processo de yt
não é estacionário.

42
Vamos verificar o que ocorre com dados empı́ricos no que se refere à definição de
estacionariedade. Tomemos uma série financeira. Seja então uma amostra dos preços
diários do petróleo (primeiro contrato futuro) negociados no NYMEX desde janeiro de
1985 até maio de 2008. Esta amostra contém 5853 dados de preços. A Figura 2.3
mostra a evolução dos preços neste perı́odo. Agora vamos dividir a amostra completa

Figura 2.3: Preços do petróleo de jan 1985 a mai 2008

em duas sub-amostras de tamanhos iguais. A primeira sub-amostra abrange o perı́odo


de janeiro de 1985 a agosto de 1996 e a segunda sub-amostra, desta última data até
o final do perı́odo. A média e o devio padrão dos preços da primeira subamostra são
µ1 = US$19, 9/barril e σ1 = US$4, 28/barril, respectivamente. Para a segunda sub-
amostra os mesmos parâmetros são µ2 = US$38, 4/barril e σ2 = US$22, 4/barril. Estes
resultados eram esperados já que é visı́vel pela Figura 2.3 que os preços têm uma alta
vertiginosa na parte final da amostra. As duas sub-amostras têm mêdias completamente
diferentes e o mesmo pode ser dito com respeito ao desvio padrão.

A Figura 2.4 mostra o histograma das duas sub-amostras: Fig 2.4(a) refere-se à
primeira sub-amostra e a Fig 2.4(b) refere-se à segunda. Pode-se notar que os padrões
destes histogramas são bem diferentes. Isto significa que a amostra completa quando di-
vidida não guardou nenhuma similaridade em termos dos histogramas das sub-amsotras.
Todos estes fatos são sugestivos de que a distribuição dos preços não é estacionária (ou
invariante). Está bem clara uma tendência crescente dos preços na segunda sub-amostra,
fato este traduzido pela sua maior média.

Vejamos o que ocorre com a distribuição dos retornos. O retorno de um ativo entre
os instantes t é t − 1 é definido por Rt = PtP−P t−1
t−1
. Na seção 2.5 definiremos o retorno

43
Figura 2.4: Histograma das sub-amostras dos preços

com mais detalhes. A distribuição completa dos retornos possui 5852 dados. A Figura
2.5 mostra a evolução da distribuição completa dos retornos. A média da distribuição
dos retornos µR e o desvio padrão σR são 0, 0267% e 2, 41%, respectivamente.

Adotando o mesmo procedimento que fizemos com a distribuição dos preços, vamos
dividir a amostra dos retornos em duas sub-amostras. A primeira sub-amostra tem re-
torno e desvio padrão iguais a µR1 = −0, 0051% e σR1 = 2, 5%, respectivamente. Para a
segunda amostra encontra-se µR2 = 0, 059% e σR2 = 2, 32%. Nota-se que as médias são
praticamente as mesmas, aproximadamente zero para as duas sub-amostras. Os desvios
padrões são bem similares. Conclusão idêntica chega-se ao compararmos as médias e
desvios das sub-amostras com a amostra completa. A Figura 2.6 mostra os histogramas
das sub-amostras dos retornos. Observe que ambas possuem similaridades quanto às for-
mas. Estes fatos são sugestivos de que a distribuição de retorno é invariante no tempo.
Ou seja, as sub-amostras preservam os momentos (média e variância) e o histograma das
distribuições possuem formas bastante aproximadas. É um fato bem conhecido empiri-
camente que a distribuição de retorno dos ativos financeiros é estacionária. Voltaremos
a este assunto na seção 2.5.

44
Figura 2.5: Retornos do petróleo de jan 1985 a mai 2008

2.4 Formulação dos modelos Box e Jenkins


A motivação para o estudo de séries temporais é definir o processo gerador de dados,
fazer previsões futuras da série, identificar ciclos, tendências ou sazonalidades de forma
que a decisão que envolve a variável em questão seja a mais acurada possı́vel. Neste
sentido apresentamos nesta seção os fundamentos da metodologia Box e Jenkins. As
bases desta formulação podem ser encontradas no texto Box e Jenkins (1970).

A metodologia Box e Jenkins é a interpretação e análise de uma série temporal como


sendo oriunda de uma realização de um processo estocástico. O objetivo é inferir sobre
o processo gerador de dados. Busca-se identificá-lo baseado nas informações contidas na
série levando-se em consideração a parcimônia do modelo, ou seja, tratando o modelo
com o menor número de parâmetros possı́vel. A estratégia envolve a repetição do pro-
cesso de indenficação até encontrar o modelo que seja mais satisfatório.

Os modelos Box e Jenkins são tais que a série yt é escrita como

Φp (L) yt = Θq (L) t (2.8)

onde L é o operador lag, Φ e Θ são polinôminos de graus p e q, respectivamente e t é


RB (0, σ2 ). Mais apropriadamente

Φp (L) = 1 − φ1 L − φ2 L2 − . . . − φp Lp (2.9)

Θq (L) = 1 − θ1 L − θ2 L2 − . . . − θq Lq (2.10)

45
Figura 2.6: Histograma das sub-amostras dos retornos

O polinômio Φp (L) define a parte auto-regressiva (AR) do modelo enquanto o polinômio


Θq (L) define a parte denominada média móvel (MA). Assim, o modelo na equação (2.6)
é denominado ARM A(p, q). Por exemplo, o modelo ARM A(2, 3) é escrito como

Φ2 (L) yt = Θ3 (L) t

Escrevendo em termos dos polinômios definidos nas equações (2.9) e (2.10), fica

1 − φ1 L − φ2 L2 yt = 1 − θ1 L − θ2 L2 − θ3 L3 t
 

Aplicando o operador L a cada termo, teremos

yt − φ1 yt−1 − φ2 yt−2 = t − θ1 t−1 − θ2 t−2 − θ3 t−3

Finalmente isolando yt obtem-se

yt = φ1 yt−1 + φ2 yt−2 − θ1 t−1 − θ2 t−2 − θ3 t−3 + t

No caso em que Θq (L) = 1 temos o modelo ARM A(p, 0) ou melhor AR(p). Da mesma
forma, para o caso em que Φp (L) = 1 temos o modelo ARM A (0, q) ou simplesmente
M A (q).

A condição de estacionariedade de um modelo AR (p) deve ser tal que as raı́zes do


polinômio Φp (L) = 0 devem estar fora do cı́rculo unitário. Para os modelos M A (q)
a estacionariedade é trivial já que se trata de uma soma de ruı́dos brancos todos esta-
cionários. Para um modelo ARM A (p, q) as condições de estacionariedade são aquelas

46
de um modelo AR(p).

A condição de inversibilidade de um modelo AR(p) é trivial. Para um modelo M A(q)


a inversibilidade ocorre sempre que as raı́zes do polinômio Θq (L) = 0 estiverem fora
do cı́rculo unitário. Já um modelo ARM A (p, q) tem a inversibilidade sob as mesmas
condições de um M A (q).

Pode-se resumir no quadro abaixo o comportamento dos modelos com relação a es-
tacionariedade e inversiblidade.

Modelo Condições
Φp (L) yt = t Φp (L) = 0 ⇒ raı́zes fora do cı́rculo unitário
⇒ estacionário e trivialmente inversı́vel.
yt = Θq (L) t Θq (L) = 0 ⇒ raı́zes fora do cı́rculo unitário
⇒ inversı́vel e trivialmente estacionário.
Φp (L) yt = Θq (L) t Φp (L) . . . raı́zes fora do cı́culo unitário ⇒ estacionário.
Θq (L) . . . raı́zes fora do cı́rculo unitário ⇒ inversı́vel.

Exemplo 2.5. Considere o modelo AR(1): yt = φyt−1 + t , onde |φ| < 1 e t ∼


RB (0, σ2 ).
(i) o modelo é estacionário?
(ii) o modelo é inversı́vel?
(iii) calcule a média µ = E (yt )
(iv) calcule γ0 , γ1 , . . . , γk e ρ0 , ρ1 , . . . , ρk
(v) escreva o modelo sob a forma inversa.

Solução:
(i) Estacionariedade: escrevendo o processo em termos do polinômio Φ (L):

yt = φyt−1 + t ⇒ yt − φyt−1 = t ⇒ (1 − φL) yt = t

Logo temos que Φ (L) = 1−φL = 0 ⇒ L = φ1 . Então L > 1 se 0 < φ < 1 e L < −1
se −1 < φ < 0. Neste caso as raı́zes do polinômio estão fora do cı́rculo unitário e
o processo é estacionário, isto é, a estacionariedade ocorre se −1 < φ < 1. Como
|φ| ≤ 1 o processo é estacionário.
(ii) Um processo auto-regressivo AR (p) é trivialmente inversı́vel.
(iii) Média incondicional

E (yt ) = φE (yt−1 ) + E (t )


E (yt ) = φE (yt−1 ) mas E (yt ) = E (yt−1 ) pois é estacionário, logo
E (yt ) = 0

47
(iv) Covariâncias e correlações
Variância γ0 :
γ0 = Var (yt ) = φ2 Var (yt−1 ) + σ2
Como Var (yt ) = Var (yt−1 ) devido a estacionariedade, temos
σ2
γ0 = Var (yt ) =
1 − φ2
Covariância γk :
γk = Cov (yt , yt−k ) = E (yt yt−k ) − E (yt ) E (yt−k ) = E (yt yt−k )
Substituindo acima a expressão de yt , temos
γk = E (yt yt−k )
= E [(φyt−1 + t ) yt−k ]
= E [φyt−1 yt−k + t yt−k ]
Para k = 1, temos:
γ1 = E [φyt−1 yt−1 + t yt−1 ]
2

= φE yt−1 + E (t yt−1 ) = φγ0
γ1
Consequentemente temos ρ1 = γ0
= φ.
Para k = 2, temos:
γ2 = E [φyt−1 yt−2 + t yt−2 ]
= φE (yt−1 yt−2 ) = φγ1 = φ (φγ0 ) = φ2 γ0
γ2
Consequentemente temos ρ2 = γ0
= φ2 .
Para um k genérico, temos:
γk = E [φyt−1 yt−k + t yt−k ]
= φE [yt−1 yt−k ] + E [t yt−k ]
= φγk−1 = φ φk−1 γ0 = φk γ0


γk
Consequentemente temos ρk = γ0
= φk

(v) Invertendo o processo auto-regressivo


1
(1 − φL) yt = t ⇒ yt = t
1 − φL
Mas sabemos das propriedades do operador L acima que
1
= 1 + φL + φ2 L2 + . . .

1 − φL
Então fazendo a substituição, temos:
yt = 1 + φL + φ2 L2 + . . . t


= t + φt−1 + φ2 t−2 + . . .
Ou seja, o processo AR(1) pode ser escrito como um M A (∞) observando que
|φ| < 1.

48

Exemplo 2.6. Seja o processo AR(1) dado por yt = 0, 6yt−1 + t , onde t ∼ N ID (0, 2),
calcule a V ar (yt ) e a FAC.

Solução: Pelo Exemplo 2.5 temos que a variância é dada por


σ2 22
V ar (yt ) = = = 6, 25
1 − φ2 1 − 0, 62

O cálculo da FAC fornece ρ0 = 1, ρ1 = 0, 6, ρ2 = 0, 36, . . . , ρk = 0, 6k . Sendo φ = 0, 6,


os valores de ρk decrescem com o lag k. A Figura 2.7 mostra o processo yt : a Fig
2.7(a) apresenta três trajetórias do processo iniciando em y0 = 1 e a Fig 2.7(b) mostra
o gráfico da FAC com o intervalo de confiança de 95%.

Figura 2.7: Processo yt = 0, 6yt−1 + t : (a) simulações, (b) FAC

Exercı́cio 2.2. Considere o modelo AR(1): yt = β + φyt−1 + t onde |φ| < 1 e t ∼


RB (0, σ2 ):
(i) calule a média µ = E (yt )

(ii) calcule a variância γ0 = V ar (yt )

(iii) calcule as covariâncias γ1 , . . . , γk


Exercı́cio 2.3. Considere o modelo M A(1): yt = t + t−1 , onde t ∼ RB (0, σ2 ):

49
(i) calcule a média µ = E (yt )
(ii) calcule a variância γ0 = V ar (yt )
(iii) calcule a FAC
(iv) analise a inversibilidade
Exercı́cio 2.4. Suponha que a receita das vendas de petróleo Rt seja modelada pelo
seguinte processo estocástico Rt = β + Rt−1 + t onde t ∼ N (0, σ2 ). O que dizer da
tendência da receita? Se o processo fosse modelado por Rt = β +ϕRt−1 +t onde |ϕ| < 1,
você mudaria a sua resposta?

Exercı́cio 2.5. Considere o modelo M A(1): yt = t − θt−1 , onde t ∼ RB (0, σ2 )


(i) calcule a média µ = E (yt )
(ii) calcule a variância γ0 = V ar (yt )
(iii) calcule a FAC
Exercı́cio 2.6. Considere o modelo, onde onde t ∼ RB (0, σ2 )

yt = 0, 8yt−1 − 0, 3t−1 + t

(i) verifique se é estacionário e inversı́vel


(ii) calcule a média e a variância
(iii) calcule a FAC
(iv) escreva o modelo como um MA(∞)
Na prática os processos sobre os quais fazemos inferência através de uma série tem-
poral, são geralmente não estacionários. Trataremos dos processos não estacionários
homogêneos, ou seja, processos cuja a diferenciação produz processos estacionários. A
diferenciação é definida por ∆yt = yt − yt−1 = (1 − L) yt .

Seja então Zt um processo não estacionário e yt um processo estacionário obtido de


Zt por diferenciação sucessivas. Inversamente, pode-se dizer que Zt é obtido a partir de
yt por integração. Tem-se que
∆d Zt = yt (2.11)
onde d representa o número de diferenciações. O processo estacionário yt pode ser
representado por um modelo ARM A(p, q), logo Φp (L) yt = Θq (L) t , ou então

Φp (L) ∆d Zt = Θq (L) t (2.12)

Dizemos que o modelo Zt é auto-regressivo-integrado-médias móveis, ou ARIM A(p, d, q).

Exemplo 2.7. Seja o processo do passeio aleatório definido por yt = yt−1 + t , onde
t ∼ N ID (0, σ2 ). Obtenha o processo diferenciado de yt .

50
Solução: A série diferenciada é obtida fazendo-se

(1 − L) yt = yt − yt−1 = t

Ou seja, ∆yt = t é o ruı́do branco, que é estacionário por definição.

Exercı́cio 2.7. Considere o modelo yt = 1, 5yt−1 − 0.5yt−2 + t + 0, 6t−1 .

(i) identifique o modelo

(ii) escreva o modelo como um AR (∞).

Uma questão que se apresenta rotineira para um analista de séries temporais é a


identificação do modelo, ou melhor do processo gerador de dados. Para os modelos
ARM A(p, q) a estratégia de idenficação da ordem p e q mais apropriada é através da
função de auto-correlação parcial FACP. Desta forma busca-se a idenficação do modelo
comparando-se a FAC e FACP teóricas com aquelas oriundas do modelo.

As séries temporais que apresentam comportamento não estacionários são diferenci-


adas até que seja identificada a estacionariedade. Os testes de estacionariedade, comu-
mente referidos como testes da raı́z unitária, veremos adiante mais detalhes.

No caso de um ou mais modelos serem selecionados, baseados nos critérios da FAC


e FACP, pode-se investigar qual o modelo apresenta melhor ajuste dentro da amostra.
Infelizmente a medida R2 não é útil para os modelos de séries temporais lineares por
estar relacionado somente aos valores dos parâmetros. Os critérios de seleção mais
apropriados são os critérios de informação de Akaike (1974) [1] e Schwarz (1978) [90].
O critério de Akaike é referido como AIC (Akaike Information Criteria). O critério de
Schwarz é referido como BIC (Bayesian Information Criteria). Estes critérios comparam
o ajuste dentro da amostra, que é medido pela variância dos resı́duos, contra o número
de parâmetros estimados. O critério de Akaike é

AIC (k) = N ln σ̂ 2 + 2k (2.13)

onde k = p + q + 1, σ̂ 2 = N1 N ˆ2t , sendo ˆt os resı́duos do modelo ARMA. Os valores


P
t=1 
de p e q que minimizam AIC (k) são as ordens apropriadas do modelo ARM A.

O cirtério de Schwarz (critério BIC) é calculado por

BIC (k) = N ln σ̂ 2 + k ln N (2.14)

Como ln N > 2 para N > 8, a introdução de parâmetros é mais penalizada pelo critério
BIC que pelo critério AIC. Portanto, usando o critério BIC o modelo selecionado
tende a ser mais parciomonioso que aquele oriundo do critério AIC.

A modelagem de séries temporais por modelos lineares ARM A deve seguir as seguintes
etapas:

51
(i) cálculo de estatı́sticas básicas para série temporal;
(ii) comparar o valor de tais estatı́sticas com valores teóricos caso estes sejam adequa-
dos;
(iii) estimar os parâmetros para o modelo sugerido no passo anterior, observando caso
necessário, os critérios AIC e BIC: deve-se buscar modelos que minimizem estes
critérios de informação
(iv) avaliar o modelo usando as medidas diagnósticas: deve-se analisar a série de
resı́duos verificando se as propriedades são coerentes com a distribuição teórica
de t (tipo da distribuição, independência e descorrelação da séries).
(v) caso não esteja adequado reespecificar o modelo;
(vi) usar o modelo para descrever a variável e fazer previsões.
Como dito anteriormente, os modelos ARIM A requerem previamente a identificação
do parâmetro d (ordem de diferenciação) através de testes de estacionariedade. A maio-
ria dos softwares econométricos possuem os procedimentos diagnósticos tais como os
testes de normalidade, independência e as funções de auto-correlações (FAC e FACP).

2.5 Séries financeiras


Esta seção analisa o comportamento das séries financeiras. As séries financeiras ap-
resentam comportamentos tı́picos como fraca dependência linear e forte dependência
não-linear. Além disso, apresentam caudas pesadas ou excesso de curtose. Os testes
aqui descritos têm por objetivo identificar tais caracterı́sticas e os modelos propostos na
literatura buscam descrever estes comportamentos. O objetivo final é que o leitor seja
capaz de especificar um modelo para o comportamento dos retornos financeiros a partir
de testes realizados com os dados empı́ricos.

2.5.1 Séries de retornos


A maior parte dos estudos financeiros concentra-se na análise da série de retornos ao
invés do uso da série de preços. A razão desta preferência, conforme Campbell, Lo e
McKinlay (1997) [19], está relacionada a dois fatos. Em primeiro lugar o retorno de um
ativo financeiro contém as informações que atendem aos interesses dos investidores. Em
segundo lugar a série de retornos possui propriedades estatisticamente mais atrativas
que a série de preços.

O retorno de um ativo entre os instantes de tempo entre t − 1 e t é dado por


Pt − Pt−1
Rt = (2.15)
Pt−1
Ou ainda podemos escrever
Pt Pt
Rt = − 1 ⇒ 1 + Rt =
Pt−1 Pt−1

52
O retorno em k perı́odos entre os intervalos t − k e t é dado por
Pt − Pt−k Pt Pt Pt−1 Pt−k+1
Rt (k) = ⇒ 1 + Rt (k) = = × × ... ×
Pt−k Pt−k Pt−1 Pt−2 Pt−k
Ou ainda
k−1
Y
1 + Rt (k) = (1 + Rt−i ) (2.16)
i=0

O retorno capitalizado continamente significa que os instantes t e t − ∆t tornam-se


muito próximos com ∆t sendo infinitesimal. Neste caso Rt << 1. Definimos então o
log-retorno como:
 
Pt
rt = ln (1 + Rt ) = ln = ln Pt − ln Pt−1 ∼
= Rt (2.17)
Pt−1
O retorno multiperı́odo capitalizado continuamente entre t − k e t é dado por:

rt (k) = ln (1 + Rt (k)) = ln [(1 + Rt ) (1 + Rt−1 ) . . . (1 + Rt−k+1 )]

ou ainda
rt (k) = ln (1 + Rt ) + ln (1 + Rt−1 ) + . . . + ln (1 + Rt−k+1 )
o que resulta em
rt (k) = rt + rt−1 + . . . + rt−k+1 (2.18)

Definição 2.9. (Fatos estilizados) Os fatos estilizados são regularidades estatı́sticas


observadas em um grande número de séries financeiras de retornos, a partir de estudos
empı́ricos em diversos mercados.

Pode-se resumir os principais fatos estilizados em:

(i) estacionariedade;

(ii) fraca dependência linear e dependência não linear;

(iii) caudas pesadas da distribuição ou excesso de curtose;

(iv) comportamento heterocedástico condicional.

O comportamento heterocedástico condicional reúne caracterı́sticas como aglomera-


dos de volatilidade e efeito alavanca. O efeito alavanca aponta para o efeito do compor-
tamento dos choques. Choques negativos afetam a volatilidade condicional em maior
magnitude que os choques positivos.

Os fatos estilizados serão tratados ao longo desta subseção através de testes es-
tatı́sticos. Como os modelos de volatilidade condiconal constituem um assunto extenso
e são muito relevantes na modelagem das séries de retornos, dedicamos inteiramente a
seção 2.5.1 para a sua análise.

A distribuição dos retornos escrita de forma mais geral envolve a análise das séries
de retornos {rit } onde i = 1, 2, . . . , N representa cada ativo e t = 1, . . . , T . Em vários

53
modelos tal como o CAP M (Capital Asset Pricing Model ) o foco é a análise seccional
(cross-section) onde observam-se os retornos em um instante de tempo {r1t , . . . , rN t }.
Para a análise do comportamento de um ativo especı́fico {rit }Tt=1 . Iremos nos deter
neste caso. É usual o tratamento do retorno como variáveis aleatórias contı́nuas e neste
a função de densidade conjunta é dada por;

f (ri1 , ri2 , . . . , riT ; θ) = f (ri1 ) f (ri2 |r1t ) . . . f (riT |riT −1 . . . r1i )


T
Y
f (ri1 , ri2 , . . . , riT ; θ) = f (ri1 ; θ) f (rit ; rit−1 . . . ri1 ; θ) (2.19)
t=2

O aspecto relevante é a observação de como as distribuições do ativo evoluem no tempo,


ou seja, a especificação da distribuição condicional. Por exemplo, uma das versões do
passeio aleatório RW , que será vista adiante, pressupõe que a distribuição condicional é
igual à distribuição incondicional f (rit |·) = f (rit ). Assim, os retornos são independentes
e consequentemente não previsı́veis.

Exercı́cio 2.8. Uma consideração usual para a distribuição de retornos rt é

rt ∼ N ID µ, σ 2


Portanto, Rt será uma distribuição log-normal iid. Calcule a média e a variância de Rt .

2.5.2 Modelos para as séries de retornos


Os modelos para os retornos das séries financeiras estão associados a sua capacidade
de previsibilidade. Os modelos e a previsibilidade dos retornos constituem fatos intri-
gantes em finanças ao qual muitos pesquisadores têm devotado atenção. Não há uma
conclusão definitiva sobre a questão e o debate acadêmico continua aberto. A análise
da previsibilidade é considerada diante das informações passadas dos retornos e conse-
quentemente da distribuição dos retornos. Seguiremos a classificação de Campbell, Lo e
McKinlay (1997) [19]. Esta classificação baseia-se nos vários tipos de passeio aleatório
e na propriedade martingal. Assim, modelos para os retornos são classificados como
RW 1, RW 2, martingal e RW 3.

Modelo RW 1: O modelo RW 1 é a versão mais simples dentre as apresentadas


acima e pressume que os retornos são normais e iid. Em outras palavras:

ln Pt = β + ln Pt−1 + t (2.20)

onde t ∼ N ID (0, σ 2 ). Os logarı́tmos dos preços constituem um passeio aleatório com


tendência (drift). Escrito de outra forma, temos:

rt = β + t (2.21)

Sob esta condição não há possibilidade nenhuma de previsão quer seja na média ou nos
momentos superiores. Este modelo considera que a distribuição dos retornos é a mesma
em qualquer instante t. O modelo RW 1 contraria dois fatos estilizados quais sejam: a

54
distribuição dos retornos não é normal e os retornos apresentam variância condicional
variando com o tempo.

Modelo RW 2 : O pressuposto de que os retornos são iid no modelo RW 1 é ques-


tionável como visto anteriormente. A hipótese de que os retornos são identicamente
distribuı́dos é relaxada no modelo RW 2. Porém a condição de independência é man-
tida. Então podemos escrever:
ln Pt = β + ln Pt−1 + t (2.22)
onde t ∼ IN ID (0, σt2 ) onde IN ID significa independente não identicamente dis-
tribuı́do. Ou ainda:
rt = β + t (2.23)
O modelo RW 2 acomoda a possibilidade da variância ser diferente ao longo do tempo
que é uma caracterı́stica empı́rica das séries de retorno.

Modelo martingal: O modelo martingal está relacionado ao jogo justo onde considera-
se que é impossı́vel lucrar em um jogo dadas as informações passadas. Ou melhor, o
processo martingal considera que a melhor previsão para o valor da variável aleatória
amanhã é o seu valor hoje. Formalmente definimos o modelo martingal abaixo.

Definição 2.10. Seja {rt }Tt=1 um processo descrito pela variável aleatória rt , dizemos
que rt é martingal com relação às informações por ele geradas se:
(i) E (|rt |) < ∞
(ii) rt contém todas as informações geradas pelo seu processo
(iii) E (rt |rt−1 , rt−2 . . .) = rt−1
A condição (iii) estabelece que a previsão do valor de rt dada as informações em t − 1
é o seu valor em t − 1, ou seja, rt−1 . Ainda podemos dizer que E (rt − rt−1 |rt−1 ) = 0,
então é usual denominá-lo de diferença martingal. Esta é a interpretação do jogo justo
onde os ganhos incrementais em qualquer instante de tempo, dada as informações pas-
sadas do jogo, é zero.

Exercı́cio 2.9. Considere o modelo rt = β + σt t onde t ∼ N ID (0, 1) e σt2 = ω0 +


2
ω1 rt−1 . Mostre que o processo rt − β é uma diferença martingal.
Modelo RW 3: O modelo RW 3 relaxa a hipótese de independência do modelo RW 2
considerando a dependência e a descorrelação
 dos incrementos. Assim, pode-se dizer que
2 2
Cov (t , t−k ) = 0, porém Cov t , t−k 6= 0. Este processo é descorrelatado mas não
independente pois os quadrados dos resı́duos são correlacionados.

Exercı́cio 2.10. Seja o modelo ln Pt = β + ln Pt−1 + νt onde νt = c2t−1 + t , onde


t ∼ N ID (0, σ2 ), e c é constante. Mostre que:
(i) Cov (νt , νt−k ) = 0
(ii) Cov (rt , rt−k ) = 0

55
2.5.3 Testes para estacionariedade
Na seção 2.3 vimos o conceito de estacionariedade. Entretanto apresentamos este con-
ceito sob o aspecto qualitativo. Agora necessitamos formalizar os testes estatı́sticos que
permitem identificar a estacionariedade de uma série de retorno. O teste mais usual
para verificação da estacionariedade é o teste da raı́z unitária. Considere inicialmente o
modelo
yt = yt−1 + t (2.24)
onde t ∼ RB (0, σ 2 ). Já vimos que o processo yt é um passeio aleatório. Se o coeficiente
de yt−1 do processo que se está investigando é de fato 1 tem-se o que se chama de raı́z
unitária e fica caracterizada a não estacionariedade. Seja então

yt = ρyt−1 + t (2.25)

A equação (2.25) pode ser expressa de outra forma como

∆yt = yt − yt−1 = (ρ − 1) yt−1 + t

ou ainda por
∆yt = δyt−1 + t (2.26)
onde δ = ρ − 1 e a equação (2.26) define a série yt diferenciada. Na série diferen-
ciada a hipótese da raı́z unitária é δ = 0 ou ρ = 1 e neste caso ∆yt = t , ou seja, a
primeira diferença de yt é RB, que é estacionário. A série yt é dita integrada de ordem 1.

Testes DF e ADF

Os testes da raı́z unitária são conhecidos na literatura por DF (Dickey e Fuller, seus
autores), e ADF (Augmented Dickey e Fuller). O teste DF requer a verificação das
regressões descritas abaixo:
∆yt = δyt−1 + t (2.27)
∆yt = β1 + δyt−1 + t (2.28)
∆yt = β1 + β2 t + δyt−1 + t (2.29)
As hipóteses nulas para as regressões acima são respectivamente:
(i) H0 : δ = 0, yt é um passeio aleatório

(ii) H0 : δ = 0, yt é um passeio aleatório com drift

(iii) H0 : δ = 0, yt é um passeio aleatório com drift e tendência


A hipótese alternativa para cada um dos casos acima é bilateral, HA : δ 6= 0.
Se o ruı́do t é auto-correlacionado os testes anteriores devem ser modificados para
m
X
∆yt = β1 + β2 t + δyt−1 + αi ∆yt−i + t (2.30)
i=1

Este é o teste ADF e a hipótese nula é a mesma, ou seja, H0 : δ = 0 ou ρ = 1.

56
Dickey e Fuller (1979) [27] provaram que a estatı́stica de teste não é a estatı́stica-t
convencional. Eles definiram os valoes crı́ticos com base na simulação de Monte-Carlo.
Mais recentemente MacKinnon (1991) [68] apresentou valores crı́ticos e p-valores para
um espectro maior de cenários.

Teste Phillips-Perron (PP)

O teste PP utiliza uma correção na estatı́stica de teste baseado em um ajuste não


paramétrico na forma desta estatı́stica, o qual corrige a presença de heterocedasticidade
e/ou autocorrelação nos resı́duos. As regressões são as mesmas descritas acima sem a
presença do somatório do teste ADF. Os valores crı́ticos permanecem os mesmos.

2.5.4 Testes para autocorrelação


Já vimos anteriormente que os testes Box-Pierce e Ljung-Box são utilizados para detec-
tar autocorrelação. Iremos detalhar os procedimentos para realizá-los.

Testes Box-Pierce e Ljung-Box

Primeiramente escolha o lag k para verificar a autocorrelação. As hipósteses dos testes


são:
H0 : ρ1 = ρ2 = . . . = ρk = 0

HA : pelo menos um ρ não é nulo

Calcule as estatı́sticas:
k
X
Q (k) = N ρ̂2j (ˆ) (2.31)
j=1

k
X
LB (k) = N (N + 2) (N − j)−1 ρ̂2j (ˆ) (2.32)
j=1

onde ˆt representa o resı́duo do modelo e ρ̂j (ˆ) é dado por


PN
t=j+1 
ˆt ˆt−j
ρ̂j (ˆ) = PN 2
t=1 
ˆt

para j = 1, 2, . . .. Em um modelo ARM A (p, q) as estatı́sticas em (2.31) e (2.32)


distribuem-se como uma qui-quadrado com k − p − q graus de liberdade. Escolha o
nı́vel de significância α. Rejeite H0 se as estatı́sticas acima forem superiores que o valor
crı́tico τ = χ2α (k − p − q). Os testes acima são plenamente válidos se a distribuição é
normal e estacionária. Em caso de uma (ou as duas) premissa(s) não se verificar(em) a
potência do teste fica reduzida.

57
2.6 Volatilidade condicional
Na teoria de finanças a incerteza ocupa um espaço preponderante. O risco, que quan-
tifica a incerteza, está presente em muitos modelos dentre os quais podemos mencionar
o CAPM (Capital Asset Pricing Model ). Em geral a noção de risco está associada à
variânica dos retornos (como no CAPM) ou ao seu desvio padrão que se define como
sendo a volatilidade histórica da série de retornos. A volatilidade é um dos parâmetros
de maior relevância no apreçamento de opções. É uma variável não observável direta-
mente. Além disso, está relacionada a algumas propriedades ou a alguns fatos estilizados
que são bem estabelecidos na literatura. Pode-se citar, por exemplo, que a volatilidade
em séries financeiras não é constante ao longo do tempo, e portanto responsável pelo seu
comportamento heterocedástico. Perı́odos de alta volatilidade são seguidos por perı́odos
de alta volatilidade. Já aos perı́odos de baixa volatilidade seguem-se perı́odos amenos.
Isto confere a propriedade a que a litereatura se refere como aglomerados de volatilidade.

Estas caracterı́sticas peculiares da volatilidade são capturadas pelos modelos heterocedásticos


condicionais ARCH (Autoregressive Conditional Heterocedasticity) proposto por En-
gel (1982) [36] e extendido por Bollerslev (1986) [10] e então denominado de GARCH
(Generalized Autoregressive Conditional Heterocedasticity). Não obstante, algumas pro-
priedades do comportamento da volatilidade ficaram ao largo dos modelos GARCH
clássicos. Por exemplo, o seu comportamento assimétrico não é capturado pelos mod-
elos GARCH. Esta assimetria refere-se ao comportamento da volatilidade frente aos
diferentes efeitos de choques positivos ou negativos. Os choques negativos trazem maior
impacto à volatilidade. Estas constatações trouxeram novos modelos dentro da cate-
goria de modelos GARCH e foram denominados GARCH não lineares. Assim é que a
pesquisa no final da década de 80 e inı́cio dos anos 90 foi profı́cua em tais modelos.
Além dos modelos de volatilidade, acima mencionados, será apresentado o modelo de
volatilidade estocástica.

Até o momento os modelos estuados eram da forma

yt = E (yt |It−1 ) + νt (2.33)

onde It−1 representa o conjunto de informações2 até o instante t−1 e νt é o resı́duo (aquilo
que não é explicado pelo modelo) que é homocedástico condicional e incondicionalmente,
isto é
E νt2 = E νt2 |It−1
 

Agora admitiremos que a variância condicional varie com o tempo. Este é um dos
fatos estilizados das séries financeiras. Aos perı́odos de alta volatilidade seguem-se
perı́odos de volatilidade alta. Aos perı́odos de baixa volatilidade seguem-se momentos
de baixa volatilidade. A figura 2.5 mostra a presença dos aglomerados de volatilidade
na série de preços do petróleo. O que esta seção trata essencialmente é a descrição deste
comportamento. Então podemos escrever a volatilidade condicional como

E νt2 |It−1 = ht

(2.34)
2
It−1 são as informações contidas e reveladas pela série yt até o instante t − 1, ou seja
yt−1 , yt−2 , . . . , y0 .

58
onde ht representa a variância do resı́duo no instante t dadas as informações até o
instante t − 1. Assim o modelo em (2.31) torna-se
1
yt = E (yt |It−1 ) + ht2 t (2.35)

onde t ∼ N ID (0, 1). Assim podemos dizer que νt |It−1 ∼ N (0, ht ).

2.6.1 Modelos de volatilidade condicional lineares


Esta seção trata de alguns modelos da famı́lia GARCH que foram denominados GARCH
lineares por não capturarem os efeitos assimétricos dos choques. Tratam-se pricipale-
mente dos modelos clássicos propostos por Engle (1982) [36] e Bollerslev (1986) [10].

Modelo ARCH

O modelo de Engle (1982) [36] considera que a volatildade em t é uma função linear do
quadrado do choque em t − 1, assim denominado ARCH(1).
1
yt = ht2 t (2.36)
2
ht = ω + αyt−1
onde ω > 0 e α ≥ 0 são condições que garantem a positividade de ht . Mais genericamente
pode-se considerar o modelo ARCH(1) escrito como na equação (2.36)

yt = a0 + a1 yt−1 + νt (2.37)
1
νt = ht2 t
2
ht = ω + ανt−1
onde t e νt−1 são independentes.

O modelo ARCH(1) pode ser analisado sob a ótica de um processo autoregressivo em


νt2 . Somando e subtarindo νt2 na variância ht , temos:

ht + νt2 = ω + ανt−1
2
+ νt2
2
νt2 = ω + ανt−1 + ut (2.38)
onde ut = νt2 − ht = ht 2t − ht = ht (2t − 1). Ainda E (ut |It−1 ) = E (ht ) E (2t − 1) = 0.
Em (2.38) o processo para νt2 é estacinário de segunda ordem se α < 1. Neste caso os
momentos em t e t − 1 são iguais, ou seja

E νt2 = ω + αE νt−1 2
 

ω
E νt2 =

(2.39)
1−α
Ainda note que E (νt ) = 0. Observe também em (2.36) que valores grandes de yt−1
(positivos ou negativos) são seguidos por valores grandes de yt . O mesmo ocorre para

59
valores pequenos. Ou seja, o modelo captura os aglomerados de volatilidade. Além
disso, a curtose de yt é dada por

3 (1 − α2 )
Ky = (2.40)
1 − 3α2
onde 1 > 3α2 e Ky será maior que 3 o que significa que o modelo captura o excesso de
curtose, um dos fatos estilizados das séries de retornos financeiros.

Exercı́cio 2.11. Mostre que para o modelo em (2.36) que a curtose é dada por

3 (1 − α2 )
Ky =
1 − 3α2
Exercı́cio 2.12. Seja o modelo dado em (2.37):

(i) calcule a média condicional de yt

(ii) calcule a variância condicional de yt

(iii) calcule a média incondicional de yt

(iv) calcule a variância incondicional de yt

Exercı́cio 2.13. Seja o modelo em (2.36).

(i) escreva o modelo AR(1) para yt2

(ii) calcule a FAC para yt2

Uma extensão natural do modelo ARCH(1) em (2.36) é o modelo ARCH(q) onde a


variância é escrita como:
2 2 2
ht = ω + α1 yt−1 + α2 yt−2 + . . . + αq yt−q (2.41)

Da mesma forma que anteriormente o modelo pode ser escrito como um AR(q) para yt2 .
Neste caso a variância incondicional de yt será:
ω
E yt2 =

(2.42)
1 − α1 − . . . − αq

uma vez que sejam atendidas as condições de estacionariedade de segunda ordem.

Exercı́cio 2.14. Mostre que a variância incondicional de yt é dada pela equação (2.42).

Para trabalhar com os modelos ARCH, modelando a volatilidade condicional das


séries de retorno, deve-se utilizar grandes valores de q o que torna os modelos poucos
parciomoniosos trazendo complexidade para a estimação dos parâmetros. Esta com-
plexidade é oriunda das restrições que se deve impor aos parâmetros para evitar a não
negatividade da variância e buscando a estacionariedade do modelo.

Modelo GARCH

60
Bollerslev (1986) [10] propôs o modelo GARCH (Generalized Autoregressive Conditional
Hetercedasticity) através da inclusão da variância do instante anterior ao modelo ARCH.
O objetivo foi o de obter um modelo mais parciomonioso e sem os problemas de es-
timação do modelo ARCH. Seja então o modelo na forma da equação (2.36) para o
modelo GARCH(1,1):
1
yt = ht2 t (2.43)
2
ht = ω + αyt−1 + βht−1
onde ω > 0, α > 0 e β ≥ 0 garantindo que ht ≥ 0. Fazendo substituições recursivas
do termo ht−1 em (2.43) mostra-se a equivalência deste modelo com o modelo ARCH(∞).

Acrescentando yt2 em ambos os lados da expressão de ht temos que


2
yt2 = ω + αyt−1 + βht−1 − ht + yt2

yt2 = ω + αyt−1
2
+ βht−1 + ut
onde ut = yt2 − ht e ut−1 = yt−1
2
− ht−1 , fazendo a substituição

yt2 = ω + αyt−1
2 2

+ β yt−1 − ut−1 + ut

yt2 = ω + (α + β) yt−1
2
− βut−1 + ut (2.44)
E o processo GARCH(1,1) pode ser escrito como um ARMA(1,1) que será estacionário
de segunda ordem se α + β < 1.
Exercı́cio 2.15. Seja o modelo descrito em (2.43)
(i) calcule a média e a variância condicionais de yt

(ii) calcule a média e a variância incondicionais de yt

(iii) calcule a autocorrelação ρ1 do modelo em (2.44)


Exercı́cio 2.16. Mostre que a curtose de yt no modelo em (2.43) é dada por

3 1 − (α + β)2
 
Ky =
1 − (α + β)2 − 2α2
O modelo GARCH pode ser extendido para ordens superiores. Assim é modelo
GARCH(p,q) dado por
q p
X X
2
ht = ω + αi yt−i + βj ht−j (2.45)
i=1 j=1

Alternativamente o modelo pode ser escrito como:

ht = ω + α (L) yt2 + β (L) ht (2.46)

onde
α (L) = α1 L + . . . + αq Lq

61
β (L) = β1 L + . . . + βp Lp
O modelo em (2.45) ou (2.46) será estacionário de segunda ordem caso as raı́zes do
polinômio 1 − α (L) − β (L) estiverem fora do cı́rculo unitário. A seleção da ordem p, q
do modelo deve ser feita minimizando os critérios de informação tais como o AIC e BIC
descritas pelas equações (2.13) e (2.14). Na maior parte dos casos práticos o modelo
GARCH(1,1) atende as necessidades de modelagem.

Estimação do modelo GARCH(1,1)

O modelo GARCH(1,1) na equação (2.43) está aqui reescrito


1
yt = ht2 t (2.47)
2
ht = ω + αyt−1 + βht−1
onde são observadas as mesmas restrições dos parâmetros e t ∼ N ID (0, 1).
A função distribuição conjunta do modelo é dada por

f (y1 , y2 , . . . , yN ) = f (y1 ) f (y2 ; y0 , y1 ) . . . f (yN ; y0 , . . . , yN −1 )


N
Y
f (y1 , y2 , . . . , yN ) = f (y1 ) f (yt ; y0 , . . . , yt−1 ) (2.48)
t=2

A função verossimilhança do modelo é


N
X
L (Θ; y) = ln f (y1 , y2 , . . . , yN ) = ln f (y1 ) + ln f (yt ; y0 , . . . , yN −1 )
t=2

onde Θ representa o vetor dos parâmetros Θ = [ω, α, β]. E a função de verossimilhança


dado y1 será:
XN
L (Θ; y) = ln f (yt |y0 , . . . , yN −1 ) (2.49)
t=2

Por outro lado temos que a função densidade de t é


 
1 1 2
f (t |yt−1 ) = √ exp − t
2π 2
Da equação (2.47) temos que
yt 1
g (yt ) = 1 e g0 (yt ) = 1 (2.50)
ht2
ht 2

E a função f (yt ; y0 , . . . , yN −1 ) será escrita por

f (yt ; y0 , . . . , yN −1 ) = f (g (yt )) g0 (yt ) (2.51)

Usando a equação (2.50) na equação (2.51), teremos:


 
yt 1
f (yt ; y0 , . . . , yN −1 ) = f 1 1 (2.52)
h 2 ht2

62
Levando a equação (2.52) na equação (2.49), temos

N
! N
X yt X − 12
L (Θ; y) = ln f 1 + ln ht (2.53)
t=2 ht 2
t=2

   
1/2 y2
Mas f yt /ht = √1 exp − 12 htt e o seu logarı́tmo é

!
yt 1 1 y2
ln f 1 = − ln 2π − t
ht2 2 2 ht

Levando este resultado em (2.53), finalmente teremos:

N  N
1 yt2
 
X 1 1X
L (Θ; y) = − ln 2π − − ln ht
t=2
2 2 ht 2 t=2
N N
N 1X 1 X yt2
=− ln 2π − ln ht − (2.54)
2 2 t=2 2 t=2 ht

Os parâmetros em Θ são obtidos pela maximização da função L (Θ; y) em (2.54).

A suposição em (2.47) de que t ∼ N ID (0, 1), pode ser modificada. Bollerslev (1987)
[11] sugere o uso de distribuição com caudas mais pesadas para capturar o excesso de
curtose. Considerando uma variável aleatória x com distribuição t de Student com ν
graus de liberdade (veja equação (1.33)) e ainda t = √ x , a função densidade de t
ν(ν−2)

− ν+1
Γ ν+1

2t
 2
2
f (t ; ν) = p 1 + (2.55)
Γ ν2 ν−2

(ν − 2) π
R∞
para ν > 2 onde Γ(z) = 0 y z−1 e−y dy. E seguindo as mesmas etapas anteriores chegare-
mos a
N − ν+1
Γ ν+1

yt2

Y
2 1 2
f (yt ; y0 , . . . , yN −1 ) = p 1 + (2.56)
Γ ν2 (ν − 2) π h1/2 (ν − 2) ht

t=2 t

Se o valor dos graus de liberdade fôr uma variável exógena tem-se para a função verossim-
ilhança:
N 
yt2
  
X ν+1 1
L (Θ; y) = − ln 1 + + ln ht (2.57)
t=2
2 (ν − 2) ht 2

Se o número de graus de liberdade estiver sendo estimado, acrescente-se à função ante-


rior a parcela que se segue ao produtório em (2.56).

63
2.6.2 Modelos de volatilidade condicional não lineares
Os efeitos dos choques na volatilidade condicional são diferentes para choques positivos
ou negativos. Este é um fato estilizado. O efeito na volatilidade condicional de um
choque negativo é mais acentuado do que o de um choque positivo. Entretanto os
modelos ARCH e GARCH nas equações (2.36) e (2.43) respectivamente, consideram o
choque em t−1 elevado ao quadrado. Neste caso, os modelos são indiferentes ao sinal do
choque e o efeito constatado empiricamente não é capturado pelos modelos. Este efeito
foi observado por Black (1976) [8]. Quando a ação de uma empresa cai, a relação entre
a dı́vida e o capital próprio aumenta, sugerindo um aumento da alavancagem. Simul-
tanearmente a ação fica mais volátil. Estes dois fatos ficaram associados e o fenômeno
ficou conhecido como efeito alavanca. Os modelos GARCH não lineares, que serão ap-
resentados, foram estabelecidos com a finalidade de capturar o efeito alavanca.
1
Nos modelos que se seguem considere yt = ht2 t e a variância ht será especificada em
cada modelo.

Modelo EGARCH

O modelo EGARCH (ou exponential GARCH) foi proposto por Nelson (1991) [79].
O EGARCH(1,1) é descrito por:

ln ht = ω + αyt−1 + γ (|yt−1 | − E (|yt−1 |)) + β ln ht−1 (2.58)

que ainda pode ser escrito por

ln ht = ω + g (yt−1 ) + β ln ht−1 (2.59)

onde α, ω, β e γ são constantes e g (yt ) é dada por

g (yt ) = αyt + γ (|yt | − E (|yt |)) (2.60)

O uso do logarı́tmo da variância no modelo EGARCH flexibiliza as restrições de posi-


tividade imposta aos parâmetros. Vejamos os efeitos em ht para choques positivos ou
negativos em t − 1:
(
(α + γ) yt−1 − γE (|yt−1 |) para yt−1 > 0
g (yt−1 ) =
(α − γ) yt−1 − γE (|yt−1 |) para yt−1 < 0

Note que a assimetria dos choques ocorre se γ 6= 0 e a presença do efeito alavanca ocorre
quando γ < 0. A função g (yt ) possui média zero pois tanto yt como |yt | − E (|yt |)
possuem média zero. A assimetria dos choques é garantida
q pela especificação da função
g (yt ) em (2.60). Se t ∼ N ID (0, 1) então E (||) = π2 . Se t é uma distribuição t de
Student padronizada dada em (2.55), então

2 ν − 2 Γ ((ν + 1) /2)
E (|t |) = √
(ν − 1) Γ (ν/2) π

Modelo TARCH

64
O modelo TARCH (Threshold ARCH) também foi concebido para considerar as diferenças
na volatilidade condicional causadas por choques positivos e negativos. Na literatura
por vezes este modelo ora aparece com o nome GJR devido a Glosten, Jagannathan e
Runkle (1993) [42] ora simplesmente TARCH devido a Zakoı̈an (1994) [103]. Essencial-
mente os dois modelos têm a mesma finalidade e aqui serão tratados indistintamente de
TARCH. O modelo TARCH(1,1) é escrito por
2 2
ht = ω + αyt−1 + βht−1 + γyt−1 (1 − I (yt−1 > 0)) (2.61)

Se o choque em t − 1 fôr positivo, yt−1 > 0, então I (yt−1 ) = 1 e o impacto na variância


será devido a α. Caso o choque seja negativo I (yt−1 = 0) o impacto na variância será
α + γ. O efeito assimétrico fica caracterizado se γ 6= 0 e se γ > 0 fica constatado o efeito
alavanca. O modelo mais geral como TARCH(p,q) pode ser escrito por
q p r
X X X
2 2
ht = ω + αi yt−1 + βj ht−j + γk yt−k (1 − I (yt−k > 0)) (2.62)
i=1 j=1 k=1

onde r representa a ordem do choque que impacta a volatilidade.

Modelo QGARCH

O modelo QGARCH (ou quadratic GARCH) também captura os efeitos de choques


de diferentes sinais. Foi proposto por Sentana (1995) [91] e pode ser escrito por
2
ht = ω + γyt−1 + αyt−1 + βht−1 (2.63)

Deferencia do GARCH tradicional pela introdução do termo γyt−1 . O modelo em (2.63)


pode ser escrito por  
γ 2
ht = ω + + α yt−1 + βht−1 (2.64)
yt−1
Para γ < 0 os choques negativos causarão um impacto em ht superior aos choques pos-
itivos. Neste modelo o tamanho do choque também é capturado como influenciando a
variância.

Além dos modelos aqui apresentados existem muitos outros que tornam a famı́lia
GARCH muito extensa. Citamos alguns outros modelos dentro dos GARCH não lin-
eares:

(i) LSTGARCH (Logistic Smooth Transition Garch) - Enquanto no modelo TARCH


o efeito do choque positivo para o negativo é devido à mudança abrupta de α para
α + γ, neste modelo há uma mudança suave de uma situação para outra através da
função logı́stica. Foi proposto por Hagerud (1997) [45] e Gonzáles-Rivera (1998)
[43].

(ii) GARCH com mudança de regime - Outros modelos de volatilidade condicional


levam em consideração a possibilidde de mudança de regime. Rabemananjara e
Zakoı̈an (1993) [84] argumentam que choques negativos aumentam a volatilidade

65
condicional somente se o choque negativo (em valor absoluto) é grande em mag-
nitude. Observaram que choques negativos e pequenos têm menor impacto sobre
a volatilidade que choques positivos de magnitude igual. Nesta linha de trabalho
podemos ainda citar Fornari e Melle (1997) [38] e Anderson, Nam e Vahid (1999)
[2].

2.6.3 Teste para GARCH linear


O teste para detectar heterocedasticidades condicional ou efeito ARCH nos resı́duos
de uma regressão foi proposto por Engle (1982) [36]. A volatilidade condicional será
constante se todos os αi do modelo ARCH(q) em (2.41), aqui reescrito
q
X
2
ht = ω + αi yt−i
i=1

forem nulos.

Teste ARCH-LM

Fazendo-se uma regressão em que


q
X
ê2t =ω+ αi ê2t−i + νt (2.65)
i=1

onde êt são os resı́duos estimados da regressão, podemos testar a hipótese nula:

H0 : α1 = α2 = . . . = αq = 0 (sem efeito ARCH)

HA : presença do efeito ARCH


O teste é baseado no princı́pio dos multiplicadores de Lagrange. A estatı́stica LM é
LM = N × R2 distribuindo-se assitoticamente como uma χ2α (q) sendo α o nı́vel de
significância.

2.6.4 Teste para GARCH não linear


Os testes propostos por Engle e Ng (1993) [37] verificam a presença do efeito assimétrico
dos choques na volatilidade.

Teste do sinal do choque

Este teste verifica se magnitude do quadrado do choque em t é afetado pelo sinal do


choque em t − 1. Considere uma variável dummy Nt−1 em que Nt−1 = 1 se o choque em
t − 1 é negatio, isto é yt−1 < 0, e zero caso contrário. Faça a regressão

ê2t = α0 + α1 Nt−1 + νt (2.66)

Considere as hipóteses:
H0 : α1 = 0

66
HA : α1 6= 0
Para α1 = 0 não existe assimetria ou efeito alavanca. A estatı́stica de teste é a estatı́stica
t tradicional. Rejeite H0 se estatı́stica t > tα (N − 2) onde α é o nı́vel de significância e
N o tamanho da série.

Teste do tamanho do choque

Neste teste é verificado se além do sinal, o tamanho do choque em t − 1 afeta o quadrado


do choque em t. Faça a regressão

ê2t = α0 + α1 Nt−1 êt−1 + νt (2.67)

Nesta regressão é investigado se o choque negativo e se sua magnitude afetam ê2t e con-
sequentemente a variância condicional, o teste é analisado sob a estatı́stica t.

Faça também a regressão


ê2t = α0 + α1 Pt−1 êt−1 + νt (2.68)
onde Pt−1 = 1 − Nt−1 . Neste caso investiga-se se o sinal e a magnitude do choque posi-
tivo em t − 1 afetam simultâneamente a variância condicional.

Também pode-se realizar o teste conjunto proposto em (2.66), (2.67) e (2.68). Faça
a regressão
ê2t = α0 + α1 Nt−1 + α2 Nt−1 êt−1 + α3 Pt−1 êt−1 + νt (2.69)
As hipóteses são
H0 : α1 = α2 = α3 = 0
HA = pelo menos um αi 6= 0
A estatı́stica de teste é LM = N × R2 e é assitoticamente distribuı́da sob uma dis-
tribuição χ2 (3). Rejeite H0 caso LM > χ2α (3) sendo α o nı́vel de significância.

Variantes do teste de Engle e Ng (1993) [37] podem ser facilmente consideradas para os
diversos modelos GARCH não lineares.

2.6.5 Testes de adequação do modelo


A suposição de que os resı́duos são independentes e identicamente distribuı́dos deve ser
testada após o ajuste do modelo de variância condicional. Assim os resı́duos padroniza-
dos ˆt nos modelos (2.36) e (2.43) devem ser testados. Verifique a independência através
do teste Brock, Dechert, Scheinkman e LeBaron (1986) [16]. Verifique também a pre-
sença de descorrelação serial entre os resı́duos estimados ao quadrado (ˆ2t ) através dos
testes de McLeod e Li (1983) [72] ou através do teste ARCH-LM de Engle (1982) [36].
Estes testes apontam para presença do efeito ARCH remanescente no modelo ajustado.
Obviamente o teste para identificar o tipo da distribuição de ˆt deve ser analisado sob a
hipótese da distribuição adotada para os resı́duos.

67
2.7 Volatilidade estocástica
Os modelos até então analisados consideram que a volatilidade em t é função dos choques
e volatilidades passados. Portanto, dadas as informações em t − 1 a volatilidade condi-
cional é determinı́stica. Além deste fato, os choques na série yt e na volatilidade ht
possuem a mesma natureza.

No modelo de volatilidade estocástica os choques simultâneos na média da série yt e


na volatilidade ht são governados por processos descorrelatados. O modelo de volatil-
idade estocástica foi proposto por Taylor (1986). Este modelo recebeu pouca atenção
devido às dificuldades de estimação. No entanto, com a evolução computacional e a
redução do tempo de processamento, novas técnicas de estimação têm sido utilizadas
recentemente. Desta forma, o modelo de volatilidade estocástica tem recebido especial
atenção principalmente no que se refere a metodologias de estimação.

O modelo pode ser escrito como:


yt = σt t (2.70)
σt2 = k eht
ht = γht−1 + ηt

onde t ∼ N ID (0, 1), ηt ∼ N ID 0, ση2 , |γ| < 1, E (t ηt−s ) = 0 para s ≥ 0 e k é um
fator de escala. Isto significa que o processo seguido por ht é estacionário.

Exercı́cio 2.17. Seja o modelo de volatilidade estocástica formulado em (2.70).


(i) calcule a média e variância incondicionais de ht

(ii) calcule a média e variância condicional de yt

(iii) calcule a média e a variância incondicional de yt

(iv) calcule o quarto momento de yt e a curtose Ky

(v) calcule os demais momentos pares de yt , isto é, o sexto, oitavo, ... e o 2m-ésimo
momento.

(vi) calcule a covariância de yt

(vii) calcule a correlação de yt2


Comparando os resultados do exercı́cio 2.15 (iii) e do exercı́cio 2.17 (vii) observamos
que os modelos GARCH(1,1) e volatilidade estocástica possuem FACs que são um de-
caimento exponencial para zero. Veja em Carnero, Pena e Ruiz (2004) [20]. um estudo
comparativo entre os modelos GARCH e volatilidade estocástica. A maior diferença
entre os modelos GARCH e volatilidade estocástica recai sobre a estimação. No mod-
elo GARCH a estimação é feita pela maximização da verossimilhança. A função de
verossimilhança é construı́da a partir de informações passadas de yt . No modelo de
volatilidade estocástica yt |It−1 não pode ser construı́da a partir das informações pas-
sadas de yt uma vez que ht está sujeita a um processo de choques diferentes de yt .

68
Dentre as metodologias de estimação para o modelo de volatilidade estocástica podemos
mencionar:

(i) método dos momentos

(ii) métodos de máxima verossimilhança, através de simulação numérica usando amostragem


ponderada e Monte-Carlo cadeia de Markov (veja Shepard e Pitt (1997) [92], Sand-
man e Koopman (1998) [87], Polson, Jacquier e Rossi (2002) [83] e Kim, Shephard
e Chibb (1998) [61]).3

(iii) método de quase-máxima verossimilhança (QMLE) (veja Nelson (1988) [78], Har-
vey, Ruiz e Shephard (1994) [50]). Em Ruiz (1994) [85] veja que o QMLE é
consistente e assintoticamente normal.

(iv) métodos de linearização

O método de quase máxima verossimilhança está implementado no software STAMP.


O modelo realiza a estimação dos componentes não observáveis através do filtro de
Kalman dentro da abordagem da metodologia espaço-estado (veja Durbin e Koopman
(2002) [33] e Harvey (1989) [49]).

Reescrevemos o modelo da equação (2.70) tal qual foi implementado no software acima
(veja Koopman, Harvey e Doornik (2000) [65]). Combinando a primeira e a segunda
equações temos:
1
yt = k 2 t exp (ht /2) (2.71)
ht = γht−1 + ηt
Elevando ao quadrado a equação e tomando o logarı́tmo, temos:

ln yt2 = ln k + ln 2t + ht

Somando e subtraindo E (ln 2t )

ln yt2 = ln k + E ln 2t + ln 2t − E ln 2t + ht


 

ln yt2 = κ + ht + ξt (2.72)
onde ξt = ln 2t − E (ln 2t ) e κ = ln k + E (ln 2t ). Observe que não há necessidade de
assumir uma distribuição particular de t . O método de quase-máxima verossimilhança
ignora qual a correta distribuição de ln yt2 ou ξt e adota como sendo normalmente dis-
tribuı́da. Fuller (1996) [40] propôs a seguinte transformação para yt :

∼ cs2y
ln yt2 = ln yt2 + cs2y −

para t = 1, . . . , N
yt2 + cs2y

onde s2y é a variância amostral de yt e c é uma constante adotada como 0, 02 em vários


estudos, veja Breidt e Carriquiry (1996) [15] e Bollerslev e Wright (2001) [12].
3
Broto e Ruiz (2002) [17] apresentam uma resenha sobre as metodologias de estimação do modelo
de volatilidade estocástica.

69
2.8 Aplicações

2.9 Resumo e considerações finais


O segundo capı́tulo deste texto foi dedicado a uma breve introdução à econometria de
séries financeiras. Este é um capı́tulo que é pouco usual em textos dedicados as disci-
plinas de processos estocáticos, cálculo estocástico e afins. O objetivo deste capı́tulo é
o de fazer uma ligação entre o será apresentado no futuro e a disciplina de econometria.
Os conceitos da econometria clássica foram gradativamente ampliados e hoje pode-se
dizer que há uma disciplina de econometria de séries financeiras que é uma extensão dos
modelos Box-Jenkins para séries temporais. Os modelos originais ARCH/GARCH de
Engle (1982) e Bollerslev (1986) expandiram-se enormemente gerando modelos que hoje
são referenciados como modelos da famı́lia GARCH. Este modelos constituem o ponto
mais relevante da modelagem de séries financeiras. Destacamos atenção aos modelos de
volatilidade estocástica que mais recentemente têm sido muito utilizados e revisitados
por pesquisadores que buscam solucionar os problemas referentes à sua estimação. Os
resultados favoráveis têm possibilitado o seu uso mais frequente.

A relevância dos conhecimentos aqui apresentados está no fato de que os modelos de


preços para tı́tulos, ações, commodities, etc necessitam ser estimados para validar sua
adequação aos dados empı́ricos históricos. Da mesma forma, os derivativos embutem
em seus preços um prêmio de risco que pode ser estimado similarmente. Essencialmente
uma série histórica financeira é uma realização de um processo estocástico. O mod-
elo assim ajustado a esta realização pode ser útil em simulações e previsões futuras da
variável modelada. A finalidade destas previsões são variadas sendo úteis, inclusive,
para o apreçamento de derivativos através da simulação de Monte-Carlo, por exemplo.

A comparação da adequação de dois modelos diferentes a uma determinada realização


(série histórica da variável preço) deve considerar diferentes aspectos. Devem ser com-
parados: (i) os critérios de informação AIC e BIC, (ii) a verossimilhança dos modelos,
(iii) os êrros de previsão dentro e fora da amostra (iv) a estrutura a termo de preços
e volatilidades. Somente após a ponderação destes diferentes aspectos deve-se optar
por um dos modelos. Em suma, busca-se na análise de um processo estocástico, mode-
los capazes de reproduzir os principais fatos estilizados presentes nas séries financeiras
empı́ricas, tornando-os aptos a fazer previsões na suposição de que tais fenômenos são
permanentes e ocorrerão no futuro.

2.10 Apêndice - Função de Autorcorrelação Parcial


2.10.1 Função de Autocorrelação Parcial
A FACP para um processo estacionário com média zero pode ser obtido a partir da
regressão
yt+k = φk1 yt+k−1 + φk2 yt+k−2 + . . . + φkk yt + t+k

70
Multiplicando ambos os lados por yt+k−j e calculando o valor esperado e dividindo pela
variância, tem-se
ρj = φk1 ρj−1 + φk2 ρj−2 + . . . + φkk ρk−j
Então para j = 1, 2, . . . , k, temos:

ρ1 = φk1 ρ0 + φk2 ρ1 + . . . + φkk ρk−1

ρ2 = φk1 ρ1 + φk2 ρ0 + . . . + φkk ρk−2


..
.
ρk = φk1 ρk−1 + φk2 ρk−2 + . . . + φkk ρ0 (2.73)
Para k = 1 ⇒ φ̂11 = ρ1

Para k = 2 ⇒ ρ1 = φ21 + φ22 ρ1 e ρ2 = φ21 ρ1 + φ22

Ou podemos escrever a última equação em notação matricial:


    
ρ1 1 ρ1 φ21
=
ρ2 ρ1 1 φ22
cuja solução para o estimador ρ̂22 é dada pela regra de Cramer:

1 ρ1

ρ1 ρ2
φ̂22 =
1 ρ1
ρ1 1
Para k = 3 temos as equações:

ρ1 = φ31 + φ32 ρ1 + φ33 ρ2

ρ2 = φ31 ρ1 + φ32 + φ33 ρ1


ρ3 = φ31 + φ32 ρ1 + φ33
Em notação matricial temos:
    
ρ1 1 ρ1 ρ2 φ31
 ρ2  =  ρ1 1 ρ1   φ32 
ρ3 ρ2 ρ1 1 φ33

cuja solução para o estimador φ̂33 é dada por:



1 ρ1 ρ1

ρ1 1 ρ2

ρ2 ρ1 ρ3
φ̂33 =
1 ρ1 ρ2

ρ1 1 ρ1

ρ2 ρ1 1

E assim sucessivamente.

71
72
Capı́tulo 3

Cálculo Estocástico

A teoria de finanças em tempo contı́nuo apoia-se essencialmente na disciplina de cálculo


estocástico. O cálculo estocástico é a linguagem atual do apreçamento e gerencia-
mento de riscos. Por isto é parte integrante da indústria financeira, seguros e atuária.
É a matéria fundamental para a pesquisa acadêmica em finanças nos seus diversos
ramos. Este capı́tulo é dedicado aos conceitos introdutórios desta disciplina. Desta
forma o Capı́tulo 3 contém os principais conceitos necessários para o desenvolvimento
de metodologias que fazem uso desta disciplina. O destaque neste texto é o seu uso
para o apreçamento. A sua compreensão é fundamental para o entendimento dos de-
mais capı́tulos. Para tal, apresentamos os conceitos sem o rigorismo matemático que
muitas vezes torna o texto enfadonho dificultando a sua leitura. Não obstante, algum
formalismo é requerido, e entendemos que aquilo que se segue é o mı́nimo necessário.

Definiremos o processo Browniano, o conceito de esperança condicional e a propriedade


martingal. A seguir veremos o conceito de integração em ambiente estocástico e a
fórmula (lema) de Itô1 . Finalizaremos com a solução de algumas equações diferenciais
estocásticas embora haja um capı́tulo neste texto dedicado a este assunto. Tal como nos
capı́tulos anteriores apresentamos vários exemplos e propomos outros tantos exercı́cios.
Encorajamos o leitor a resolver todos eles para que o desenvolvimento subsequente fique
facilitado.

A literatura nesta área além de vasta apresenta diferentes abordagens, desde os textos
puramente teóricos aos mais básicos. Recomendamos ao leitor interessado em aprofun-
dar seus conhecimentos que consulte preferencialmente os textos dedicados às aplicações
em finanças tais como Mikosh (1999) [75], Neftci (2000) [77], Joshi (2003) [59], Baz e
Chacko (2004) [6], Baxter e Rennie (1996) [5]. Outros textos relevantes para o apren-
dizado da disciplina e acessı́veis são Shreve (2004) [94], Øksendal (2003) [80], Steele
(2000) [97], Elliot e Kopp (2005) [34], Björk (2004) [7] e Klebaner (2001) [62].

1
Seguindo a mesma observação de Jarrow e Protter (2004) [58] preferimos a designação de fórmula
de Itô ao invés de lema como difundido da literatura. O termo fórmula ressalta a importância do
conceito para o cálculo estocástico.

73
3.1 Processo Browniano
Antes da definição do processo Browniano vejamos duas definições que ajudarão na sua
compreensão. Sugerimos que o leitor reveja a definição de processos estocásticos na
seção 2.1

Definição 3.1. Seja X = (Xt , t ∈ [0, T ]) um processo estocástico. X é dito ser um


processo com incrementos estacionários se

d
Xt − Xs = Xt+h − Xs+h

para todo t, s ∈ [0, T ] e t + h, s + h ∈ [0, T ].

d
A igualdade = significa igualdade em distribuição, ou seja, os processos definidos em
ambos os lados desta igualdade possuem a mesma distribuição.

Definição 3.2. Seja X = (Xt , t ∈ [0, T ]) um processo estocástico. X tem incrementos


independentes se para todo t1 < t2 . . . < tn , n > 1

Xt2 − Xt1 , . . . , Xtn − Xtn−1

são variáveis aleatórias independentes.

O movimento Browniano ou processo padrão de Wiener é um importante conceito


para o desenvolvimento da teoria de processos estocásticos e consequentemente para a
construção da teoria de finanças em tempo contı́nuo.

Definição 3.3. (Processo Browniano padrão) Um processo estocástico B = (Bt , t ∈ [0, ∞))
é dito Browniano ou processo padrão de Wiener se:

(i) inicia em zero: B0 = 0,

(ii) tem incrementos estacionários e independentes,

(iii) para todo t > 0, Bt ∼ N (0, t),

(iv) as realizações são contı́nuas, sem saltos.

As variáveis aleatórias Bt − Bs e Bt−s possuem distribuição N (0, t − s) para s < t.


Este fato decorre da estacionariedade dos incrementos. Isto é, Bt − Bs tem a mesma
distribuição que Bt−s − B0 = Bt−s que é normal com média zero e variância t − s.
d
Enfatizamos que a identidade em distribuição Bt (ω) − Bs (ω) = Bt−s (ω) não significa
que os valores sejam iguais. Em geral Bt (ω) − Bs (ω) 6= Bt−s (ω). Isto significa que não
d
podemos substituir = por =.

74
3.1.1 Propriedades do processo Browniano
Dentre as propriedades do processo Browniano vamos examinar primeiramente aquelas
oriundas diretamente da definição acima, ou seja, aquelas relacionadas diretamente aos
primeiros momentos do processo:

(i) a média de Bt é zero, isto é, E (Bt ) = 0,

(ii) a variância de Bt é V ar (Bt ) = E (Bt − E (Bt ))2 = E [Bt2 ] = t,


 

(iii) a covariância de Bt e Bs é dada por

Cov (Bt , Bs ) = E [(Bt − E (Bt )) (Bs − E (Bs ))]


= E [Bt Bs ]
= E [((Bt − Bs ) + Bs ) Bs ]
= E [(Bt − Bs ) Bs ] + E Bs2
 

= E (Bt − Bs ) E (Bs ) + E Bs2




= 0 + s = s para 0 ≤ s < t

Na terceira igualdade somamos e subtraı́mos Bs considerando a suposição de que s < t.


Note que a passagem da quarta para a quinta igualdade foi realizada sob a condição de
que os processos Bt − Bs e Bs são independentes, uma vez que s < t. Se a suposião
fosse t > s o resultado acima seria t, então podemos escrever que

Cov (Bt , Bs ) = E (Bt Bs ) = min (t, s) (3.1)

A Figura 3.1 mostra uma trajetória do processo Browniano. A Figura 3.2 mostra
um conjunto de dez trajetórias para o processo Browniano. Observando uma trajetória
qualquer, é fácil reconhecer as irregularidades presentes. Estas irregularidades são con-
senquências da propriedade de que o processo Browniano possui incrementos indepen-
dentes. Por outro lado, sabemos que sob o ponto de vista do cálculo clássico uma função
é diferenciável em um ponto se os limites à esquerda e à direita neste ponto são iguais
(a função tem um formato de uma curva “suave”. Examinando uma trajetória do movi-
mento Browniano pode-se constatar que tal fato não ocorre.

Disto decorre que o processo Browniano não é integrável sob o ponto de vista clássico.
Então temos a necessidade do desenvolvimento de conceitos que permitam a integração
de tais trajetórias. Tais conceitos foram reunidos na disciplina da matemática denom-
inada cálculo estocástico ou cálculo de Itô. Sob a abordagem desta disciplina, a inte-
gração das variáveis estocásticas não é a integral de Riemann que usualmente conhece-
mos. O conceito de integração estocástica será apresentado ainda neste capı́tulo.

Outra propriedade do processo Browniano é auto-similaridade. Esta propriedade


quer dizer que se fizermos sucessivas ampliações para vizualizarmos um trecho (ou
porção) de uma trajetória do processo Browniano, iremos observar que as figuras ap-
resentarão formas similares, porém não idênticas. Em resumo, podemos acrescentar às
propriedades anteriores duas outras:

75
Figura 3.1: Trajetória do processo Browniano

(iv) o processo Browniano não é diferenciável em nenhum trecho de sua trajetória,


(v) o processo Browniano é auto-similar.
Diante da existência da integral estocástica, admitiremos (inicialmente sem demon-
strar) que faz sentido o conceito de diferencial do processo Browniano. Usaremos para
tal a notação dBt , que significa o incremento do movimento Browniano. Analogamente
ao processo Browniano Bt , o seu incremento é definido por dBt ∼ N (0, dt), assim temos:

E (dBt ) = 0 (3.2)
2

V ar (dBt ) = E dBt = dt (3.3)
Para o melhor entendimento da equação (3.3) veja o conceito de variação quadrática
na seção seguinte. Veja também a demonstração da variação quadrática do Browniano
feito no Apêndice deste capı́tulo.

As trajetórias do processo Browniano não possuem variações limitadas no intervalo


[0, T ]. Isto significa dizer que
n
X
sup Bt (ω) − Bt (ω) = ∞ (3.4)
i i−1
τ
i=1

onde o supremo é avaliado para todas as possı́veis partições

τ : 0 = t0 < t1 < . . . tn = T

76
Figura 3.2: Gráfico com dez trajetórias do processo Browniano

Esta última propriedade completa o conjunto das principais propriedades do processo


Browniano:

(vi) o processo Browniano não é de variação limitada.

Em resumo, podemos dizer que o movimento Browniano possui as seguintes pro-


priedades:

(i) B0 = 0,

(ii) Bt é contı́nuo em t tal que Bt ∼ N (0, t),

(iii Bt não é diferenciável sob o ponto de vista clássico,

(iv) Bt não é um processo de variação limitada,

(v) Bt − Bs e Bt−s são iguais em distribuição e possuem média zero e variância t − s.

3.1.2 Variação quadrática


Definição 3.4. (Variação quadrática) Seja f (t) uma função definida em 0 ≤ t ≤ T .
Seja τ uma partição
τ : 0 = t0 < t1 < . . . tn = T

77
seja δ = max0≤i≤n−1 (ti+1 − ti ). A variação quadrática de f no intervalo [0, T ] é definida
por [f, f ] (T ) tal que
n−1
X
[f, f ] (T ) = lim [f (ti+1 ) − f (ti )]2 (3.5)
δ→0
i=0

O processo Browniano, além das propriedades já enunciada, possui variação média
quadrática, ou seja o limite da equação (3.5) existe. Tratamos desta importante pro-
priedade neste seção e a destacamos na forma do teorema abaixo.

Teorema 3.1. (Variação quadrática do Browniano) Seja Bt , 0 ≤ t ≤ T , uma


processo Browninao padrão, então [B, B] (T ) = T , ou seja
n−1
X 2
[B, B] (T ) = lim Bti+1 − Bti =T (3.6)
δ→0
i=0

A demonstração do teorema 3.1 está apresentada no Apêndice deste capı́tulo. Esta


propriedade é a convergência média quadrática ou convergência L2 . Na seção 1.6 vimos
a definição de convergência de ordem p, isto é Lp . Voltaremos a este assunto na definição
da integral de Itô.

3.1.3 Regras básicas de operacionalização


Apresentaremos nesta subseção as regras fundamentais para operacionalização de cálculos
no ambiente estocástico. Todas elas decorrem das propriedades do processo Browniano
vistas acima, das equações (3.2) e (3.3) e da variação quadrática do processo Browniano.
Assim podemos escrever que

E (dtdBt ) = dtE (dBt ) = 0 (3.7)

Tal qual usualmente utilizamos no cálculo clássico aqui vamos considerar que potências
de dt superiores a um serão aproximadamente iguais a zero, ou seja, (dt)n ∼ = 0 para
n > 1. Assim podemos prosseguir um pouco mais e escrever

V ar dBt2 = E dBt4 − E 2 dBt2 = 3dt2 − dt2 = 0


  
(3.8)

A igualdade acima é oriunda do fato de que o quarto momento de uma normal é 3


multiplicado pela variância ao quadrado (veja equação (1.13)). Podemos ainda escrever
que
E (dBt dt)2 = E dBt2 dt2 = 0
  
(3.9)
Desta última equação e da equação (3.7) podemos escrever que

V ar (dBt dt) = E (dBt dt)2 − E 2 (dBt dt) = 0 − 0 = 0


 
(3.10)

Considere agora uma função do Browniano, f (Bt ). Observe que o valor esperado de
uma variável que tem variância nula é a própria variável (é portanto determinı́stica e
não é uma variável aleatória). Em outras palavras

E [f (Bt )] = f (Bt ) se V ar [f (Bt )] = 0 (3.11)

78
Agora com as propriedades acima podemos concluir sobre as regras básicas de opera-
cionalização para utilização em cálculos no ambiente estocástico. Da equação (3.10)
vemos que a variância de dBt dt é zero. Por outro lado, o valor esperado de dBt dt é zero.
Portanto da equação (3.11) tiramos a primeira regra básica:
Regra 1: dBt dt = 0 (3.12)
A segunda regra básica decorre das equações (3.3) e (3.8) e pelas mesmas razões
explı́citas em (3.11) temos
Regra 2: dBt2 = dt (3.13)
A terceira regra básica já foi apresentada e utilizada acima. Aqui apenas enfatizamos
a sua aplicação no caso mais usual
Regra 3: dt2 = 0 (3.14)
Exemplo 3.1. Ponte Browniano (Brownian bridge):
Considere o processo Xt = Bt − tB1 , para 0 ≤ t ≤ 1. Calcule a média e a função
covariância de Xt .

Solução: Pela definição acima o tempo t, onde está definido o processo, assume val-
ores entre zero e um: 0 ≤ t ≤ 1. Então vamos calcular os valores X0 e X1 :
X0 = B0 − 0 × B1 = 0
X1 = B1 − 1 × B1 = 0
O processo X assume os mesmos valores no instante inicial e final. Todas as trajetórias
ligam estes dois pontos, por isto o nome de ponte. O valor esperado de X é:
E (Xt ) = E (Bt − tB1 ) = 0
O segundo momento de X é dado por
E Xt2 = E (Bt − tB1 )2
  

= E Bt2 + t2 B12 − 2tBt B1


 

= E Bt2 + t2 E B12 − 2tE (Bt B1 )


 

= t + t2 − 2 × t × t = t − t2
Logo a variância de X será
V ar (Xt ) = E Xt2 − E 2 (Xt ) = t − t2


A covariância entre Xt e Xs , t < s, t < 1, e s ≤ 1, será


Cov (Xt , Xs ) = E (Xt Xs ) = E [(Bt − tB1 ) (Bs − sB1 )]
= E Bt Bs − sB1 Bt − tB1 Bs + stB12
 

−s E (B1 Bt ) −t E (B1 Bs ) +st E B12



= E (Bt Bs )
| {z } | {z } | {z } | {z }
veja equação (3.1) t<1 s<1 =1

= min (t, s) − st − ts + st
= min (t, s) − st

79
Observe que se t = s, então Cov (Xt , Xs ) = V ar (Xt ) = t − t2 .

Definição 3.5. (Processo aritmético Browniano) O processo aritmético Browni-


ano (ou processo aritmético Browninano com drift) é definido por Xt = x + µt + σBt ,
para t ≥ 0, σ > 0, X0 = x e µ ∈ R. Os parâmetros µ e σ definem e a tendência e a
volatilidade do processo, respectivamente.

Exercı́cio 3.1. Seja o processo aritmético Xt definido acima. Calcule o valor esperado e
a função covariância para Xt . Faça a simulação de uma trajetória do processo aritmético
Browniano plotando-o em um gráfico St versus t.

Definição 3.6. (Processo geométrico Browniano) O processo geométrico Browni-


ano (ou movimento geométrico Browniano) é definido por Xt = x exp (µt + σBt ), para
t ≥ 0, µ ∈ R, σ > 0 e X0 = x. Os parâmetros µ e σ definem e a tendência e a
volatilidade do processo, respectivamente.

O processo estocástico geométrico Browniano é um processo que ocupa um papel


de destaque na teoria de finanças. Foi utilizado pioneiramente por Black e Scholes
(1973) e Merton (1973) para modelar a evolução ou a dinâmica do preço de uma ação.
Xt representa o preço de uma ação que é uma função exponencial, logo será sempre
positivo. O expoente é um processo aritmético Browniano tal qual definido acima. Note
que o expoente é uma distribuição normal que tem média µt e variância σ 2 t.

Exemplo 3.2. Seja Xt um processo geométrico Browniano como acima. Calcule o valor
esperado e a função covariância para Xt . Considere X0 = x = 1.

Solução: De acordo com a equação (1.30) podemos escrever que o valor esperado de
Xt é
 
1
E (Xt ) = E [exp (µt + σBt )] = exp E (µt + σBt ) + V ar (µt + σBt )
2
  
1
= exp µ + σ 2 t
2

A covariância entre Xt e Xs envolve um pouco mais de trabalho algébrico, vejamos


então:

Cov (Xt , Xs ) = E [(Xt − E (Xt )) (Xs − E (Xs ))]


= E (Xt Xs ) − E (Xt ) E (Xs )

80
A segunda parcela do segundo membro da última equação já foi calculada anteriormente.
Abaixo vamos calcular a primeira parcela do segundo membro.

E (Xt Xs ) = E [exp (µt + σBt ) exp (µs + σBs )]


= E [exp (µ (t + s) + σ (Bt + Bs ))]
 
1
= exp E (µ (t + s) + σ (Bt + Bt )) + V ar (µ (t + s) + σ (Bt + Bs ))
2
 
1 2
= exp µ (t + s) + σ (t + s + 2 min (s, t))
2
considerando s ≤ t, temos:
 
1 2
= exp µ (s + t) + σ (t + s + 2s)
2
Agora podemos calcular a covariância:
 
1 2
Cov (Xt , Xs ) = exp µ (s + t) + σ (t + 3s)
2
     
1 2 1 2
− exp µ + σ t exp µ + σ s
2 2
trabalhando algebricamente a expressão acima chegaremos a
  
1 2
= exp µ + σ (t + s) exp σ 2 s − 1 para s ≤ t
  
2
Note que se t = s teremos
1 2
h 2 i
Cov (Xt , Xs ) = V ar (Xt ) = e(µ+ 2 σ )(2t) eσ t − 1
2
h 2 i
= e2µt+σ t eσ t − 1


Exercı́cio 3.2. Considere o processo Xt = Bt+δδ−Bt , onde δ > 0 é uma constante.
Calcule a média e a função covariância de Xt .
Vimos que o processo aritmético Browniano é dado por Xt = µt + σBt , onde t ≥ 0,
σ > 0 e µ ∈ R. O parâmetro µ fornece a tendência (drift) do processo. O parâmetro
σ é a volatilidade do processo e está associado à dispersão de Xt em relação à média
E (Xt ). A média e a variância de Xt são µt e σ 2 t, respectivamente; em outras palavras,
Xt ∼ N (µt, σ 2 t). Desta forma, os valores de Xt podem ser positivos ou negativos.
Assim é claro que este processo não é um bom modelo para representar preços de ativos.
Outra forma de expressar o processo aritmético Browniano é escrevê-lo em sua forma
diferencial.
dXt = µdt + σBt para t ≥ 0 (3.15)
O processo na equação (3.15) está descrito na forma de uma equação diferencial es-
tocástica (EDE). Podemos discretizar esta equação entre dois instantes de tempo tk e
tk−1 , como 
Xtk − Xtk−1 = µ (tk − tk−1 ) + σ Btk − Btk−1

81
Ou ainda podemos escrever ∆Xt = µ∆t + σ∆Bt . Se tomarmos o instante inicial tk−1
como zero (fazendo X0 = x = 0) e o instante tk como um instante genérico t, teremos

Xt = µt + σBt (3.16)

Desta forma é fácil ver que as duas formas de expressar o processo aritmético Browniano
se equivalem.

O processo geométrico Browniano também pode ser descrito na forma de uma


equação diferencial estocástica por

dXt
= µdt + σdBt para t ≥ 0 e X0 = x (3.17)
Xt

onde µ ∈ R e σ > 0. Veremos adiante que a solução da EDE (3.17) é o processo descrito
por
Xt = xe(µ−0,5σ )t+σBt
2
(3.18)
O segundo membro da equação (3.17) é o processo aritmético Browniano em sua forma
diferencial. Se discretizarmos a equação (3.17) para os instantes tk e tk−1 temos

Xtk − Xtk−1 
= µ (tk − tk−1 ) + σ Btk − Btk−1
Xtk−1

Se Xt representa o preço de um ativo em t tal qual definido em (3.17), então o primeiro


membro representa o retorno de um ativo entre os instantes tk e tk−1 . O segundo mem-
bro representa o processo aritmético Browniano na forma diferencial. O retorno deste
ativo (primeiro membro) é normalmente distribuı́do com média µ∆t e variância σ 2 ∆t
(segundo membro), onde ∆t é o intervalo de tempo para o qual o retorno é calculado.
É imediato pelas definições que a distribuição de preços é lognormal.

A Figura 3.3 mostra o gráfico do processo geométrico definido por Xt = e0,05t+0,1Bt ,


com X0 = x = 1 onde foram simuladas cinco trajetórias. O gráfico também mostra a
tendência de Xt , ou seja E (Xt ) (linha reta pontilhada). p
Além disso estão traçadas as
envoltórias (linhas sólidas) representadas por E (Xt ) ± 2 V ar (Xt ), ou seja, a média
mais ou menos dois desvios. Note a clara tendência (drift) do processo.

Exemplo 3.3. Considere que X seja o preço de uma ação que segue um processo
geométrico Browniano com drift α ∈ R e volaltilidade σ > 0. Da mesma forma Y
representa outra ação que segue um processo geométrico Browniano com drift β ∈ R e
volatilidade ν > 0. A correlação entre os Brownianos dos dois processos é ρ, ou melhor,
dBX dBY = ρdt. Resolva os itens abaixo:

(i) Escreva as equações dos dois processos na forma diferencial,

(ii) Calcule a correlação entre os retornos dos dois ativos,


   
(iii) Calcule o valor esperado E dX Xt
t
+ dYt
Yt
e a variância V ar dXt
Xt
+ dYt
Yt
.

82
Figura 3.3: Trajetórias do processo geométrico Browniano

Solução:

(i) As equações dos processos geométricos na forma diferencial para t ≥ 0 são

dXt dYt
Ativo X: = αdt + σdBXt Ativo Y: = βdt + νdBYt
Xt Yt

(ii) A correlação é calculada a partir da covariância entre os retornos, que por sua vez
é dada pela covariância entre dXXt
t
e dY
Yt
t
, isto é
 
dXt dYt
Cov (RX , RY ) = Cov , = Cov [αdt + σdBXt , βdt + νdBYt ]
X t Yt
= σνCov (dBXt , dBYt )
= σνρdt
Agora podemos calcular a correlação:
Cov (RX , RY )
Cor (RX , RY ) = p p
V ar (RX ) V ar (RY )
σνρdt
= 1 1
σdt 2 νdt 2

83
(iii) O valor esperado e a variância são dados por:
 
dXt dYt
E + = (α + β) dt
Xt Yt
       
dXt dYt dXt dYt dXt dYt
V ar + = V ar + V ar + 2Cov ,
Xt Yt Xt Yt Xt Yt
= σ 2 dt + ν 2 dt + 2σνρdt
= σ 2 + ν 2 + 2σνρ dt


3.2 Valor esperado condicional


O conceito de valor esperado condicional é o alicerce para o apreçamento de contratos em
finanças. Usaremos doravante este conceito em vários tópicos ao longo deste texto. Isto
mostra a sua importância. Dividiremos esta seção em quatro subseções. Na primeira
subseção vamos recordar o que vimos no capı́tulo 1, isto é o conceito básico de valor
esperado condicional. Na subseção dois daremos uma breve noção do conceito de σ-
álgebra. Na subseção três trabalharemos especificamente o conceito de valor esperado
condicional que é usado nas técnicas de apreçamento. Por último introduziremos os
conceitos de espaço e medida de probabilidade.

3.2.1 Conceito básico


Vimos na seção 1.2 o conceito de probabilidade condicional. Na equação (1.1) vimos
que a probabilidade de ocorrência de um evento A dado que ocorreu outro evento B é
definido por
P (A ∩ B)
P (A|B) =
P (B)
A interpretação do resultado acima significa que a ocorrência do evento B restringe o
espaço de ocorrênica do resultado, ou seja, a ocorrência de A fica restrita às possı́veis
ocorrênicas do conjunto B. Por esta razão o resultado deve ser normalizado pelo valor
da probabilidade de B. Sugerimos que leitor reveja o exemplo 1.2.

A seção 1.4 define o valor esperado condicional de uma variável aleatória X dado que
conchecemos o valor da variável aleatória Y . Veja a equação (1.40). O valor esperado
condicional E (X|Y ) é uma variável aleatória, isto porque a variável aleatória Y pode
assumir diferentes valores. O valor esperado condicional assumirá tantos valores quanto
aqueles que assumir a variável aleatória Y . Assim se Y assume poucos valores a variável
aleatória E (X|Y ) ficará restrita também a poucos valores. O valor esperado da variável
aleatória E (X|Y ) é o valor esperado incondicional de X. Este resultado foi provado na
seção 1.4. Escrevendo-o novamente temos
E (E (X|Y )) = E (X)
Intuitivamente significa dizer que o valor esperado de X dado Y é uma aproximação do
valor esperado de X. O exemplo 1.6 mostra esta propriedade, volte um pouco e reveja-o.

84
3.2.2 Noção de σ-álgebra
O conceito de valor esperado condicional de X dada a ocorrência de uma variável
aleatória Y foi definido anteriormente. A variável aleatória E (X|Y ) foi construı́da
sob o conceito de uma variável aleatória discreta. Vamos imaginar agora que tenhamos
o valor esperado condicional para cada variável aleatória associada a um estado ωi da
natureza, tal que ωi ∈ Ω. Vamos imaginar uma coleção de estados ω e a esta coleção
vamos denominar por σ (Y ). Esta coleção de valores de Y em função dos estados da
natureza revela a informação sobre a variável aleatória Y em função de cada estado
ωi ∈ Ω. Assim o valor esperado condicional pode ser escrito mais genericamente sob a
forma
E (X|Y ) = E (X|σ (Y ))
Esta coleção de valores σ (Y ) é denominada de σ-álgebra. Podemos então formalizar
este conceito.

Definição 3.7. (σ-álgebra) Define-se a σ-álgebra F, por um coleção de subconjuntos


de Ω satisfazendo:
(i) Não é vazio: ∅ ∈ F e Ω ∈ F,
(ii) Se A ∈ F, então Ac ∈ F,

[ ∞
\
(iii) Se A1 , A2 , . . . , ∈ F, então Ai ∈ F e Ai ∈ F.
i=1 i=1

Por exemplo a coleção F 1 = {∅, Ω} é uma σ-álgebra. A coleção F 2 = {∅, Ω, A, Ac }


é outra σ-álgebra. Para uma variável aletória Y , assumindo valores discretos, denom-
inamos por σ (Y ) a σ-álgebra gerada por Y . Agora imagine o caso em que a variável
aletória Y é uma variável aletória multivariada, Y, neste caso a σ-álgebra σ (Y) é a
σ-álgebra gerada pelo vetor aletório Y. E assim esta σ-álgebra contém a informação
essencial sobre a estrutura deste vetor aleatório. Vamos mais além um pouco. Imagine
um processo estocástico Y definido na seção 2.1, denominamos de σ (Y ) a σ-álgebra
gerada por Yt (ω) que contém as informações geradas pelos estados ωi ∈ Ω em cada
instante de tempo t ∈ [0, T ].

Seja por exemplo o processo Browniano B = (Bs , s ≤ t) definido em [0, T ]. Podemos


escrever que a σ-álgebra gerada por B até o instante t como F t = σ (B) = σ (Bs , s ≤ t).
Esta σ-álgebra contém a informação essencial sobre a estrutura do processo estocástico
B em [0, t].

Seja para uma variável aletória Y , um vetor aleatório Y, ou um processo estocástico


Y a σ-álgebra σ (Y ) contém as informações geradas por Y .

3.2.3 Valor esperado


O conceito de valor esperado condicional de X foi estabelecido em termos da ocorrência
da variável aleatória Y . Agora passaremos a considerar o valor esperado condicional

85
em termos das informações gerada pela variável aletória Y , pelo vetor multivariado Y
ou pelo processo estocástico Y . Denominaremos este valor esperado condicional por
E (X|F). Novamente, este valor esperado é uma variável aleatória, pois F contém
as informações geradas por pela ocorrência dos possı́veis estados da natureza ωi ∈ Ω.
Da mesma forma que anteriormente, o valor esperado E (X|F) é uma aproximação de
E (X). Agora podemos escrever de forma mais geral que

E (X|Y ) = E (X|σ (Y )) = E (X|F) (3.19)

Podemos dizer que calcular o valor esperado está associado à noção de prever o valor
de uma variável aleatória. O valor esperado condicional é precisamente a operação que
busca calcular a previsão, dada uma quantidade de informação associada à variável.
Esta informação é a coleção de subconjuntos de Ω denominados σ-álgebra.

Por exemplo, seja St um processo estocástico que descreve o preço de um ativo em


cada instante de tempo t. Suponha que desejamos prever o preço deste ativo em u > t
condicionada às informações disponı́veis até o tempo t. Escrevemos para tal E(Su |F t ).
Podemos entender o conceito acima como o valor esperado condicional às informações
geradas pelo processo estocástico de St (até o instante t).

3.2.4 Espaço e medida de probabilidade


Duas importantes definições que unem os conceitos de eventos na teoria de probabili-
dade e o de σ-álgebra são o de medida de probabilidade e o de espaço de probabilidade.

Definição 3.8. (Medida de probabilidade) Considere que F é uma σ-álgebra definida


em Ω. A medida de probabilidade P é uma função P : F → [0, 1] tal que

(i) P (Ω) = 1

(ii) Ai ∩ Aj = ∅ para i 6= j, então P (A1 ∪ A2 . . .) = P (A1 ) + P (A2 ) + . . .

A tripla (Ω, F, P ) é chamada de espaço de probabilidade e os conjuntos pertencentes


a F são denominados eventos. Diz-se que o evento A ocorre quase certamente (q.c.)
sempre que P (A) = 1.

3.2.5 Regras básicas de operacionalização


A seguir iremos colocar algumas propriedades do valor esperado condicional de tal
forma que possamos realizar a maior parte das operações que envolvem este conceito.
Primeiramente considere que o valor esperado do módulo da variável aleatória X é finito,
E (|X|) < ∞. A partir deste fato garante-se a existência de E (X|F). De certa forma
as regras abaixo generalizam alguns dos conceitos que usamos no capı́tulo 1. Não nos
preocuparemos em demonstrá-las mas o leitor pode fazê-lo como exercı́cio; algumas são
imediatas aplicações de definições e outras já foram demonstradas ao longo do texto.

86
(i) O valor esperado condicional é uma operação linear no sentido que

E [(c1 X1 + c2 X2 ) |F] = c1 E(X1 |F) + c2 E(X2 |F) (3.20)

(ii) O valor esperado da variável E (X|F) é o valor esperado incondicional de X

E (X) = E [E (X|F)] (3.21)

(iii) Se X e F são independentes

E (X|F) = E (X) (3.22)

(iv) Se a σ-álgebra gerada pela variável aleatória X está contida em F então esta última
contém toda a informação sobre e X e os valores assumidos por X não possuem
informação adicional sobre esta variável. Toda a incerteza existente acerca de X
foi revelada por F e portanto X é uma variável determinı́stica.

E (X|F) = X (3.23)

(v) Se F e G são σ-álgebras tais que F ⊂ G, então

E (X|F) = E [E (X|G) |F] (3.24)

E (X|F) = E [E (X|F) |G] (3.25)

Os exemplos que se seguem são importantes aplicações das regras acima. Entenda-os
claramente pois teremos aplicações semelhantes corriqueiramente.

Exemplo 3.4. Suponha que St seja um processo estocástico que descreve o preço de um
ativo em cada instante t ∈ [0, T ]. Como se relacionam as informações geradas por St
para cada instante tk , k ∈ N?

Solução: Vamos denominar de F tk o conjunto de informaçãoes relativas até o instante


tk . À medida que transcorre o tempo, a evolução do preço do ativo St gera as informações
inerentes à sua realização. Assim para tk+1 as informações são mais abrangentes e
contêm aquelas relativas ao instante tk , ou seja, F tk ⊂ F tk+1 . Então para t0 , t1 , . . . , tk . . .
podemos escrever
Ft0 ⊆ Ft1 . . . ⊆ Ftk ⊆ Ftk+1 ⊆ . . .

Exemplo 3.5. Seja B o processo Browniano padrão tal qual definido na seção 3.1.
Considere uma estrutura de informação crescente como no exemplo 3.4. Denomine cada
estrutura de informação pela σ-álgebra Fs = σ (Bx , x ≤ s). A notação usada significa
dizer que a σ-álgebra foi gerada pelo Browniano até o instante s. Avalie a esperança
condicional E (Bt |Fs ).

87
Solução: Note que o instante t pode ser tal que s ≥ t ou s < t. Então vamos avaliar
a esperança condicional sob estas duas considerações:

(i) Considere s ≥ t e neste caso Fs ⊇ Ft . Ou seja a informação suportada pela


σ-álgebra é mais abrangente que as informações geradas pelo Browniano até t e
portanto conhecemos tudo sobre o processo estocástico. Neste caso trata-se de uma
variável determinı́stica. A equação (3.23) aplica-se a esta situação, então

E (Bt |Fs ) = Bt

(ii) Considere s < t. Agora vamos usar um artifı́cio de somar e diminuir Bs :

E (Bt |Fs ) = E {[(Bt − Bs ) + Bs ] |Fs }

Usando o fato de que o valor esperado condicional é linear, veja a equação (3.62),
podemos escrever:

E (Bt |Fs ) = E [(Bt − Bs ) |Fs ] + E (Bs |Fs )

Vamos analisar cada parcela do segundo membro separadamente. Na primeira


parcela temos que o incremento do Browniano Bt − Bs é independente das in-
formações geradas por Bs , ou ainda, pelas informações contidas na σ-álgbra Fs .
Assim a regra contida na equação (3.22) se aplica, isto é

E [(Bt − Bs ) |Fs ] = E (Bt − Bs ) = 0

A segunda parcela recae novamente no caso da equação (3.23) onde toda a in-
formação gerada pelo processo está contida na σ-álgebra, ou seja, σ (Bs ) ⊂ Fs ,
portanto:
E (Bs |Fs ) = Bs

Juntando o que apuramos nos itens (i) e (ii) concluimos que o valor esperado condicional
do Browniano dependerá de t e s, prevalecendo o que for menor:

E (Bt |Fs ) = Bmin(t,s)

Exemplo 3.6. Considere o processo estocástico aritmético Browniano Xt = µt + σBt


onde µ ∈ R, X0 = x = 0 e σ > 0. Avalie a esperança condicional E (Xt |Fs ).

Solução: Usando a propriedade de linearidade do valor esperado condicional, temos:

E (Xt |Fs ) = E [(µt + σBt ) |Fs ]


= µt + σE (Bt |Fs )
usando o resultado do exemplo anterior
= µt + σBmin(s,t)

88
Seguem duas definições úteis para o entendimento da próxima seção bem como para
ajudar a compreensão dos exemplos seguintes.

Definição 3.9. (Filtração) Uma coleção de σ-álgebras Ft em Ω é denominada uma


filtração se, para todo 0 ≤ s ≤ t, temos Fs ⊂ Ft . Isto significa que em uma filtração
cada σ-álgebra subsequente abrange a anterior em termos do conteúdo de informação.

Seja F uma σ-álgebra. Então qualquer conjunto de F é dito mensurável. Uma função
X (ω) em Ω é dita F-mensurável se todos os conjuntos {X (ωi ) = xi } , i = 1, . . . , k são
membros de F. Em outras palavras, a informação contida em F é suficiente para
descrever (ou para determinar) X.

Definição 3.10. (Processo adaptado) Dizemos que um processo estocástico Zt é


adaptado à filtração Ft se a σ-álgebra gerada por Z está contida em F, ou seja, σ (Zt ) ⊂
Ft . Todo processo estocástico Zt é sempre adaptado à sua filtração natural, ou seja,
Ft = σ (Zs ) para s ≤ t. Um procsso estocástico Z é adaptado se, para todo t, Zt é
Ft -mensurável.

Exemplo 3.7. Seja X um processo estocástico definido por Xt = σBt . Seja Zt = Xt2
calcule o valor esperado condicional de Zt considerando a filtração Ft = σ (Bs , s ≤ t),
isto é, avalie E (Zt |Fs ).

Solução: A informação gerada pelo processo Z está diretamente relacionada ao do


processo X que por sua vez está atrelada ao Browniano Bt . A filtração natural de
Z é digamos Gt = σ (Zs , s ≤ t). O problema pede que calculemos o valor esperado
condicional à filtração natural do Browniano. Podemos notar que para cada instante
de tempo t temos que Gt ⊂ Ft . De fato, com as informações de Zt conseguimos saber
Bt2 ou ainda |Bt |. Isto significa que não recuperamos a informação de Bt , ou seja Ft é
mais abrangente pois temos as informações geradas pelo processo Bt . Assim a filtração
natural de Bt contém aquela de Zt . Dito isto, vamos aos cálculos com esta filtração
mais abrangente.

E (Zt |Fs ) = E Xt2 |Fs




= E σ 2 Bt2 |Fs


= σ 2 E Bt2 |Fs


somando e subtraindo Bs , temos


= σ 2 E [(Bt − Bs ) + Bs ]2 |Fs


= σ 2 E (Bt − Bs )2 + Bs2 + 2Bs (Bt − Bs ) |Fs


 

aplicando a linearidade equação (3.62)


= σ 2 E (Bt − Bs)2 |Fs + σ 2 E Bs2 |Fs + 2σ 2 E {[Bs (Bt − Bs )] |Fs }
  

analisando cada termo separadamente

(i) O primeiro termo é σ 2 E (Bt − Bs )2 |Fs . O termo (Bt − Bs )2 é independente de


 

Fs , logo temos

σ 2 E (Bt − Bs )2 |Fs = σ 2 E (Bt − Bs )2 = σ 2 (t − s)


   

89
(ii) O segundo termo é imediato

σ 2 E Bs2 |Fs = σ 2 Bs2




(iii) O terceiro termo envolve Bs que é adaptado à filtração natural Fs , logo temos

2σ 2 E {[Bs (Bt − Bs )] |Fs } = 2σ 2 Bs E [(Bt − Bs ) |Fs ]


Bt − Bs é independente de Fs
= 2σ 2 Bs E (Bt − Bs )
=0

Em resumo temos que


E (Zt |Fs ) = σ 2 (t − s) + σ 2 Bs2

Exercı́cio 3.3. Considere o processo estocástico Xt = Bt2 − t, avalie o valor esperado
condicional E (Xt |Fs ) onde Ft = σ (Bs , s ≤ t). (Sugestão: considere as mesmas etapas
do exemplo 3.5 justificando cada operação realizada).

3.3 Processos martingais


Na subseção 2.5.2 apresentamos o modelo para série de retornos em finanças sob a ótica
da propriedade martingal. Na oportunidade a propriedade martingal foi utilizada como
um dos possı́veis modelos para descrever a série de retornos. Nesta seção iremos apro-
fundar os conceitos de que necessitamos para tratarmos desta importante propriedade
para o apreçamento de contratos de derivativos em finanças.

Historicamente o conceito de apreçamento de derivativos iniciou-se pelo que chamare-


mos de metodologia clássica com os artigos seminais de Black e Scholes (1973) e Merton
(1973). Posteriormente ganhou uma direção diferente e nesta direção a propriedade
martingal tem um papel fundamental. Teremos a oportunidade de nos aprofundarmos
nos detalhes de ambas metodologias e os capı́tulos 4 e 5 são dedicados a estes temas.

O valor esperado condicional relativo a uma filtração (ou conjunto de informações)


pode alterar se mudarmos a filtração. Imagine que estejamos calculando a previsão de
X segundo um conjunto de informações G, isto é E (X|G). Se X e G não são relaciona-
dos a previsão de X será cercada de incerteza. Melhor se tivéssemos um conjunto de
informações F que estivesse relacionada aos valores passados de X. O conjunto de in-
formações que conta sobre o passado de X certamente ajudará a prever melhor o futuro
de X, reduzindo a incerteza na previsão.

Como foi dito anteriormente a propriedade martingal está relacionada ao jogo justo.
Por outro lado sabemos que o valor esperado está relacionado à previsão de realizações
futuras da variável aleatória ou do processo estocástico. O valor esperado, condicional às
informações existentes fornece o valor da previsão sujeita a tais informações. Quando a
melhor previsão que podemos fazer de uma variável, acerca de seu valor futuro, é o valor

90
atual desta variável dizemos que se trata de um processo martingal. Ou tecnicamente
E (Xt |Fs ) = Xs para s < t.

Definição 3.11. (Processo martingal) Um processo estocástico Y = (Yt , t ≥ 0) é


denominado martingal com respeito à filtração (Ft , t ≥ 0) se:

(i) E (|Yt |) < ∞ para t ≥ 0

(ii) Y é adaptado a Ft

(iii) E (Yt |Fs ) = Ys para 0 ≤ s < t.

Exemplos e exercı́cios para a verificação da propriedade martingal são necessários


para a fixação deste conceito.

Exemplo 3.8. Verifique se o processo Browniano Bt é martingal em relação à filtração


natural Fs = σ (Bx , x ≤ s).

Solução: No exemplo 3.5 calculamos o valor esperado condicional em relação à fil-


tração natural do Browniano. Para o caso em que s < t encontramos E (Bt |Fs ) = Bs .
As demais condições da definição acima são satisfeitas e portanto o Browniano é mar-
tingal em relação a sua filtração natural.

Exemplo 3.9. Verifique se o processo Bt2 é martingal em relação à filtração Ft =


σ (Bs , s ≤ t).

Solução: Estamos diante de uma situação análoga a do exemplo 3.7. A diferença é


que não temos o parâmetro σ associado ao processo. Para o caso em s < t chegaremos
ao resultado E (Bt2 |Fs ) = t − s + Bs2 . Claramente o processo não é martingal pois a
condição (iii) da definição acima não foi atendida.

Definição 3.12. (Processo submartingal e supermartingal) Seja (Ω, F, P ) um espço de


probabilidade, Ft uma filtração e Mt um processo estocástico adaptado e 0 ≤ t ≤ T :

(i) Se E (Mt |Fs ) ≥ Ms para 0 ≤ s ≤ t, diz-se que o processo é submartingal;

(ii) Se E (Mt |Fs ) ≤ Ms para 0 ≤ s ≤ t, diz-se que o processo é supermartingal.

Considere que Y é martingal como definido acima. Considere a previsão das variações
de Y em um intervalo de tempo ∆t > 0. Podemos escrever E (Yt+∆t − Yt |Ft ) =
E (Yt+∆t |Ft ) − E (Yt |Ft ). Sabemos que E (Yt |Ft ) = Yt . Como Y é martingal temos
E (Yt+∆t |Ft ) = Yt , logo E (Yt+∆t − Yt |Ft ) = 0. Isto significa que a melhor previsão
para as variações de Y é zero. Ou seja, que as direções de futuros movimentos são

91
impossı́veis de prever. Em outras palavras, se as trajetórias de determinado processo
exibem tendências, o processo não é martingal. Isto significa dizer que o valor esperado
de um processo martingal é constante. Outra forma para este resultado pode assim ser
escrita E (Ys ) = E [E (Yt |Fs )] = E (Yt ). Vimos no exemplo 3.9 que o processo Bt2 exibe
uma tendência. Para retirarmos a tendência do processo Bt2 basta subtrairmos o termo
t e o novo processo Zt = Bt2 − t é um processo martingal. Portanto para s < t o valor
esperado será
E (Zt |Fs ) = E Bt2 − t|Fs = Bs2 − s = Zs


E assim tem-se o processo martingal. Portanto temos uma regra prática adicional. Se
verificarmos que o processo não é martingal (seu valor esperado condicional não é cons-
tante e exibe uma tendência), para torná-lo martingal, basta retirarmos esta tendência.

Um processo martingal é sempre definido com relação a um conjunto de informações


(σ-álgebra) e com relação a uma distribuição de probabilidade (ou medida de probabili-
dade). Se alterarmos o conjunto de informações e/ou a distribuição de probabilidade, o
processo que é martingal sob a condição anterior pode deixar de sê-lo sob a(s) nova(s)
condição(ões). Da mesma forma, se um processo não é martingal, pode-se mudar a
distribuição de probabilidade para que o seja. Voltaremos a este assunto com maiores
detalhes e veremos que no apreçamento de derivativos é sempre conveniente obtermos
processos que sejam martingais. Isto porque calcular o valor esperado condicional de um
processo martingal é imediato e consequentemente o apreçamento torna-se uma tarefa
mais fácil.
Exercı́cio 3.4. Seja o processo aritmético Browniano St = µt + σBt onde µ ∈ R e
σ > 0. Verifique que St não é martingal em relação a filtração Fs = σ (Bx , x ≤ s) para
s < t. Obtenha um processo martingal a partir de St .
Exercı́cio 3.5. Verifique se são martingais os seguintes processos para t e s ∈ [0, T ] e s <
t, em relação a filtração Ft = σ (Bs , s ≤ t):
(i) Zt = 2Bt + t

(ii) Zt = Bt3 − 3tBt

(iii) Zt = Bt4

(iv) Zt = exp −αBt − 12 α2 t , α 6= 0




3.4 Integração estocástica


No inı́cio deste capı́tulo vimos na seção 3.1.1 que o processo Browniano não é difer-
enciável em nenhum ponto de sua trajetória. Isto porque as trajetórias não são suficien-
temente suaves para que as derivadas a esquerda e a direita em determinado ponto sejam
iguais. Também vimos que o processo Browniano é de variação não limitada. Estas duas
razões fazem com os métodos clássicos de integração não sejam aplicáveis às trajetórias
do processoR t Browniano. Mais especificamente, estamos interessados em avaliar integrais
da forma 0 f (u) dBu (ω), onde (Bt (ω) , t ≥ 0) é uma trajetória do movimento Browni-
ano e f uma função determinı́stica ou uma trajetória de um processo estocástico. Para

92
lidar com tais questões teremos que desenvolver o conceito da integral estocástica de
Itô. Sob a ótica da existência desta integral, faz sentido o conceito de diferenciação.
Mencionamos anteriormente alguns processos estocásticos escritos sob a forma diferen-
cial. Naquela oportunidade evitamos entrar nos detalhes do sentido da diferenciação que
usamos. Ao final desta e da próxima seção os conceitos de diferenciação e integração
em ambiente estocástico estarão compreendidos pelo leitor. Também deverá estar bem
clara a regra de diferenciação, em ambiente estocástico, que é conhecida como fórmula
(lema) de Itô. Antes de chegar neste ponto vamos rever rapidamente os conceitos da
integração clássica nas primeiras subseções.

A maior parte dos conceitos aqui apresentados deve-se a Kyosi Itô (1915-2008). Ele
foi um dos pioneiros no campo da teoria da probabilidade e devido as suas contribuições
originou-se um ramo da matemática denominado de cálculo estocástico ou cálculo de
Itô. As aplicações do cálculo de Itô abrangem vários campos como fı́sica, engenharia
(controle estocástico), biologia (genética populacional) e economia (finanças). De acordo
com a citação da National Academy of Sciences a famosa fórmula (lema) de Itô está
para a análise estocástica assim como os teoremas fundamentais de Newton estão para
a análise clássica. Veja maiores detalhes sobre o trabalho de Itô em uma nota da Amer-
ican Mathematical Society no site

http://www.ams.org/notices/200706/tx070600744p.pdf

Recomendamos também aos leitores interessados o artigo de Jarrow e Protter (2004)


[58] que apresenta uma breve história da integração estocástica e sua aplicação em fi-
nanças.

3.4.1 Integral de Reimann


Considere f uma função real definida em um intervalo [a, b]. Considere uma partição
deste intervalo
τn : a = t0 < t1 < . . . tn−1 < tn = b

Vamos definir ∆ti = ti − ti−1 , i = 1, . . . , n. Uma sub-partição δn é definida por valores


de yi tais que ti−1 ≤ yi ≤ ti para i = 1, . . . , n. Para as partições δn e τn definimos a
soma de Riemann como

n
X n
X
Sn = Sn (τn , δn ) = f (yi ) (ti − ti−1 ) = f (yi ) ∆ti (3.26)
i=1 i=1

n
X
Definição 3.13. (Integral de Reimann) Se o limite S = lim Sn = lim f (yi ) ∆ti
n→∞ n→∞
i=1
existe e S é independente das partições utilizadas, então
R b S é definida como a integral de
Riemann de f no intervalo [a, b]. Escrevemos S = a f (t)dt.

93
3.4.2 Integral de Reimann-Stieltjes
Agora estamos interessados em integrar R Tuma função em relação à outra. Ou seja, bus-
camos a interpretação para a integral 0 f (t) dg (t). Considere uma partição tal que

τn : 0 = t0 < t1 < . . . tn−1 < tn = T

Considere também uma sub-partição δn tal que

δn : ti−1 ≤ yi ≤ ti i = 1, . . . , n

Sejam f e g duas funções reais definidas em [0, T ] e considere

∆g (ti ) = g (ti ) − g (ti−1 ) i = 1, . . . n

A soma de Riemann-Stieltjes é dada por


n
X n
X
Sn = Sn (τn , δn ) = f (yi ) ∆g (ti ) = f (yi ) [g (ti ) − g (ti−1 )] (3.27)
i=1 i=1

Definição 3.14. (Integral de Reimann-Stieltjes) Se o limite


n
X
S = lim Sn = lim f (yi ) ∆g (ti )
n→∞ n→∞
i=1

existe e S é independente das partições utilizadas,


R T então S é definida como integral de
Riemann-Stieltjes em [0, T ]. Escrevemos S = 0 f (t) dg (t).

RT
Podemos considerar também o caso da integral 0 g (xt ) dFX (xt ). Se X é uma
variável aleatória e FX (xt ) a sua função distribuição, então uma integral deste tipo é o
valor esperado de g (x) para um t fixo:
Z ∞
E [g (xt )] = g (xt ) dFX (xt )
−∞

A questão que surge é saber quando é que existe a integral de Riemann-Stieltjes. Além
disso, a função g pode ser substituı́da pelo movimento Browniano? Na seção 3.1.1 con-
sideramos o conceito de função com variação limitada. Porém nos restringimos ao caso
do Browniano examinando a situação em que a ordem era p = 1. Agora ampliaremos
este conceito.

Definição 3.15. (Variação limitada de ordem p) Uma função h definida em [0, 1]


tem variação limitada de ordem p > 0, se
n
X
sup |h (ti ) − h (ti−1 ) |p < ∞
τ
i=1

onde o supremo é avaliado sobre todas as partições τ em [0, 1].

94
As condições para a existência da integral de Riemann-Stieltjes são: (i) as funções f
e g não devem ter descontinuidades no mesmo ponto t ∈ [0, T ], (ii) a função f deve ter
variação limitada de ordem p > 0 e a função g de ordem q > 0,R tal que p−1 + q −1 > 1.
T
Com estas consideraçãoes podemos dizer que a integral I = 0 Bt (ω) dBt (ω) existe
sob o conceito de Riemann-Stieltjes? O movimento Browniano somente tem variação
limitada para p > 2, então p2 não será maior que 1. Logo, sob o conceito de Riemann-
Stieltjes a integral acima não existe.

3.4.3 Integral de Itô


A questão de avaliar a integral I, definida acima, ainda não está definitivamente clara.
Em outras palavras, sob que condições podemos definir uma integral de tal natureza?
Vamos voltar um pouco e retomar o movimento Browniano com drift. Considere o
processo estocástico aritmético Browniano Xt = µt + σBt , para t ≥ 0, σ > 0 e µ ∈ R.
Vamos considerar o processo escrito sob a forma diferencial. Além disto, se tomarmos
uma partição τn
τn : 0 = t0 < t1 < . . . < tn−1 < tn = T
e avaliarmos St para cada ti e em seguida tomarmos a diferença, teremos

Xti − Xti−1 = µ∆ti + σ∆Bti

onde ∆ti = ti − ti−1 e ∆Bti = Bti − Bti−1 para i = 1, . . . , n. Esta equação para intervalos
infinitesimais de tempo torna-se

dXt = µdt + σdBt (3.28)

que é a equação diferencial estocástica (EDE) vista anteriormente.

Agora vamos considerar a equação (3.28) de forma mais geral. Vamos admitir que os
parâmetros µ e σ sejam funções do tempo e da variável aleatória Xt . Assim escrevemos

dXt = µ (St , t) dt + σ (St , t) dBt (3.29)

A equação (3.29) escrita sob a forma discreta é


 
Xti − Xti−1 = µ Xti−1 , ti ∆ti + σ Xti−1 , ti ∆Bti i = 1, . . . n

Se somarmos os incrementos ∆Sti , teremos


n
X n
X n
X
 
Xti − Xti−1 = µ Xti−1 , ti ∆ti + σ Xti−1 , ti ∆Bti
i=1 i=1 i=1

Vamos definir a integral de Xt ao longo de toda a trajetória como sendo o limite quando
n → ∞. Assim temos
Z T ( n n
)
X  X 
dXu = lim µ Xti−1 , ti ∆ti + σ Xti−1 , ti ∆Bti (3.30)
0 n→∞
i=1 i=1

95
Cada somatório do lado direito de (3.30) é uma integral. Observe que a primeira integral
não envolve nenhum termo estocástico quando temos uma informação em ti . Além disso,
a integral (ou somatório) é tomado em relação às variações ∆ti , que é determinı́stico. Isto
significa que a primeira integral é definida no sentido de Riemann-Stieltjes. A segunda
integral envolve termos que são estocásticos em ti−1 . Ou seja, dada as informações em
ti−1 , o termo ∆Bti = Bti − Bti−1 não é conhecido, e é uma variável aleatória. Como
a segunda soma envolve uma variável aleatória, o resultado dever ser uma variável
aleatória e o conceito da soma de Riemann-Stieltjes não se aplica. Deparamo-nos com
a questão de definir qual o significado da soma
n
X 
σ Xti−1 , ti ∆Bti (3.31)
i=1

Na seção 1.6 vimos a definição de convergência de ordem p. Agora vamos reapresentá-la


para o caso em que p = 2. Já definimos também a variação quadrática (veja seção 3.1.2)
e a variação quadrática do Browniano (veja o teorema 3.1).

Definição 3.16. (Convergência média quadrática) Seja X = (Xt , t ≥ 0) uma


variável aleatória. Então Xt converge para X no sentido médio quadrático se

lim E (Xt − X)2 = 0


 
t→∞

Isto significa que quando t → ∞ a variância do erro t (t = Xt − X) tende a zero.


A soma em (3.31) é uma variável aleatória que possui convergência média quadrática.
O valor para o qual esta soma converge é definida como a integral de Itô. Em termos
da definição acima podemos escrever:
 " #2 
 Xn Z t 

lim E σ Xti−1 , ti ∆Bti − σ (Xu , u) dBu =0
n→∞  0 
i=1

Definição 3.17. (Integral de Itô) Considere o processo Browniano B = (Bt , t ≥ 0)


e a correspondente filtração natural Ft = σ (Bt , t ≥ 0). Considere σ = (σt , t ∈ [0, T ])
um processo estocástico atendendo as seguintes condições:
(i) σt é uma função de Bs , s ≤ t;
R 
T
(ii) O processo σt não é explosivo, ou seja E 0
[σ (Bu )]2 du < ∞.

Todos os processos considerados estão definidos no mesmo espaço de probabilidade (Ω, F, P ),


onde P é a medida de probabilidade em relação à σ-álgebra F.
RT
A integral de Itô σ (Bu , u) dBu é o limite médio quadrático quando n → ∞
0
 " #2 
 n
X Z T 

lim E σ Bti−1 , ti ∆Bti − σ (Bu , u) dBu =0
n→∞  0 
i=1

96
A condição (i) é fundamental para a integral de Itô. Ela significa que a função
que
R T está sendo integrada deve ser não antecipativa. Se estamos considerando a integral
0
σu (Bu , u) dBu , então podemos escolher a partição

τn : 0 = t0 < t1 . . . < tn−1 < tn = T



A função σ (·), no integrando, é adaptada a Fti−1 , ou seja σ é função do movimento

Browniano até o tempo ti−1 . Caso contrário, os termos σti e ∆Bti = Bti − Bti−1 pode-
riam ser correlacionados inviabilizando a existência da convergência média quadrática.

Pode-se demonstrar a existência da integral de Itô sob estas condições. Em geral, não
é possı́vel calcular o valor limite da soma média quadrática. Um caso simples, que no
entanto é algebricamente oneroso, é a integral
Z T
Bu (ω) dBu (ω)
0

cujo resultado é
Z T
1 2 
Bs (ω) dBs (ω) = BT (ω) − T (3.32)
0 2
Se tivéssemos usado o cálculo clássico usando o limite da soma de Riemann encon-
trarı́amos 12 Bt2 (ω). Este exemplo mostra o quanto diferem os resultados de uma inte-
gração em ambiente estocástico e convencional. Não se preocupe se ainda não está claro
como resolver a integral acima. Aprenderemos um pouco mais adiante como chegar ao
resultado da equação (3.32).
2
Pode-se também demonstrar que o termo (∆Bti )2 = Bti − Bti−1 converge no sen-
tido médio quadrático para T . Formalmente escrevemos
 " #2 
 Xn−1 Z T 
2 2
lim E (∆Bti ) − (dBu ) =0
n→∞  0 
i=0

e o valor da integral estocástica de Itô é


Z T
(dBu )2 = T (3.33)
0

Este resultado é coerente com o conceito visto anteriormente de que (dBt )2 = dt, ou
seja
Z T Z T
2
(dBu ) = du = T (3.34)
0 0

Definição 3.18. (Processo de Itô univariado) Considere Bt um processo Browniano


e Ft = σ (Bx , x ≤ t), para t ≥ 0. O processo de Itô é definido por
Z t Z t
Xt = x + µ (Xu , u) du + σ (Xu , u) dBu (3.35)
0 0

97
onde X0 = x representa o valor inicial do processo e os processos µ (Xt , t) e σ (Xt , t)
são adaptados à filtração natural de Bt , ou seja, à Ft . Ainda mais as funções µ (·) e
σ (·) devem atender as condições
Z t Z t
µ (Xu , u) ds < ∞ q.c. e |σ (Xu , u) |du < ∞ q.c.
0 0

onde as iniciais q.c. referem-se ao termo quase certamente.

A primeira integral do segundo membro é uma integral de Reimann-Stiltjes e a


segunda é uma integral estocástica de Itô. Na forma diferencial o processo de Itô é
assim escrito
dXt = µ (Xt , t) dt + σ (Xt , t) dBt (3.36)

para o caso especial em que µ (Xt , t) = µXt e σ (Xt , t) = σXt temos o processo
geométrico Browniano definido anteriormente na equação (3.17). O termo σ (·) é de-
nominado difusão do processo.

Considere f e g duas funções que atendam as condições estabelecidas na definição da


integral de Itô. Admita que 0 ≤ s < t < T . Então são válidas as seguintes propriedades
para a integral de Itô:
RT Rt RT
(i) s
f dBu = s
f dBu + t
f dBu
RT RT RT
(ii) s
(cf + g) dBu = c s
f dBu + s
gdBu
hR i
T
(iii) E s
f dBu = 0

 2  hR i
RT T 2
(iv) Isometria de Itô: E s
f dBu =E s
f du

Ainda mais relevante é o fato de que a integral de Itô é martingal em relação à filtração
natural do movimento Browniano Ft , t ∈ [0, T ], ou seja,
Z t  Z s
E σ (Su , u) dBu |Fs = σ (Su , u) dBu
0 0

Em geral a avaliação de integrais estocásticas usando o conceito de convergência média


quadrática é muito onerosa em termos dos cálculos algébricos envolvidos. Geralmente
avaliamos as integrais estocásticas a partir do uso da fórmula (lema) de Itô. Por esta
razão deixaremos os exercı́cios e exemplos para a próxima seção.

Agora entendemos o sentido da integral estocástica. Com isto aprenderemos, na


próxima seção, o conceito de diferenciação de um processo estocástico. Após, estare-
mos aptos a resolver as principais equações diferenciais estocásticas que rotineiramente
modelam os processos em finanças.

98
3.5 Fórmula de Itô
A seção anterior apresentou em que sentido é válido o conceito de integração quando
lidamos com variáveis estocásticas. Nesta seção apresentaremos o conceito da fórmula
(lema) de Itô que por sua vez está relacionado ao conceito de convergência média
quadrática. Da mesma forma que no caso de integração, o conceito de convergência
média quadrática provocará uma modificação da regra de diferenciação que conhecemos
do cálculo clássico. A fórmula (lema) de Itô permite que possamos trabalhar difer-
enciando variáveis em um ambiente estocástico. Se sabemos que St é um processo
estocástico pode-se escrever uma função F (St ). A fórmula (lema) de Itô permitirá
que calculemos o diferencial dF (St ), medindo o que acontece com F quando ocorrem
pequenas variações na variável St .
Exercı́cio 3.6. Considere um tı́tulo que pague $1 em sua maturação T . O valor deste
tı́tulo em t ∈ [0, T ] é f (Rt , t) = e−Rt (T −t) . Calcule o diferencial total d [f (Rt , t)], con-
siderando as variáveis determinı́sticas.
Antes da definição da fórmula (lema) de Itô vamos rever o desenvolvimento de uma
função f (x) em série de Taylor em torno de x0 . Considere que f seja uma função com
derivadas até ordem n + 1 tal que:
1
f (x) = f (x0 ) + f 0 (x0 ) (x − x0 ) + f 00 (x0 ) (x − x0 )2 + R (∆x)
2
onde R (∆x) refere-se aos termos subsequentes e ∆x = x − x0 . Ou ainda podemos
escrever
1
f (x) − f (x0 ) = ∆f = f 0 (x0 ) ∆x + f 00 (x0 ) (∆x)2 + R (∆x)
2
Tomando ∆x como pequenos incrementos de x, temos
df = f 0 (x) dx
onde todos o termos de ordem igual ou superior a dois são muito pequenos e desprezı́veis.
Este é o conceito de diferencial de f no cálculo clássico para a função de uma variável.
Para duas variáveis terı́amos a expansão em série de Taylor em torno do ponto (x0 , y0 ):
∂f ∂f 1 ∂ 2f
f (x, y) = f (x0 , y0 ) + (∆x) + (∆y) + (∆x)2 +
∂x ∂y 2 ∂x2
1 ∂ 2f 2 ∂ 2f
(∆y) + (∆x) (∆y) + R (∆x, ∆y)
2 ∂y 2 ∂x∂y
onde as derivadas parciais são calculadas no ponto (x0 , y0 ). Podemos ainda escrever
1
f (x, y) − f (x0 , y0 ) = ∆f = fx ∆x + fy ∆y + fxx (∆x)2 +
2
1
fyy (∆y)2 + fxy (∆x) (∆y) + R (∆x, ∆y)
2
Tomando pequenos incrementos de ∆x e ∆y e desprezando o termos de ordem superior
a dois, temos
∂f ∂f
df = dx + dy = fx dx + fy dy
∂x ∂y

99
Este é o conceito de diferencial total para uma função de duas variáveis no cálculo
clássico.

Vamos verificar o que acontece quando lidamos com variáveis estocásticas. Seja a
equação diferencial estocástica (3.29) aqui reescrita
dXt = µ (Xt , t) dt + σ (Xt , t) dBt (3.37)
Na forma discreta temos
 
∆Xti = Xti − Xti−1 = µ Xti−1 , ti ∆ti + σ Xti−1 , ti ∆Bti (3.38)
onde os termos do lado direito já foram definidos. Isto significa que em ti−1 a variável
Xti−1 é conhecida.

Agora considere a função f (Xt , t) e admita que f (·) seja uma função contı́nua e difer-
enciável duas vezes em relação a x e uma vez em relação a t. Desejamos calcular
d (f (Xti , ti )) em torno do ponto Xti−1 , ti−1 usando a expansão de Taylor:
 ∂f ∂f
∆fti = f (Xti , ti ) − f Xti−1 , ti−1 = ∆Xti + ∆ti +
∂x ∂t
1 ∂ 2f 2 1 ∂ 2f 2 ∂ 2f
(∆X ti
) + (∆ti ) + (∆Xti ) (∆ti ) + R (∆Xti , ∆ti ) (3.39)
2 ∂x2 2 ∂t2 ∂x∂t
Os termos de segunda ordem que não envolvem variáveis estocásticas são desprezados
conforme a mesma consideração do cálculo clássico. Assim (∆ti )2 → 0. Vamos examinar
o termo de segunda ordem (∆Xti )2 . A partir da equação (3.38) e simplificando a notação,
temos:
(∆Xti )2 = (µti ∆ti + σti ∆Bti )2 =
(µti )2 (∆ti )2 + (σti )2 (∆Bti )2 + 2µti σti ∆ti ∆Bti
O primeiro termo do lado direito é desprezı́vel. O segundo termo (∆Bti )2 tende a ∆ti no
sentido da convergência média quadrática, conforme os argumentos desenvolvidos entre
as equações (3.32) e (3.34). O último termo é da ordem (∆ti )3/2 e também tende a zero.

O termo cruzado de segunda ordem em (3.39) (∆Xti ) (∆ti ), é dado por


(∆Xti ) (∆ti ) = (∆ti ) [µti ∆ti + σti ∆Bti ]
sob os mesmos argumentos anteriores, temos que (∆Xti ) (∆ti ) → 0. Os termos do resto
R (∆Xti , ∆ti ) envolvem ordem igual o superior a três e são desprezı́veis. Então resta
de (3.39) que
∂f ∂f 1 ∂ 2f
∆fti = ∆Xti + ∆ti + 2
(σti )2 ∆ti
∂x ∂t 2 ∂x
2
 
∂f 1 ∂ f ∂f
∆fti = + σt2i 2 ∆ti + ∆Xti
∂t 2 ∂x ∂x
Tomando incrementos infinitesimais, temos
1 2 ∂ 2f
 
∂f ∂f
df = + σt 2 dt + dX
∂t 2 ∂x ∂x

100
Usando dXt de (3.37)
1 2 ∂ 2f
 
∂f ∂f ∂f
df = + µt + σ dt + σt dBt (3.40)
∂t ∂x 2 t ∂x2 ∂x
onde µt = µ (Xt , t) e σt = σ (Xt , t). A equação (3.40) é a fórmula (lema) de Itô que
fornece o diferencial total de uma função que tem como argumentos Xt e t. O processo
Xt cujo processo está descrito na equação (3.37).
Teorema 3.2. (Fórmula de Itô) Considere Xt um processo estocástico em 0 ≤ t ≤ T
dXt = µ (Xt , t) dt + σ (Xt , t) dBt (3.41)
Seja f (x) uma função contı́nua e duas vezes diferenciável, então o diferencial de f é
dado por
1
d [f (Xt )] = f 0 (Xt ) dXt + f 00 (Xt ) d [X, X] (t) (3.42)
2
ou ainda, introduzindo dXt e calculando a variação quadrática de X, temos
 
1 00
d [f (Xt )] = f (Xt ) µ (Xt , t) + f (Xt ) σ (Xt , t) dt + f 0 (Xt ) σ (Xt , t) dBt (3.43)
0 2
2
Exemplo 3.10. Considere f (Bt ) = Bt2 . Calcule o diferencial d(f ).

Solução: Vamos inicialmente designar x = Bt . Temos então que f (x) = x2 . Assim


∂2f
as derivadas parciais de f são ∂f
∂x
= 2x e ∂x2
= 2, logo temos:
∂f 1 ∂ 2f
df = dx + 2
(dx)2
∂x 2 ∂x
ou ainda
1
df = 2Bt dBt + 2 (dBt )2
2
= 2Bt dBt + dt
d Bt2 = 2Bt dBt + dt



Teorema 3.3. (Fórmula de Itô para duas variáveis) Seja f (x, y, t) uma função
contı́nua e derivável duas vezes com relação a x e y (com a primeira e segunda derivadas
contı́nuas) e uma vez em relação a t (com derivada contı́nua). Sejam X e Y processos
de Itô conforme (3.36) com difusões σX e σY , então
∂f ∂f ∂f 1 ∂ 2f 2 1 ∂ 2f 2
d [f (X, Y, t)] = dt + dXt + dYt + σ (X t , t) dt + σ (Yt , t) dt
∂t ∂x ∂y 2 ∂x2 X 2 ∂y 2 Y
∂ 2f
+ σX (Xt , t) σY (Yt , t) dt
∂x∂y
(3.44)
onde dBXt dBYt = ρXY dt.
Comentamos anteriormente que usarı́amos a fórmula (lema) de Itô para calcular
integrais estocásticas. Agora vamos fazê-lo.
RT
Exemplo 3.11. Calcule a integral 0 Bu dBu .

101
Solução: Sabemos do exemplo 3.10 que

d Bt2 = 2Bt dBt + dt




integrando de 0 a T ambos os membros da equação temos


Z T Z T Z T
2
dBu = 2 Bu dBu + du
0 0 0

O segundo membro contém a integral desejada. Resolvendo a equação para esta integral
ficamos com
Z T
1 T
Z
T
Bu dBu = dBu2 −
0 2 0 2
1  T
= BT2 − B02 −
2 2
2
B −T
= T
2
Este resultado já havia sido mostrado na equação (3.32). Naquela oportunidade ainda
não sabı́amos com encontrá-lo. Agora mostramos os detalhes com o auxı́lio da fórmula
(lema) de Itô.

Exercı́cio 3.7. Calcule as seguintes integrais:


RT
(i) 0 Bu2 dBu
RT
(ii) 0 udBu
Exercı́cio 3.8. Calcule o diferencial das seguintes funções:

(i) f (Bt ) = exp (Bt2 )

(ii) f (Bt , t) = exp σBt − 21 σ 2 t




Exercı́cio 3.9. Considere o movimento geométrico Browniano


  
1 2
St = s exp µ − σ t + σBt
2
onde, S0 = s. Calcule dSt .
Exercı́cio 3.10. Retome o enunciado do exercı́cio 3.6. Considere f (Rt , t) = e−Rt (T −t)
e que a taxa de juros segue o processo de Vasicek (veja em Vasicek (1977) [100])

dRt = (α − βRt ) dt + σdBt

onde α, β e σ são constantes positivas, encontre d [f (Rt , t)].


O exercı́cio que se segue tem o mesmo enunciado do exemplo 3.3.

102
Exercı́cio 3.11. Considere que X segue um processo geométrico Browniano com drift
α ∈ R, X0 = x = 1 e volaltilidade σ > 0. Da mesma forma Y segue um processo
geométrico Browniano com drift β ∈ R, Y0 = y = 1 e volatilidade ν > 0. A correlação
entre os Brownianos dos dois processos é ρ, ou melhor, dBX dBY = ρdt. Resolva os
itens abaixo:
(i) Faça V = XY . Que processo V segue?

(ii) Quais as correlações de dV com dX e dY ?

(iii) Faça W = X/Y . Que processo W segue?

(iv) Quais as correlações de dW com dX e dY ?

(v) Qual a correlação de dV com dW ?


Exercı́cio 3.12. Retome o enunciado do exercı́cio 3.11. Mostre que dBX pode ser
expresso como uma função
p de sua projeção em dBY mais um resı́duo  independente,
tal que dBX = ρdBY + 1 − ρ2 d.
Teorema 3.4. (Fórmula de Itô multivariada) Considere X1 , . . . , Xn processos Itô
2
tais que
dXi = µi (X1 , . . . , Xn ) dt + σi (X1 , . . . , Xn ) dBXi (3.45)
Seja f (X1 , . . . , Xn , t), onde f é contı́nua e duas vezes diferenciável em relação a xi
(com derivadas contı́nuas) e uma vez em ralação a t (com derivada contı́nua), então o
diferencial de f será
∂f X ∂f 1 X ∂ 2f
df (X1 , . . . , Xn , t) = dt + dXi + dXi dXj (3.46)
∂t i
∂x i 2 i,j
∂x i ∂x j

onde dBXi dBXj = ρij dt, i 6= j.


Exemplo 3.12. Sejam Xt e Yt dois processos estocásticos definidos por dXt = αdt +
σdBXt e dYt = βdt + νdBYt com X0 = Y0 = 0. Seja g (X, Y, t) = etX + etY . Calcule
dg (·).

Solução: Sabemos que Xt = αt + σBXt e Yt = βt + νBYt . Então a função g (·) é dada


por
2 βt2 +νtBYt
g (X, Y, t) = e|αt +σtB
{z } + e| {z }
Xt

gX (x,t) gY (y,t)

onde x ≡ BXt e y ≡ BYt . Temos então que

dg (·) = d (gX (x, t)) + d (gY (y, t))

∂gX ∂gX 1 ∂ 2 gX
dg (·) = dt + dBXt + 2
(dBXt )2
∂t ∂x 2 ∂x
∂gY ∂gY 1 ∂ 2 gY
+ dt + dBYt + 2
(dBYt )2
∂t ∂y 2 ∂y
2
Para simplificar a notação eliminamos o subscrito t das variáveis estocásticas.

103
2 +σtB 1 2
2 +σtB
dg (·) = eαt Xt
(2αt + σBXt ) dt + eαt σtdBXt + eαt +σtBXt σ 2 t2 dt
Xt
2
2 2 1 2
+ eβt +νtBYt (2βt + νBYt ) dt + eβt +νtBYt νtdBYt + eβt +νtBYt ν 2 t2 dt
2

    
αt2 +σtBXt 1 22 βt2 +νtBYt 1 22
dg (·) = e 2αt + σBXt + σ t + e 2βt + νBYt + ν t dt
2 2
2 +σtB 2 +νtB
+ eαt Xt
σtdBXt + eβt Yt
νtdBYt

Exemplo 3.13. Retome o enunciando do exercı́cio 3.11. Seja f (X, Y ) = XY . Calcule


o diferencial df (·).

Solução: Agora temos que fx = Y , fy = X, fxx = fyy = 0 e fxy = 1. Logo o


diferencial df (·), usando a equação (3.44), será

df (·) = Y (Xαdt + XσdBX ) + X (Y βdt + Y νdBY ) + dXdY

df (·) = XY αdt + XY βdt + σνXY dBX dBY + XY σdBX + XY νdBY


Lembrando que f (X, Y ) = XY e que dBX dBY = ρdt, obtemos:

df
= (α + β + σνρ) dt + σdBX + νdBY
f


1
Exercı́cio 3.13. Considere o mesmo enunciado do exercı́cio 3.11. Seja f (X, Y ) = XY
.
Calcule df (·).

Exercı́cio 3.14. Considere os seguintes processos estocásticos dXt = µX dt + σX dBXt


e dYt = µY dt + σY dBYt com X0 = Y0 = 0 e dBXt dBYt = ρdt. Seja f (X, Y, t) = eX+Y ,
calcule df (·).

3.6 Exemplos de EDE´s


Embora este texto dedique o capı́tulo 6 às EDE´s, achamos oportuno apresentar alguns
exemplos e suas soluções neste capı́tulo. Faremos isto nesta seção. No capı́tulo 6 tere-
mos a oportunidade de formalizarmos estes conceitos.

Aprendemos ao longo deste capı́tulo que a forma diferencial do processo estocástico


definido como processo geométrico Browniano tem uma solução fechada. Entretanto
não apresentamos a sua solução. Outro processo estocástico muito comum em finanças
é o processo de reversão à média, também conhecido como Ornstein-Uhlenbeck. Veremos
a sua solução. Esta seção contém a formalização da solução de algumas EDE’s.

104
3.6.1 Processo geométrico Browniano
A equação (3.17) é utilizada em finanças para descrever os preços de ações. Vimos que
S representa o preço da ação e que a sua distribuição é lognormal, adequada pois a
representar variáveis que assumem valores positivos. Reescrevemos a equação a seguir
dXt
= µdt + σdBt para t ≥ 0, X0 = x
Xt
onde µ ∈ R e σ > 0. Desejamos encontrar uma solução para esta equação3 , i.e.,
Xt = f (Bt , t).

Na forma integral esta equação é escrita como


Z t Z t
Xt = x + µf (Bu , u) du + σf (Bu , u) dBu (3.47)
0 0

onde a primeira integral é de Riemann-Stieltjes, a segunda é de Itô e X0 é o preço do


ativo em t = 0. Considerando Xt = f (Bt , t) = f (x, t), podemos usar a fórmula (lema)
de Itô
∂f ∂f 1 ∂ 2f
df [(x, t)] = dt + dBt + (dBt )2
∂t ∂x 2 ∂x2
1 ∂ 2f 1 ∂ 2f
 
∂f ∂f ∂f ∂f
d [f (x, t)] = dt + dBt + 2
dt = + 2
dt + dBt
∂t ∂x 2 ∂x ∂t 2 ∂x ∂x
integrando ambos os lados desta equação, temos
Z t Z t
1 ∂ 2f

∂f ∂f
f (Bt , t) − f (B0 , 0) = + 2
du + dBu (3.48)
0 ∂u 2 ∂x 0 ∂x

Comparando as equações (3.48) e (3.47), podemos dizer para a segunda integral que
∂f df
= σf ⇒ = σdx ⇒ ln f − ln g (t) = σx
∂x f
e então
f = g (t) eσx (3.49)
Para a primeira integral podemos escrever

∂f 1 ∂ 2f
+ = µf (3.50)
∂u 2 ∂x2
Mas a equação (3.49) significa que
∂f
= g 0 (t) eσx
∂t
3
A solução para a equação dXt = µ (X, t) dt + σ (X, t) dBt existe e é única desde que as funções
µ (Xt , t) e σ (Xt , t) sejam contı́nuas e a condição de Lipshitz para Xt seja válida. Veja a demonstração
desta propriedade em Kloeden and Platen (1992) [63]. Veja também a definição da condição de Lipshitz
para uma função f (x) x ∈ R, no Apêndice deste capı́tulo. Formalizaremos estes conceitos no capı́tulo
6.

105
∂ 2f
= g (t) σ 2 eσx
∂x2
Introduzindo ambos os resultados na equação (3.49), temos
1
g 0 (t) eσx + g (t) σ 2 eσx = µf = µg (t) eσx
2
Simplificando esta equação resulta
g 0 (t)
   
1 2 1 2 1 2
0
g (t) = µ − σ g (t) ⇒ = µ − σ ⇒ g (t) = Ce(µ− 2 σ )t
2 g (t) 2
onde C é uma constante relacionada às condições iniciais. Levando este resultado na
equação (3.49), temos finalmente
1 2
f (Bt , t) = Ce(µ− 2 σ )t+σBt
E em t = 0 o preço do ativo é X0 = x, resultando em
1 2
Xt = xe(µ− 2 σ )t+σBt

3.6.2 Equação de Langevin


A equação de Langevin é dada por
dXt = µXt dt + σdBt para t ≥ 0, X0 = x (3.51)
onde µ e σ > 0 são parâmetros. Desejamos encontrar a solução Xt .

Considere o fator de integração e−µt e multiplique ambos os membros da equação acima

e−µt dXt = µe−µt Xt dt + σe−µt dBt (3.52)


−µt
Agora considere a funão g (t, Xt ) = e Xt e calcule o seu diferencial d [g (t, Xt )] usando
a fórmula (lema) de Itô
d [g (t, Xt )] = d e−µt Xt = −µe−µt Xt dt + e−µt dXt

(3.53)
Somando membro a membro as equações (3.52) e (3.53)
d e−µt Xt + e−µt dXt = σe−µt dBt + e−µt dXt


Simplificando
d e−µt Xt = σe−µt dBt


E agora integrando de t = 0 a t
Z t
−µt
e Xt − x = σ e−µu dBu
0

Finalmente chegamos ao resultado


Z t
µt
Xt = xe + σ eµ(t−u) dBu
0
Rt
Exercı́cio 3.15. Calcule a média e a variância de Xt = X0 eµt +σ 0
eµ(t−u) dBu . Calcule
a covariância Cov (Xt , Xu ) para s < t.

106
3.6.3 Processo de Ornstein-Uhlenbeck
Também conhecido como processo de reversão à média, o processo de Ornstein-Uhlenbeck
(OU) é um processo que reverte à média de longo prazo e é dado por

dXt = X̄ − Xt dt + σdBt para t ≥ 0, X0 = x (3.54)

onde X̄ é a média de longo prazo do preço do ativo e σ > 0 a volatilidade. Buscamos a


solução Xt .

Esta dinâmica significa que o preço flutua mas é atraı́do para a média de longo prazo.
Considere o fator de integração et e multiplique ambos membros da equação (3.54)

et dXt = X̄ − Xt et dt + σet dBt



(3.55)

Considere a função g (t, Xt ) = et Xt e use a fórmula (lema) de Itô para calcular d [g (t, Xt )]

d [g (t, Xt )] = d et Xt = et Xt dt + et dXt

(3.56)

Somando membro a membro as equações (3.55) e (3.56)

d et Xt = X̄et dt + σet dBt




Integrando de t = 0 a t
Z t
t t
e Xt − x = X̄e − X̄ + σ eu dBu
0
Z t
t t
e Xt = x − X̄ + X̄e + σ eu dBu
0
e finalmente Z t
−t
eu−t dBu

Xt = X̄ + x − X̄ e +σ
0

Exercı́cio 3.16. A equação (3.54) pode ser alterada para



dXt = k X̄ − Xt dt + σdBt para t ≥ 0, X0 = x (3.57)

neste caso k > 0 representa a velocidade de reversão e σ > 0 a volatilidade. Agora o


preço do ativo flutua mas retorna à média de longo prazo com velocidade k:

(i) resolva esta equação usando o fator de integração ekt ,

(ii) calcule a média e a variância de Xt .

O processo de reversão é utilizado para modelar muitas variáveis econômicas que ten-
dem a retornar a valores médios de longo prazo. Uma das aplicações é o uso do processo
de reversão, análogo ao da equação (3.57), para modelar a taxa de juros. Antecipamos
isto no exercı́cio 3.10. De fato, a taxa de juros acompanha os ciclos econômicos que no
longo prazo alternam perı́odos de expansão e de recessão.

107
Outra aplicação dos processos de reversão ocorre na modelagem dos preços das commodi-
ties. Em geral os produtores ofertam seus produtos de acordo com os preços. Assim se os
preços estão elevados os produtores irão ofertar em abundância ocasionando uma queda
nos preços. Por outro lado, se os preços estão baixos eles se sentem pouco atraı́dos a
ofertar e então o produto torna-se escasso no mercado. Isto provoca uma alta nos preços.
Portanto, existe uma tendência dos preços acompanharem a média de longo prazo.

Existem variantes do processo de reversão. Uma delas muito comum e usada para
modelar preços de commodities é o processo geométrico de reversão. Estaremos neste
texto dedicando especial atenção, em um capı́tulo inteiro, aos processos estocásticos
utilizados na modelagem de commodities. Não obstante, é oportuno neste momento
apresentarmos um pouco mais sobre estes modelos.

Schwartz (1997) [88] modelou os preços das commodities pelo processo geométrico de
reversão
dXt = k (µ − ln Xt ) Xt dt + σXt dBt (3.58)
onde St representa o preço à vista da commodity e σ > 0 a volatilidade. Este preço
reverte para a média de longo prazo X̄ = eµ a uma velocidade de reversão igual a k > 0.

Observe a primeira parcela do segundo membro das equações (3.57) e (3.58). Se X


está acima de X̄, então esta parcela é negativa e o preço tende a reduzir, no sentido de
X̄. Da mesma forma, se X está abaixo de X̄, esta parcela é positiva e tende a aumentar
o preço, no sentido de X̄.

Exercı́cio 3.17. Considere na equação (3.58) que Yt = ln Xt . Derive o processo es-


tocástico de Yt através da fórmula (lema) de Itô.

Como resposta do exercı́cio 3.17 encontramos que

dYt = k (θ − Yt ) dt + σdBt (3.59)


2
onde θ = µ − σ2k , Yt segue o processo de Ornstein-Uhlenbeck definido na equação (3.57).
A figura 3.4 mostra quatro trajetórias do processo geométrico de reversão definido pela
equação (3.58). Nesta simulação o preço inicial é X0 = $50, a volatilidade é σ = 20%
ao ano e a média de longo prazo é X̄ = $54. Observe que à medida que as velocidades
de reversão aumentam, os preços são atraı́dos para a média X̄ mais fortemente. Foram
usados os mesmos choques nas simulações das quatro trajetórias.

Retome a definição do processo de reversão na equação


 (3.57). A primeira parcela do
segundo membro desta equação é dXt = k X̄ − Xt dt. Integrando de t = 0 a t, obtemos

Xt − X̄ = x − X̄ e−kt


Se definirmos tH como o tempo para X cair para a metade de seu nı́vel inicial temos

1
x − X̄ = x − X̄ e−ktH
 
2
108
Figura 3.4: Simulações do processo geométrico de reversão

O tempo tH é definido como a meia-vida do processo de reversão. É uma forma distinta


de nos referirmos à velocidade de reversão. Resolvendo a última equação temos a meia-
vida
ln 2
tH = (3.60)
k
Como dissemos anteriormente voltaremos a estes conceitos nos capı́tulos seguintes quando
trataremos da simulação de processos estocásticos e da modelagem de commodities, res-
pectivamente.

3.7 Resumo e considerações finais


Este capı́tulo constitui a base necessária para o desenvolvimento das metodologias de
apreçamento de derivativos. Primeiramente destacamos o conceito de processo Browni-
ano, Bt ∼ N (0, t), que tem valor inicial zero, tem incrementos estacionários e indepen-
dentes e possui realizações contı́nuas (sem saltos). Estas propriedades lhe conferem a
condição de não diferenciabilidade no sentido clássico.

Seguimos com o conceito de valor esperado condicional e com a noção de σ-álgebra.


A relevância destes dois conceitos está no fato de que em finanças é importante que
saibamos calcular o valor esperado de uma variável aletória no futuro dado um conjunto
de informações disponı́veis atualmente. A σ-álgebra é o conceito matemático que re-
trata este conjunto de informações diponı́veis. O valor esperado condicional é sempre
calculado em relação a uma função de probabilidade (ou medida de probabilidade) e a

109
uma σ-álgebra, de tal forma que escrevemos E P (Xt |Fs ) para expressar o valor esper-
ado, segundo a função probabilidade P , da variável aleatória X no instante t dada as
informçãoes do instante s, sendo s < t. Alterando-se a medida de probabilidade e/ou a
σ-álgebra o valor esperado em geral modifica-se.

Em seguida definimos o processo martingal como aquele em que o valor esperado condi-
cional para o processo em t é o seu valor em s, ou seja, E P (Xt |Fs ) = Xs . Aqui vale
destacar que esta propriedade permitirá o apreçamento de derivativos de uma forma
muito simples. Isto porque se encontrarmos uma medida de probabilidade Q em relação
a qual o processo é martingal, então o valor esperado da variável em uma data futura
é o seu valor hoje. Isto reduz bastante os cálculos comparativamente à metodologia
clássica de apreçamento. No capı́tluo 4 trataremos da metodologia clássica e faremos
o apreçamento de opções como no modelo de Black, Merton e Scholes. No capı́tulo
posterior usaremos o conceito da propriedade martingal, aqui apresentado.

Os dois tópicos seguintes estão intimamente relacionados. Desenvolvemos o conceito


de integração em ambiente estocástico. Uma vez definido o conceito de integração, a
operação de diferenciação passa a fazer sentido neste ambiente. Definimos a integral de
Itô como sendo o resultado da convergência média quadrática na definição 3.17 e aqui
enfatizado
 " #2 
 Xn Z T 

lim E σ Bti−1 , ti ∆Bti − σ (Bu , u) dBu =0
n→∞  0 
i=1

Com o conceito da integral de Itô pudemos definir o processo de Itô na definição 3.18
Z t Z t
Xt = x + µ (Xu , u) du + σ (Xu , u) dBu
0 0

onde a primeira integral é de Reimann e a segunda é uma integral de Itô. Vimos também
que a integral de Itô goza da propriedade martingal. Estando definido o sentido de
integração, pode-se escrever o processo na forma diferencial como

dXt = µ (Xt , t) dt + σ (Xt , t) dBt

Para o caso especial em que µ (Xt , t) = µXt e σ (Xt , t) = σXt temos o processo
geométrico Browniano definido por

dXt = µXt dt + σXt dBt para t ≥ 0, X0 = x

A seguir definimos a fórmula de Itô que nada mais é do que a operacionalização da difer-
enciação total de variáveis estocásticas, equivalentemente à regra da cadeia no cálculo
clássico. Vimos como calcular d [f (Xt , t)] onde Xt segue é um processo de Itô acima. A
regra de diferenciação é

1 2 ∂ 2f
 
∂f ∂f ∂f
df (Xt , t) = + µt + σt 2 dt + σ dBt
∂t ∂x 2 ∂x ∂x

110
onde µt = µ (Xt , t) e σt = σ (Xt , t). A fórmula de Itô juntamente com a propriedade
martingal são as ferramentas básicas para o desenvolvimento de apreçamento de deriva-
tivos em finanças. Já no capı́tulo 4 faremos uso da fórmula de Itô na derivação do
modelo de Black, Merton e Scholes. Finalizamos o capı́tulo 3 com a aplicação de todos
os conceitos acima. Para tal resolvemos algumas equações diferenciais estocásticas que
são usuais em finanças com destaque para o processo geométrico Browniano e a equação
de Ornstein-Uhlenbeck.

3.8 Apêndice - Variação quadrática, condições de


Lipshitz e Hölder
3.8.1 Variação quadrática
Repetimos abaixo o enunciado do teorema 3.1 e apresentamos a sua demonstração.

Seja Bt , 0 ≤ t ≤ T , uma processo Browninao padrão e seja τ uma partição assim


definida
τ : 0 = t0 < t1 < . . . tn = T
então a variação quadrática [B, B] (T ) = T é
n−1
X 2
[B, B] (T ) = lim Bti+1 − Bti =T
δ→0
i=0
Pn−1 2
Prova. Seja S = i=0 Bti+ − Bti . Temos que provar que limδ→0 S = T . A soma S
é uma variável aleatória. Se tomarmos diferentes partições teremos diferentes caminhos,
que calculados com base na definição de S e tomado o limite, fornecerão sempre como
resultado o valor T . Vamos calcular o valor esperado e a variância de S.
n−1
! n−1 n−1
X 2 X  2
X
E (S) = E Bti+1 − Bti = E (Bti=1 − Bti ) = (ti+1 − ti ) = T
i=0 i=0 i=0
" n−1 # n−1
X 2 X h 2 i
V ar (S) = V ar Bti+1 − Bti = V ar Bti+1 − Bti
i=0 i=0
h 2 i
Vamos calucular a variância V ar Bti+1 − Bti e posteriormente substituir na equação
acima.
h 
h 2 i 2 h 2 ii2
V ar Bti+1 − Bti =E Bti+1 − Bti − E Bti+1 − Bti
h i2 
2
=E Bti+1 − Bti − (ti+1 − ti )
h 4 2 i
2
= E Bti+1 − Bti + (ti+1 − ti ) − 2 (ti+1 − ti ) Bti+1 − Bti
h 4 i h 2 i
= E Bti+1 − Bti + (ti+1 − ti )2 − 2 (ti+1 − ti ) E Bti+1 − Bti
= 3 (ti+1 − ti )2 + (ti+1 − ti )2 − 2 (ti+1 − ti )2 = 2 (ti+1 − ti )2

111
a primeira parcela da penúltima linha é a curtose de uma normal com média zero e
variância ti+1 − ti que é igual a três vezes a variância ao quadrado, veja a equação (1.13).
Logo a variância de S será
n−1
X n−1
X
2
V ar (S) = 2 (ti+1 − ti ) = 2 (ti+1 − ti ) (ti+1 − ti )
i=0 i=0

Se substituirmos (ti+1 − ti ) por δ que é o máximo valor dentre todos, temos um limite
superior para a variância, ou seja
n−1
X
V ar (S) ≤ 2δ (ti+1 − ti ) = 2δT
i=0

E agora tomando o limite quando δ tende a zero, temos

lim = 0
δ→0

Em outras palavras, mostramos que o valor esperado de S é T e que sua variância tende
a zero. O que foi demonstrado fornece o suporte para o entendimento das equações (3.3),
(3.8) e (3.11), culminando com a regra básica 2 na equação (3.13).

3.8.2 Condições de Lipshitz e Hölder


Definição 3.19. (Condição de Lipshitz) Uma função f satizfaz a condição de
Lipshitz sem [a, b] se existe uma constante K ≥ 0 tal que para todo x, y ∈ [a, b]

|f (x) − f (y) | ≤ K|x − y| (3.61)

Se f é continuamente diferenciável em [a, b] então ela atende as condições de Lipshitz


ou simplesmente é Lipshitz. Uma função Lipshitz em [a, b] possui variação finita em
[a, b]. O produto de duas funções Lipshitz e limitadas é também Lipshitz.

Definição 3.20. (Condição de Hölder) Uma função f satisfaz a condição de Hölder


de ordem p, 0 < p ≤ 1 em [a, b] se existe uma constante K > 0 positiva tal que para
todo x, y ∈ [a, b]
|f (x) − f (y) | ≤ K|x − y|p (3.62)
A condição de Lipshitz é um caso particular de Hölder quando p = 1.

112
Capı́tulo 4

Modelo de Black, Merton e Scholes

A utilização de processos estocásticos em finanças tornou-se bem sucedida a partir dos


modelos de apreçamento de Black e Scholes (1973) [9] e Merton (1973) [73]. Estes tra-
balhos seminais mudaram o rumo da teoria em finanças e propiciaram o surgimento
de vários instrumentos financeiros que puderam ser apreçados por estes conceitos. Por
outro lado, o desenvolvimento dos mercados e instrumentos financeiros impulsionaram
o desenvolvimento dos estudos em finanças. No inı́cio do século passado, Bachelier com
sua tese de doutorado entitulada Théorie de la Spéculation proveu as bases dos processos
de difusão Markovianos introduzindo o processo Browniano na teoria de finanças. Muito
depois, Samuelson (1965) [86] utilizou o processo geométrico Browniano na modelagem
dos preços de ações (Veja em Jarrow e Protter (2004) [58] um relato da aplicação dos
conceitos de cálculo estocástico em finanças).

Neste texto denominaremos de modelo de BMS os modelos de apreçamentos de con-


tratos de opções Européias desenvolvidos por Black e Scholes (1973) [9] e Merton (1973)
[73]. Este capı́tulo apresentará a derivação destes modelos usando a metodologia clássica
de apreçamento, ou seja tal como desenvolvido por estes autores. Estes modelos definem
o preço de contratos de opções a partir da solução de uma equação diferencial parcial
de segunda ordem. Posteriormente, em 1979 a metodologia de apreçamento sofreu novo
impulso e o apreçamento de tais contratos passaram a utilizar o conceito da propriedade
martingal. Os resultados dos apreçamentos por uma metodologia ou outra são idênticos,
porém a propriedade martingal facilita os cálculos. O apreçamento pela medida mar-
tingal será desenvolvido nos capı́tulos seguintes.

Existem vários textos classicos que cobrem os tópicos desta capı́tulo. Wilmott, Howison
e Dewynne (1995) [101] trata o apreçamento utilizando a abordagem clássica, ou seja,
através da solução de equações diferenciais. Hull (2000) [53] é o livro texto mais usual
para o tratamento de conceitos introdutórios de derivativos em geral. McDonald (2003)
[70] trata os conceitos de derivativos com este mesmo enfoque e com idêntico nı́vel de
abordagem. Shimko (1992) [93] apresenta conceitos básicos do cálculo estocástico e
o apreçamento através de EDP´s. Além dos textos acima, acrescentamos o artigo de
Smith (1976) [96] que apresenta um sumário do desenvolvimento do apreçamento de
opções até aquela data.

113
4.1 Conceitos básicos
Considere que o preço à vista de uma ação no instante t seja Xt . Considere também que
a evolução de Xt siga um processo geométrico Browniano tal qual definido no capı́tulo
3 ou mais apropriadamente definido pela equação (3.17).

Definição 4.1. (Opção Européia) Um contrato de uma opção financeira do tipo Eu-
ropéia fornece ao seu proprietário o direito, mas não a obrigação, de comprar/vender
um ativo (ativo objeto ou subjacente) por um preço K (preço de exercı́cio) em uma data
especificada, T (data do vencimento).

O proprietário do contrato de opção adquire este direito em um instante t pagando


um prêmio que é preço da opção de compra ct ou da opção de venda vt . Em t = T
(data de exercı́cio ou vencimento do contrato) ele irá decidir se adquire ou vende a ação
pelo preço definido no contrato K (preço de exercı́cio). Denominaremos o valor deste
contrato no vencimento pela função ΛT . A opção de compra será vantajosa para o seu
proprietário se no vencimento XT > K. A opção de venda será vantajosa se ocorrer
o inverso, K > XT . Isto significa que no vencimento (t = T ) as opções de compra
e venda valem ΛT = (XT − K)+ e ΛT = (K − XT )+ , respectivamente. A figura 4.1
mostra os valores da opção de compra para diversos valores do preço do ativo objeto na
data do vencimento. Um gráfico desta natureza é denominado de diagrama de posição.

A figura 4.2 mostra o diagrama de posição para uma opção de venda na data do venci-
mento. Para XT > K a opção de venda não tem valor no vencimento. É intuitivo que

Figura 4.1: Diagrama de posição de uma opção de compra

em uma data anterior ao vencimento (t < T ) o valor da opção deve ser função do preço
da ação Xt , ou seja, pode-se escrever c (Xt , t) para a opção de compra ou v (Xt , t) para a
opção de venda. Uma forma mais completa de retratar estas variáveis seria escrevê-las
na forma c (Xt , t; K, T, σ, r) e v (Xt , t; K, T, σ, r). Por simplicidade de notação vamos

114
Figura 4.2: Diagrama de posição de uma opção de venda

escrevê-las de forma abreviada como c (Xt , t) e v (Xt , t), ou simplismente por ct e vt , ou


ainda como notações reduzidas da forma completa acima. Pelo fato do valor da opção ser
uma função do preço da ação, dizemos que o contrato de opção é um derivativo, ou seja o
seu preço deriva do preço do ativo objeto ou subjacente (ação). Existem inúmeros outros
contratos de derivativos como, por exemplo, os contratos futuros, forward, swaps, opções
exóticas, etc. Oportunamente definiremos cada um destes derivativos. As metodologias
deste e do próximo capı́tulo permitirão o apreçamento de derivativos de uma forma
geral, entretanto neste capı́tulo ficaremos restritos aos derivativos denominados opções.
A definição acima apresentou o conceito de opção do tipo Européia (c (Xt , t)). Neste
tipo de opção o seu detentor pode exercer o seu direito somente na data do vencimento.
Há também a opção do tipo Americana (C (Xt , t)) em que o proprietário pode exercer o
seu direito em qualquer data até o vencimento em t = T . Diferentemente dos dois tipos
anteriores, há a opção do tipo Bermuda em que o direito pode ser exercido em algumas
datas pré-definidas (mas não em qualquer data) até o vencimento. Devido ao fato de
que o ganho de uma opção é definido pelo melhor interesse de seu possuidor o seu valor
será sempre maior ou igual a zero. Assim podemos escrever

c (Xt , t) ≥ 0 C (Xt , t) ≥ 0 opção de compra


(4.1)
v (Xt , t) ≥ 0 V (Xt , t) ≥ 0 opção de venda

As opções podem ser negociadas por interesse especulativo ou por necessidade de proteção
do ativo objeto. Por exemplo se um investidor acredita que o preço de determinada ação
irá aumentar nos próximos meses, pode adquirir uma opção de compra. No vencimento
se sua expectativa se confirmar estará tendo lucro. Este lucro será tanto maior quanto
maior for o preço do ativo objeto no vencimento. Se a sua expectcativa não se confir-
mar, a sua opção nada valerá no vencimento e sua perda estará limitada ao valor pago
para adquirir a opção (prêmio). A contra-parte do investidor que adquire uma opção
de compra é outro investidor que lança esta mesma opção. A sua posição é contrária à

115
do comprador, isto é, se a ação valorizar-se muito sua perda é ilimitada pois terá que
vender a ação por um preço (preço de exercı́cio) muito inferior ao preço à vista. Se o
preço da ação cair, o seu lucro estará limitado o prêmio que recebeu quando vendeu a
opção. Inversamente, se o investidor antevê momentos de desvalorização da ação, pode
adquirir uma opção de venda. E novamente, em se realizando sua previsão terá lucro
e este lucro será tanto maior quanto maior for a queda do preço. Se a sua previsão
estiver errada perderá o prêmio que pagou pela opção. A sua contra-parte está em uma
posição contrária. Se o preço da ação cair, o lançador da opção de venda terá perdas
significativas, entretanto se não se configurar tal cenário, seu ganho estará limitado ao
prêmio que recebeu pela venda. Neste caso os investidores estarão atuando meramente
com fins especulativos, buscando tirar proveito de uma situação que pode acontecer
ou não. Quando um investidor possui uma ação e teme perdas devido ao movimento
futuro de queda dos preços, pode proteger-se de tal situação adquirindo uma opção de
venda. Assim a desvalorização de sua ação será compensada pelo ganho que terá com
a opção. Alternativamente o investidor pode lançar uma opção de compra e se o preço
da ação cair abaixo do preço de exercı́cio não haverá o exercı́cio, ele ganhará o prêmio
pela venda da opção. Nestes casos o investidor buscou estratégias que protegessem o seu
ativo contra um cenário desfavorável. É natural que a existência do mercado de opções
com finalidade de proteção será tanto mais útil para os investidores quanto maior for a
incerteza dos preços no futuro. Em outras palavras, se o cenário de incerteza dos preços
for grande (alta volatilidade) as opções terão mais valor para os agentes que negociam.

Um conceito fundamental na teoria de apreçamento de contratos é o de arbitragem.


Evoluiremos com este conceito no capı́tulo seguinte apresentando a sua formalização.
Por enquanto definiremos arbitragem como a operação no mercado financeiro que per-
mite ganhos sem envolver riscos de perdas. A não possibilidade de arbitragem (ou de
ganhos sem riscos) nos permitirá realizar o apreçamento de contratos. Usaremos sempre
a condição de não arbitragem, ou seja, não há lucro livre de risco a partir de estratégias
tomadas no mercado. Para exemplificar, suponha que o custo de uma estratégia A de
investimento seja IA e que o de outra estratégia B seja IB . Estas estratégias podem
ser tomadas no instante t. Considere que na data T as duas estratégias têm o mesmo
valor. Portanto, o custo destas duas estratégias em t deve ser o mesmo, ou seja, IA = IB .

Outro conceito relevante em finanças é o da taxa livre de risco. A taxa livre de risco é o
retorno de um investimento em que não há possibilidade de perda. Uma aproximação de
tal situação são os tı́tulos emitidos por paı́ses desenvolvidos. O mercado considera que
tais paı́ses honrarão suas emissões pagando a remuneração contratualmente acordada
com os investidores. Consideraremos que sempre exista a taxa livre de risco denominada
por r. Se uma estratégia de investimento não oferece risco algum a sua remuneração
deve ser a taxa livre de risco, caso contrário haveria a possibilidade de arbitragem.

Os conceitos apresentados acima permitem que encontremos uma relação de equivalência


entre a opção de compra e a opção de venda sobre o mesmo ativo com o mesmo preço
de exercı́cio e maturidade. Esta relação é denominada de paridade entre a opção de
compra ct e a opção de venda vt .

Proposição 4.1 (Paridade entre opções de compra e venda). Considere que (i)

116
uma ação (ativo subjacente) não pague dividendos no perı́odo [0, T ]; (ii) a taxa livre
de risco seja constante neste perı́odo e igual a r; (iii) que não haja possibilidade de
arbitragem. Considere também que em t (0 ≤ t ≤ T ) o preço à vista do ativo subjacente
seja Xt e as opções Européias de compra e venda, com preço de exercı́cio K e vencimento
em T , valham ct e vt , respectivamente. Então é válida a relação
Xt + vt = ct + Ke−r(T −t) (4.2)
Prova. Considere uma carteira (ou portfólio) em que se compre uma ação à vista, uma
opção de venda e que se venda uma opção de compra. No tempo t esta carteira valerá
Xt + vt − ct . No vencimento, em t = T duas situações podem ocorrer: (i) XT > K e (ii)
XT ≤ K. No primeiro caso a carteira valerá XT + 0 − (XT − K) = K. No segundo caso
a carteira valerá XT + (K − XT ) + 0 = K. Ou seja, no vencimento o valor da carteira
será sempre K qualquer que seja o estado da natureza. Então na data t o valor da
carteira será o valor na data T , que é igual a K, descontado pela taxa livre de risco no
perı́odo T − t, isto é, Ke−r(T −t) . Caso contrário haveria a possibilidade de arbitragem.
Consequentemetne podemos escrever Xt + vt − ct = Ke−r(T −t) . Desta forma obtemos a
equação (4.2).
A equação (4.2) estabelece que o valor de uma ação mais uma opção de venda
equivale uma opção de compra mais o valor presente do preço de exercı́cio. Isto significa
também que, caso em um mercado, haja somente negociação de opções de compra,
pode-se construir sinteticamente uma opção de venda de mesmo preço de exercı́cio e
maturidade. O inverso também é verdadeiro para opções de venda, podendo-se obter
sinteticamente opções de compra. Observe também que, na demonstração acima, não
foi feita nenhuma consideração sobre a dinâmica de Xt .
Exercı́cio 4.1. Qual o valor de um portfólio, na data T , formado por uma ação (de
preço Xt ) e uma opção de venda sobre esta ação com preço de exercı́cio K?

4.2 Modelo de Black e Scholes


A questão natural que surge é saber qual o valor de uma opção (compra ou venda) em
um instante t < T , ou seja, precisamos apreçar o contrato de uma opção definindo o seu
preço c = f (Xt , t). Em outras palavras, qual o preço justo de um contrato deste tipo?
Existe alguma modelo que permita definir este preço justo? Estas questões estavam na
mente dos pesquisadores que se dedicavam muito a encontrar a resposta para o prob-
lema. Por outro lado, os mercados de opções estavam sendo organizados e apesar das
negociações destes contratos serem incipientes havia um grande interesse em modelos
que pudessem expressar o preço justo. Black e Scholes (1973) [9] e Merton (1973) [73]
foram os responsáveis diretos pelas fórmulas de apreçamento que se tornaram famosas
a partir da publicação destes artigos. Esta seção apresentará a derivação do modelo de
Black e Scholes (1973). O modelo de Merton (1973) é uma generalização do modelo de
Black e Scholes (1973) e será apresentado na seção seguinte.

Considere que o preço à vista de uma ação seja Xt . O preço de uma opção de compra
sobre esta ação é c = f (X, t), o contrato tem maturidade T e o preço de exercı́cio é K.
Considere também que as seguintes hipóteses sejam verificadas:

117
(i) a taxa livre de risco r é constante durante todo perı́odo de maturação;
(ii) a opção de compra é do tipo Européia;
(iii) o ativo subjacente não paga dividendos durante a maturidade da opção;
(iv) o ativo subjacente segue um processo geométrico Browniano, isto é, a distribuição
dos preços é lognormal;
(v) não há custos de transação e impostos, os ativos são infinitamente divisı́veis e as
transações ocorrem continuamente ao longo da vida da opção;
(vi) a volatilidade é constante durante todo o perı́odo de maturação;
(vii) o mercado não admite a possibilidade de arbitragem.
Muitas destas considerações podem ser relaxadas e ainda pode-se obter uma solução
analı́tica para o modelo. Outras, tais como o tipo do processo estocástico seguido pelo
ativo subjacente quando alterado, podem ter um custo adicional implicando, em geral,
em soluções numéricas para o modelo.

Considere portanto o processo estocástico geométrico Browniano para o preço do ativo


subjacente Xt , ou seja,
1 2
Xt = Xu e(µ− 2 σ )(t−u)+σBt−u (4.3)
onde µ ∈ R, σ > 0 e B = (Bt , t ≥ 0) é o Browniano com a filtração associda Ft .
Vimos no capı́tulo 3 que a equação (4.3) equivale a seguinte forma diferencial, ou mais
apropriadamente é a solução da seguinte EDE (equação diferencial estocástica)
dXt
= µdt + σdBt (4.4)
Xt
para 0 ≤ u ≤ t < T .

O valor da opção de compra Européia é função do preço do ativo Xt = x e do


tempo: c = f (x, t). No vencimento, quando t = T , o valor da opção é o máximo entre
o valor da ação e o preço de exercı́cio K: c (XT , T ) = (XT − K)+ ou equivalentemente
c (XT , T ) = max (XT − K, 0). Na derivação que se segue iremos omitir os subscrito
“tempo” das variáveis.

Portanto, temos c = f (x, t), e usando a fórmula de Itô para calcular dc, temos
∂c ∂c 1 ∂ 2c
dc = dX + dt + 2
(dX)2
∂x ∂t 2 ∂x
A equação acima significa que a variação do preço da opção de compra dc em um pequeno
intervalo de tempo dt é dada pelo segundo membro. Substituindo dX da equação (4.4),
nesta última equação, obtemos
∂c ∂c 1 ∂ 2c
dc = (µXdt + σXdB) + dt + σ 2 X 2 2 dt
∂x ∂t  2 ∂x
∂c ∂c 1 2 2 ∂ 2 c

∂c
dc = µX + + σ X 2
dt + σX dB (4.5)
∂x ∂t 2 ∂x ∂x

118
Esta equação representa a dinâmica de evolução do valor da opção de compra.

Considere a formação de um portfólio com a compra de ∆ ações ao preço X e a


venda de uma opção ao preço c. O valor Π deste portfólio será
Π = ∆X − c (4.6)
O diferencial do valor do portfólio dΠ é dado por
dΠ = ∆dX − dc (4.7)
Substituindo na equação (4.7) os valores de dX e dc das equações (4.4) e (4.5), respec-
tivamente, obteremos
∂c ∂c 1 2 2 ∂ 2 c
 
∂c
dΠ = ∆µXdt + ∆XσdB − µX + + σ X 2
dt − σX dB
∂x ∂t 2 ∂x ∂x
Agrupando os termos, temos
∂c ∂c 1 2 2 ∂ 2 c
   
∂c
dΠ = ∆µS − µS − − σ S dt + ∆σS − σS dB (4.8)
∂s ∂t 2 ∂s2 ∂s
A equação acima representa a dinâmica de evolução do valor do portfólio. Observe no
segundo membro a presença da tendência (coeficiente de dt) e a presença do termo es-
tocástico (coeficiente de dB) que confere a aleatoriedade a dΠ.

Para eliminar esta aleatoriedade do valor do portfólio deve-se fazer o coeficiente de


dB nulo na equação (4.8), isto é
∂c
∆Xσ − σX =0
∂x
∂c
∆= (4.9)
∂x
Levando o resultado de ∆, encontrado acima, na equação (4.8), temos
∂c ∂c 1 2 2 ∂ 2 c
 
∂c
dΠ = µX − µX − − σ X dt
∂x ∂x ∂t 2 ∂x2
∂c 1 2 2 ∂ 2 c
 
dΠ = − − σ X dt (4.10)
∂t 2 ∂x2
∂c
Ajustando a quantidade de ações ∆ do portfólio neste valor (∆ = ∂x ), vimos acima
que o portfólio torna-se sem risco. Por outro lado um ativo livre de risco deve retornar
a taxa livre de risco para que não haja possibilidade de arbitragem, como foi suposto
acima. Então o retorno deste portfólio dΠ
Π
deve ser rdt, ou seja

= rdt ⇒ dΠ = rΠdt (4.11)
Π
Substituindo as equações (4.10) e (4.6) na equação (4.11), obteremos
∂c 1 2 2 ∂ 2 c
 
− − σ X dt = r (∆X − c) dt
∂t 2 ∂x2

119
Resultando na seguinte equação diferencial parcial (EDP)
∂c ∂c 1 2 2 ∂ 2 c
+ rX + σ X = rc (4.12)
∂t ∂x 2 ∂x2
Esta é a equação diferencial parcial do modelo de Black e Scholes (1973). Podemos
ainda escrevê-la na forma abreviada onde os subscritos indicam as derivadas parciais
1
ct (x, t) + rScx (x, t) + σ 2 X 2 cxx (x, t) = rc (x, t) (4.13)
2
As condições de contorno necessitam ser estabelecidas para que se proceda a sua solução.
Note que se o preço da ação Xt atinge zero a equação (4.3) mostra que o valor per-
manecerá em zero e consequentemente a opção nada valerá. Para sermos consistente
com a transformação logarı́timica que será utilizada na solução, usaremos apenas o fato
de que Xt → 0. Temos então que
lim c (x, t) = 0 (4.14)
x→0

Se o preço da ação Xt atingir um valor muito elevado o preço da opção será pouco
afetado pelo preço de exercı́cio (que se tornará pequeno em relação ao preço do ativo) e
naturalmente o valor da opção tenderá ao preço da ação, ou seja
lim c (x, t) = x (4.15)
x→∞

No vencimento quando t = T , tem-se a condição terminal, c (XT , T ) = (XT − K)+ .


Entretanto vemos que em t = T o termo d1 abaixo não está definindo. Escreve-se então
que
lim c (x, t) = (XT − K)+ (4.16)
t→T

A EDP (4.12) é do tipo parabólica e é redutı́vel à forma clássica da equação de difusão


do calor. A sua solução fornece o preço da opção de compra
c (Xt , t) = Xt N (d1 ) − Ke−r(T −t) N (d2 ) 0≤t<T x>0 (4.17)
onde
Xt
+ r + 21 σ 2 (T − t) √
 
ln K
d1 = √ d2 = d1 − σ T − t
σ T −t
e N (.) representa a distribuição normal padrão acumulada, isto é
Z Z
1 1 2
N (Z) = √ e− 2 y dy
2π −∞
O Apêndice deste capı́tulo é dedicado a resolução da EDP (4.12) juntamente com as
condições em (4.14) - (4.16).

Ressaltamos que a estratégia de manter o portfólio continuamente ajustado com ∆


∂c
(∆ = ∂X ) ações para cada opção, levará o portfólio a ter igual valor que preço da opção
no vencimento (Λ (T )).
Exemplo 4.1. Vimos na demonstração que a condição para que o portfólio seja sem
∂c
risco é que ∆ = ∂X . Diferencie a equação (4.17) em relação a X para demonstrar que
∆ = N (d1 ).

120
Solução: Para simplificar a notação vamos considerar τ = T − t (τ significa o tempo
remanescente para o vencimento) e abolir o subı́ndice do tempo, então as equações acima
tornam-se
c = XN (d1 ) − Ke−rτ N (d2 ) (4.18)
onde
X

ln K
+ (r + 0.5σ 2 ) τ √
d1 = √ d2 = d1 − σ τ
σ τ
Diferenciando a equação (4.18), temos:

∂c ∂d1 ∂d2
∆= = N (d1 ) + XN 0 (d1 ) − Ke−rτ N 0 (d2 ) (4.19)
∂x ∂X ∂X
Por outro lado podemos escrever que
"
X
 #2
+ r + 21 σ 2 τ

d21 1 ln K
ln X − = ln X − √
2 2 σ τ
     2
1 X 1 2
= ln X − 2 ln + r+ σ τ
2σ τ K 2

Trabalhando o segundo membro da equação acima temos


( "   2     #)
1 X X 1
2
2σ 2 τ ln X − ln + rτ + σ 2 τ ln + rτ + σ 4 τ 2
2σ τ K K 4

Agrupando os termos similares, o segundo membro fica igual a


(   2 )
1 X 1 4 2
− 2 ln + rτ + σ τ + σ 2 τ (− ln X − ln K + rτ )
2σ τ K 2

Logo temos que


(   2 )
d2 1 X 1 4 2
ln X − 1 = − 2 ln + rτ + σ τ + σ 2 τ (− ln X − ln K + rτ ) (4.20)
2 2σ τ K 2

Também pode-se escrever que


"
X
 #2
+ r − 21 σ 2 τ

d22 1 ln K
ln K − rτ − = ln K − rτ − √
2 2 σ τ

Trabalhando como previamente o segundo membro da equação anterior chega-se ao re-


sultado abaixo
d22
ln K − rτ −
2
(   2 )
1 X 1 4 2
=− 2 ln + rτ + σ τ + σ 2 τ (− ln X − ln K + rτ ) (4.21)
2σ τ K 4

121
As equações (4.20) e (4.21) são iguais, isto permite que se escreva

d21 d2
ln X − = ln K − rτ − 2
2 2
Exponenciando ambos os lados da equação anterior, escreve-se
 2
d d2
2
X exp − 1 = Ke−rτ e− 2
2
z 2
Temos ainda que N 0 (z) = 1

2 π
e− 2 e a equação anterior fica

XN 0 (d1 ) = Ke−rτ N 0 (d2 ) (4.22)

Ainda pode-se escrever que ∂d ∂X


1
= Xσ1√τ e ∂d∂X
2
= Xσ1√τ , consequentemente ∂d1
∂X
= ∂d2
∂X
.
Este último resultado levado na equação (4.22) fornece

∂d1 ∂d2
XN 0 (d1 ) = Ke−rτ N 0 (d2 ) (4.23)
∂X ∂X
A equação (4.23) levada na equação (4.19), resulta finalmente, no resultado ∆ = N (d1 ).

Adotando as mesmas etapas anteriores pode-se deduzir a EDP para uma opção de
venda (veja exercı́cio 4.4) obtendo-se

∂v ∂v 1 2 2 ∂ 2 v
+ rX + σ X = rv (4.24)
∂t ∂x 2 ∂x2
A equação que fornece o apreçamento de uma opção de venda pode ser obtida pela
substituição da equação (4.17) na equação (4.2), que estabelece a paridade entre opções
de compra e venda. Resolvida esta equação obtém-se

v (Xt , t) = Ke−r(T −t) N (−d2 ) − Xt N (−d1 ) (4.25)

As condições de contorno também podem ser obtidas a partir da relação de paridade.


Assim, se Xt tende para zero a opção de compra também tende para zero e consequente-
mente tem-se
lim (x, t) = Ke−r(T −t) (4.26)
x→0

Se Xt atinge valores muito elevados a opção de venda nada vale e tem-se

lim v (x, t) = 0 (4.27)


x→∞

A condição terminal, já vista, fornece v (xT , T ) = (K − X)+ . Pela mesma restrição em
relação à definição de d1 , escrevemos

lim v (x, t) = (K − X)+ (4.28)


t→T

122
Exercı́cio 4.2. Faça X → 0+ na equação (4.17) e verifique a condição de contorno
c (0, t) = 0 para t ∈ [0, T ].

Exercı́cio 4.3. Faça X → ∞ na equação (4.17) e verifique a condição de contorno


em (4.15) através do limx→∞ c (x, t) − X + Ke−r(T −t) = 0 para t ∈ [0, T ].

Exercı́cio 4.4. Siga os mesmos passos utilizados na dedução da EDP (4.12) referente à
opção de compra, para obter a EDP referente à opção de venda dada pela equação (4.24).

Exercı́cio 4.5. Mostre que o ∆ oriundo da dedução feita no exercı́cio 4.4 é igual a
N (d1 ) − 1.

Figura 4.3: Opção de compra para K = 7, r = 5% e σ = 25%

Figura 4.4: Opção de venda para K = 7, r = 5% e σ = 25%

123
As equações (4.17) e (4.25) fornecem os preços das opções Européias de compra e
venda, respectivamente para diferentes instantes de tempo antes do vencimento, em
função do preço do ativo subjacente dados os parâmetros da taxa livre de risco, volatil-
idade, e preço de exercı́cio.

Black e Scholes (1973) ressaltam que o modelo de equilı́brio pode ser usado para valorar
muitos problemas de apreçamento de ativos contingentes. Por exemplo, na valoração
do capital próprio de uma firma alavancada a posição dos acionistas equivale ao do
comprador de uma opção de compra e a dos credores equivale ao do vendedor desta
opção. Isto é, os acionistas tem o direito de comprar a firma novamente dos credores
pagando-lhes o valor de face da dı́vida.

A figura 4.3 mostra o gráfico de uma opção de compra para diferentes instantes antes do
vencimento e para a data do vencimento. Em outras palavras, apresentamos os gráficos
dos preços para τ = 0, τ = 1, τ = 1.5 e τ = 2. Observe que as condições de contorno
são atendidas para os preços tendendo a zero e ao infinito. A figura 4.4 mostra o caso
similar para o opção de venda considerando os mesmos valores de τ .

4.3 Modelo de Merton


A seção anterior apresentou os detalhes da derivação do modelo de Black e Scholes
(1973). Logo após a sua publicação, Robert C. Merton publicou seu artigo que, da
mesma forma, aborda o apreçamento de uma opção Européia, porém com um trata-
mento estocátisco para o comportamento da taxa de juros. Esta seção apresenta os
detalhes da derivação do modelo de Merton (1973) [73]. Além de relaxar a hipóstese do
comportamento da taxa de juros, Merton (1973) considera que o ativo subjacente paga
dividendos. Esta consideração será feita no próximo capı́tulo. Essencialmente trata-se
do mesmo problema e ao longo deste texto nos referiremos ao modelo de Black, Merton
e Scholes - BMS (em ordem alfabética) expressando indistintamente os resultados da
seção 4.2 e 4.3.

Seja c (St , Xt , t) o preço de uma opção de compra Européia, com preço de exercı́cio
K, no instante t. Considere que 0 ≤ t ≤ T e que, como anteriormente, τ = T − t é o
tempo remanescente para o vencimento. St representa o preço da ação no instante t e
Xt representa o preço de um tı́tulo da letra do tesouro. Novamente a dinâmica do preço
da ação St (que não paga dividendos) é dada pelo processo geométrico Browniano.
dSt
= µS dt + σS dBSt , t≥0 (4.29)
St
onde as considerações sobre os parâmetros são as mesmas já apresentadas na seção an-
terior.

Considere que as letras do tesouro Xt possuem a dinâmica definida pelo mesmo processo
e dado por
dXt
= µXt dt + σXt dBXt , t ≥ 0 (4.30)
Xt

124
onde os parâmetros de tendência (drift) e volatilidade são dependentes do tempo. Xt
representa o preço de um tı́tulo sem risco de crédito que no vencimento T = t, para
$1, ou seja, XT = 1 e nesta condição σXT = 0. O caso especial em que a taxa de juros
não é estocástica e constante ao longo do vencimento resulta em σXt = 0 e µXt = r,
consequentemente Pt = e−r(T −t) . O problema, neste caso, resume-se àquele estudado
por Black e Scholes (1973). As incertezas dos dois processos estão correlacionadas tal
que dBSt dBXt = ρdt.

Para tornar a notação menos onerosa abandonaremos o subscrito do tempo, então es-
crevemos c (S, X, t). Usando a fórmula de Itô podemos escrever

∂c ∂c ∂c 1 ∂ 2c 2 ∂2 1 ∂ 2c
dc = dS + dX + dt + 2
(dS) + dSdX + 2
(dX)2
∂s ∂x ∂t 2 ∂s ∂s∂x 2 ∂x
Inserindo na equação acima as definições de dS e dX das equações (4.29) e (4.30), temos

∂c ∂c ∂c
dc = (µS Sdt + σS SdBS ) + (µX Xdt + σX XdBX ) + dt
∂s ∂x ∂t
1 ∂ 2c ∂ 2c 1 2 2 ∂ 2c
+ σS2 S 2 2 dt + ρσS σX SX dt + σX X dt
2 ∂s ∂s∂x 2 ∂x2
Reagrupando os termos da equação acima, resulta em

∂c ∂c 1 2 2 ∂ 2 c ∂ 2c 1 2 2 ∂ 2c
 
∂c
dc = µS S + µX X + + σ S + ρσS σX SX + σ X dt
∂s ∂x ∂t 2 S ∂s2 ∂s∂x 2 X ∂x2
∂c ∂c
+ σS S dBS + σX X dBX
∂s ∂x
Podemos simplificadamente escrever que

dc
= βdt + γdBS + ηdBX (4.31)
c
onde:
∂c ∂c 1 2 2 ∂ 2 c ∂ 2c 1 2 2 ∂ 2c
 
1 ∂c
β= µS S + µX X + + σ S + ρσS σX SX + σ X
c ∂s ∂x ∂t 2 S ∂s2 ∂s∂x 2 X ∂x2
   
1 ∂c 1 ∂c
γ= σS S e η= σX X
c ∂s c ∂x
Considere agora um portfólio de valor Y com a seguinte composição: WS é o montante
investido na ação, WX é o montante investido na letra do tesouro e Wc o montante
investido na opção de compra. O total do investimento agregado é nulo e escrevemos

Y = WS + Wc + WX = 0 (4.32)

Considere que dY é o retorno do portfólio em moeda, então temos que

dS dc dX
dY = WS + Wc + WX
S c X
125
Fazendo uso da equação (4.32), escrevemos
dS dc dX
dY = WS + Wc − (WS + Wc )
S c X
Usando as equações (4.29), (4.30) e (4.31), temos
dY = WS (µS dt + σS dBS ) + Wc (βdt + γdBS + ηdBX ) − (WS + Wc ) (µX dt + σX dBX )
= [WS (µS − µX ) + Wc (β − µX )] dt + (σS WS + γWc ) dBS
+ [ηWc − σX (WS + Wc )] dBX
A condição de que o portfólio formado não seja estocástico requer que os coeficientes de
dBS e dBX sejam nulos. Por outro lado, o investimento inicial no portfólio é zero (con-
forme a equação (4.32)) e portanto para que seja atendida a condição de não arbitragem
o retorno em moeda do portfólio deve ser nulo (dY = 0). Estas condições permitem
escrever que
σS WS + γWc = 0
−σX WS + (η − σX ) Wc = 0 (4.33)
(µS − µX ) WS + (β − µX ) Wc = 0
As equações acima resolvidas para WS e Wc requerem para a solução não trivial que
WS γ σX − η β − µX
− = = = (4.34)
Wc σS σX µS − µX
γ η
A igualdade σS
=1− σX
resulta que
   
1 ∂c 1 ∂c
S =1− X
c ∂s c ∂x
ou ainda
∂c ∂c
c=S +X (4.35)
∂s ∂x
A outra igualdade de (4.34) é β − µX = σγS (µS − µX ) e resulta, usando as respectivas
definições, em

∂c ∂c 1 2 2 ∂ 2 c ∂ 2c 1 2 2 ∂ 2c
 
1 ∂c
µS S + µX X + + σ S + ρσS σX SX + σ X − µX
c ∂s ∂x ∂t 2 ∂s2 ∂s∂x 2 X ∂x2
1 ∂c
= S (µS − µX )
c ∂s
Trabalhando algebricamente a equação acima, resulta em
1 2 2 ∂ 2c ∂ 2c 1 2 2 ∂ 2c ∂c ∂c ∂c
σS S 2
+ ρσ σ
S X SX + σX X 2
+ µX S + µX X + = µX c (4.36)
2 ∂s ∂s∂x 2 ∂x ∂s ∂x ∂t
ou ainda usando o resultado em (4.35) no segundo membro da equação anterior

1 2 2 ∂ 2c ∂ 2c 1 2 2 ∂ 2c ∂c ∂c ∂c
σS S 2
+ ρσ S σX SX + σX X 2
+ µX S + µX X +
2 ∂s ∂s∂x 2 ∂x ∂s ∂x ∂t  
∂c ∂c
= µX S +X
∂s ∂x

126
Finalmente simplificando os termos de primeira ordem comuns do primeiro e segundo
membro, ficamos com

1 2 2 ∂ 2c ∂ 2c 1 2 2 ∂ 2 c ∂c
σS S + ρσ σ
S X SX + σ X + =0 (4.37)
2 ∂s2 ∂s∂x 2 X ∂x2 ∂t
Note que a equação (4.36) é a mesma equação de Black e Scholes (1973). Para verificar-
mos este fato basta considerarmos a taxa de juros determinı́stica e constante no tempo,
isto é, µX = r e σX = 0 com dX X
= rdt ou X = e−r(T −t) . Introduzindo estas alterações
em (4.36) obtemos a equação (4.12).

O modelo de Merton (1973) é uma generalização do modelo de Black e Scholes (1973),


que ao contrário deste último, considera a taxa de juros estocástica. A EDP (4.36)
juntamente com a condição terminal c (ST , 1, T ) = (ST − K)+ e a condição de contorno
c (0, Xt , t) = 0 definem o preço de uma opção de compra Européia.

4.4 Modelo de Margrabe


Margrabe (1978) analisou a opção de troca de uma ação por outra dentro das condições
estabelecidas para os modelos anteriores. Seja então X1t e X2t o preço de duas ações,
que não pagam dividendos, com as mesmas dinâmicas anteriores, então escrevemos
dXit
= µi dt + σi dBit t≥0 i = (1, 2) (4.38)
X it

onde µi ∈ R, σi ∈ R+ , ρdt = dB1t dB2t e 0 ≤ t ≤ T .

Seja h (X1t , X2t , t) a opção Européia de troca de um ativo por outro com vencimento
em t = T . O valor da opção nesta data será h (X1T , X2T , T ) = X1T − X2T . Como an-
teriormente, para tornar a notação mais simples, abandonaremos o subscrito do tempo.
Esta opção é simultaneamente uma opção de compra do ativo 1 (ativo subjacente) com
preço de exercı́cio X2T e uma opção de venda do ativo 2 (ativo subjacente) com preço
de exercı́cio X1T . Nesta situação, o dono desta opção somente exercerá o seu direito em
t = T quando for conveniente, ou seja

h (X1 , X2 , T ) = (X1 − X2 )+ (4.39)

Sendo h (X1 , X2 , t) podemos usar a fórmula de Itô e definir o valor de pequenas variações
do preço da opção dh

∂h ∂h ∂h ∂ 2h ∂ 2h ∂ 2h
dh = dX1 + dX2 + dt + 2 (dX1 )2 + 2 (dX2 )2 + (dX1 ) (dX2 )
∂x1 ∂x2 ∂t ∂x1 ∂x2 ∂x1 ∂x2
Substituindo as dinâmicas dos dois ativos, temos
∂h ∂h ∂h
dh = (µ1 X1 dt + σ1 X1 dB1 ) + (µ2 X2 dt + σ2 X2 dB2 ) + dt
∂x1 ∂x2 ∂t
1 ∂ 2h 1 ∂ 2h ∂ 2h
+ σ12 X12 2 dt + σ22 X22 2 dt + ρσ1 σ2 X1 X2 dt
2 ∂x1 2 ∂x2 ∂x1 ∂x2

127
Coletando os termos em dt, ficamos com

∂h 1 2 2 ∂ 2 h 1 2 2 ∂ 2 h ∂ 2h
 
∂h ∂h
dh = µ1 X1 + µ2 X2 + + σ1 X1 2 + σ2 X2 2 + ρσ1 σ2 X1 X2 dt
∂x1 ∂x2 ∂t 2 ∂x1 2 ∂x2 ∂x1 ∂x2
∂h ∂h
+ σ1 X1 dB1 + σ2 X2 dB2 (4.40)
∂x1 ∂x2
Vamos considerar um portfólio em que compramos uma opção h, vendemos δ1 ações ao
preço X1 e δ2 ações ao preço X2 . As quantidades δ1 e δ2 são escolhidas tal que o valor
do portfólio é zero
Π = h − δ1 X 1 − δ2 X 2
A variação do valor do porftólio dΠ em um pequeno intervalo de tempo dt é dada por
dΠ = dh − δ1 dX1 − δ2 dX2 (4.41)
Levando a equação (4.40) e (4.38) em (4.41) e trabalhando algebricamente, temos
   
∂h ∂h
dΠ = Λdt + σ1 X1 − δ1 σ1 X1 dB1 + σ2 X2 − δ2 σ2 X2 dB2
∂x1 ∂x2
onde
∂h ∂h ∂h 1 2 2 ∂ 2 h 1 2 2 ∂ 2 h
Λ = µ1 X1 + µ2 X2 + + σ 1 X1 2 + σ 2 X2 2
∂x1 ∂x2 ∂t 2 ∂x1 2 ∂x2
∂ 2h
+ ρσ1 σ2 X1 X2 − δ1 µ1 X1 − δ2 µ2 X2
∂x1 ∂x2
∂h ∂h
Para que o portfólio seja sem risco devemos ter simultaneamente δ1 = ∂x1
e δ2 = ∂x2
.
Levando estes valores na equação anterior, temos
∂h 1 2 2 ∂ 2 h 1 2 2 ∂ 2 h ∂ 2h
dΠ = + σ1 X1 2 + σ2 X2 2 + ρσ1 σ2 X1 X2
∂t 2 ∂x1 2 ∂x2 ∂x1 ∂x2
Como o valor do portfólio é nulo, o diferencial dΠ também será, caso contrário haveria
possibilidade de arbitragem. Então temos como resultado
∂h 1 2 2 ∂ 2 h 1 2 2 ∂ 2 h ∂ 2h
+ σ1 X1 2 + σ2 X2 2 + ρσ1 σ2 X1 X2 =0 (4.42)
∂t 2 ∂x1 2 ∂x2 ∂x1 ∂x2
A solução da equação desta EDP é dada por
h (X1t , X2t , t) = X1t N (d1 ) − X2t N (d2 ) (4.43)
onde:  
X1t
ln + 12 σ 2 (T − t)
X2t
d1 = √
σ T −t

d2 = d1 − σ T − t
σ 2 = σ12 + σ22 − 2ρσ1 σ2
A solução da EDP (4.42), apresentada em (4.43), será formalizada ao longo do texto
quando tratarmos da mudança de numerário.

128
4.5 Gregas
A dedução da EDP de apreçamento de uma opção de compra faz uso da condição de
que o risco do portfólio, formado pela compra de ∆ ações e venda de uma opção, é
∂c
eliminado. Para tal, o valor que ∆ assume deve ser igual a ∂X . Neste caso, em que o
portfólio não envolve risco, dizemos que se trata de uma posição delta-neutra. Então,
por inexistência de arbitragem, tal portfólio deve ser remunerado pela taxa livre de
risco. Como o preço do ativo subjacente altera a todo instante, o valor de ∆ deve ser,
da mesma forma, ajustado para que o portfolio mantenha a situação de neutralidade.
Este tipo de posicionamento, em que periodicamente deve-se ajustar (ou rebalancear) as
quantidades dos ativos na carteira, é chamado de proteção dinâmica (hedge dinâmico).

Convencionou-se denominar de gregras as sensiblidades de ct em relação às variáveis


do modelo. A sensibilidade mais relevante é exatamente em relação ao preço do ativo
∂c
subjacente: ∆ = ∂X = N (d1 ). Ela mede o quanto varia o preço da opção para $1 de
variação no ativo subjacente. O comportamento do preço de uma opção não é linear com
o preço do ativo subjacente. Isto significa que o ∆ varia com o preço S. A sensibilidade
∂∆ ∂2c
da variação de ∆ como o preço do ativo é denominado de gama: Γ = ∂X = ∂X 2 . O gama

representa a variação do delta para alterações de $1 no preço do ativo. A sensibilidade


∂c
do preço da opção em relação a volatilidade é denominada vega: V ega = ∂σ . Representa
a variação do preço da opção para alteração de 0.01 (1%) na volatildade. Em geral o
preço da opção decresce à medida que se aproxima o vencimento. A sensibilidade do
preço da opção em relação ao tempo é denominado de teta: Θ = ∂c ∂t
. A sensibilidade em
∂c
relação à taxa livre de risco r é denominada de rô: ρ = ∂r . Pode-se derivar analitica-
mente as expressões para cada uma das gregas a exemplo do que foi feito para o delta
∆ da opção de compra. O exercı́cio seguinte solicita estas derivações.
Exercı́cio 4.6. Demonstre as expressões analı́ticas para as gregas de uma opção de
compra de acordo com as definições desta seção:
∂∆ N 0 (d1 )
(i) Γ = = √ (4.44)
∂X Xσ τ
∂c √
(ii) V ega = = XN 0 (d1 ) τ (4.45)
∂σ
∂c 1 σXN 0 (d1 )
(iii) Θ = =− √ − rKe−rτ N (d2 ) (4.46)
∂t 2 τ
∂c
(iv) ρ = = τ Ke−rτ N (d2 ) (4.47)
∂r
Exercı́cio 4.7. Repita o exercı́cio anterior para uma opção de venda Européia.
Exercı́cio 4.8. Considere um portfólio Π formado pela compra de ∆ ações e a venda de
uma opção. Faça este portfólio delta-neutro, em particular considere que ∆ = 0. Mostre
que 12 σ 2 X 2 Γ = rc − Θ.
Exercı́cio 4.9. Na situação do exercı́cio 4.8 mostre que Π = Ke−r(T −t) N (d2 ).
Exercı́cio 4.10. Mostre que a variação percentual do preço de uma opção de compra é
maior que a variação percentual do preço da ação, dcc > dX
X
.

129
4.6 Volatilidade implı́cita
Anteriormente foi visto que o cálculo do preço de uma opção Européia em um instante t
é função do valor da ação em t, do preço de exercı́cio K, do tempo remanescente para o
vencimento τ = T − t, da taxa livre de risco r e da volatilidade σ. Todas estas variáveis
são facilmente observáveis, exceto a volatilidade que não é observada diretamente. Por-
tanto a volatilidade deve ser estimada. A figura 4.5 mostra o comportamento do Vega
da opção para diferentes instantes antes do vencimento. Devido a relação de paridade
é fácil concluir que os Vegas de uma opção de compra e venda são os mesmos (veja
equação (4.2) e exercı́cios 4.6 e 4.7). Pode-se notar que o preço de uma opção é bastante
sensı́vel à volatilidade, principalmente quando o preço está próximo de K (a opção está
no dinheiro). Desta forma, justifica-se a importância de uma estimação acurada para
volatilidade no apreçamento de opções.

Uma maneira simples é estimar a volatilidade histórica a partir da série de log-retornos.

Figura 4.5: Comportamento do Vega com o preço do ativo (K = 7, r = 5% e σ = 25%)

Por outro lado, vemos que o Vega é estritamente positivo. Sempre que uma função é
estritamente monótona em relação a uma variável podemos invertê-la nesta variável.
Assim, com base no modelo de BMS e usando as cotações das opções fornecidas pelo
mercado, podemos obter a volatilidade. Neste caso a volatilidade é denominada volatil-
idade implı́cita. Em suma, a patir do modelo de BMS pode-se extrair a volatilidade a
partir dos preços das opções, pois há uma relação biunı́voca entre o preço da opção e a
volatilidade. A relação biunı́voca entre o preço da opção e a volatilidade implı́cita tem
importantes implicações práticas. O mercado é indiferente entre negociar opções com
base nas suas cotações de preços ou com base nas volatilidades implı́citas calculadas pelo
modelo de BMS e visualizada pelos agentes negociadores simultaneamente aos preços.

Se calcularmos volatilidade implı́cita para diferentes preços de exercı́cios com mesma


maturidade (e as demais variáveis constantes), observaremos que o valor da volatilidade
não é o mesmo. Ou seja, σ̂ (K1 , Xt , r, τ, c1 ) 6= σ̂ (K2 , Xt , r, τ, c2 ) onde c1 e c2 são as

130
cotações das opções para os preços de exercı́cios K1 e K2 , respectivamente. Isto sig-
nifica que empiricamente não se observa aquilo que o modelo de BMS prevê. Uma das
razões para este comportamento é a hipótese do modelo que assume que volatilidade
é constante durante todo o perı́odo até o vencimento. De fato, o comportamento da
volatilidade está muito distante desta consideração. No capı́tulo 2 foi visto que um fato
estilizado das séries financeiras é a presença de aglomerados de volatilidade. Isto sig-
nifica que há momentos em que a volatilidade permanece mais elevada e há outros em
que é mais baixa. Há diversos modelos econométricos que buscam modelar a volatilidade
capturando este e outros fatos estilizados. Os mais conhecidos e muito usuais na liter-
atura econométrica são os modelos da famı́lia GARCH. Veja a seção 2.6 onde tratamos
os modelos GARCH lineares e não lineares. Por exemplo, a consideração da volatilidade
variando no tempo acarreta um comportamento da distribuição de retornos distinto
daquele do modelo de BMS. Por este último, a distribuição dos retornos é normal (ob-
serve o lado direito da equação (4.4)). Entretanto a distribuição empı́rica dos retornos
possui caudas mais pesadas que a normal. Os modelos que consideram a volatilidade
variando no tempo buscam capturar o efeito destas caudas pesadas. Os modelos que
incluem a componente de salto na dinâmica do preço do ativo também reproduzem bem
este efeito. Em particular o modelo de Heston (1993) [51] busca retratar o comporta-
mento incerto da volatilidade modeladando-a como estocástica. Isto é, a volatilidade é
tratada por um processo estocástico, constituindo o que se denomina na literatura de
finanças de modelo de dois fatores (ou dois fatores estocásticos: um para os preços e
outro para a volatilidade). Este modelo tem uma solução semi-analı́tica baseada em
integrais que podem ser resolvidas numericamente. A maior dificuldade de lidar com
este modelo é a sua calibração (ou estimação dos parâmetros do modelo). Todas estas
considerações de volatilidade variando no tempo buscam explicar este interessante com-
portamento da volatilidade implı́cita extraı́da do modelo de BMS, que é denominado
volatilidade smiles.

O modelo de BMS considera que a distribuição dos retornos é normal. Entretanto


os dados empı́ricos mostram que esta distribuição tem excesso de curtose. Quando, por
exemplo, o preço de exercı́cio é muito alto e a opção de compra está fora do dinheiro, a
probabilidade de seu exercı́cio é pequena. Mas a distribuição empı́rica (com caudas pe-
sadas) fornecerá uma probabilidade de exercı́cio mais elevada que aquela da distribuição
normal. Esta maior probabilidade implicará em um maior preço para a opção e conse-
quentemente uma volatilidade implı́cita (calculada por BMS) maior que a real. Vejamos
agora o que ocorre para uma opção de venda fora do dinheiro (preço de exercı́cio é muito
baixo). Novamente devido ao excesso de curtose a probabilidade de exercı́cio oriunda
da distribuição empı́rica será maior que a da distribuição normal. Decorre que o preço
calculado para a opção deve ser maior que aquele previsto pelo modelo de BMS. Se us-
armos este modelo para o cálculo da volatilidade implı́cita, obteremos uma volatilidade
mais elevada que a volatilidade real.

Portanto, calculando a volatilidade implı́cita através do modelo de BMS o seu com-


portamento será tipicamente aquele retratado na figura 4.6. Neste gráfico vemos que
a volatilidade é maior nas regiões onde o preço de exercı́cio é mais elevado e também
mais baixo. Este gráfico é conhecido como volatilidade smile ou smirk dependendo do

131
formato da curva. Há evidências que este comportamento antes do crash de 1987 era
simétrico, daı́ o nome smile. Após o crash o comportamento da volatilidade implı́cita é
mais adequadamente representado pelo gráfico da figura 4.6. Justifica-se tal mudança
devido ao aumento da aversão ao risco dos investidores que passaram a demandar maior
retorno face a queda dos preços. Se tal comportamento irá modificar-se (ou mostrar-se
mais pronunciado) devido a crise de 2008 ainda é um fato não identificado empirica-
mente, porém qualquer alteração certamente será motivo de publicações acadêmicas.

O comportamento assimétrico (skew ) da volatilidade reflete um fato estilizado que o


modelo de BMS não captura adequadamente. Este efeito assimétrico também é con-
hecido como efeito alavanca e é devido a Black (1976) [8]. Veja na seção 2.6.2 a sua
explicação. Em suma, o efeito alavanca retrata o fenômeno de que a volatilidade é maior
para choques negativos nos preços. Isto significa que para dois choques (de mesma mag-
nitude) um positivo e outro negativo (queda nos preços), a volatilidade subsequente
será maior no segundo caso. Em outras palavras, para situações de queda de preços
a percepção de risco dos agentes torna-se mais aguda e consequentemente os mesmos
demandarão maiores retornos, justificando assim a assimetria mostrada na figura 4.6.

Dentro deste mesmo enfoque podemos estimar a densidade implı́cita, ou neutra ao risco,
a partir dos preços das opções para diferentes preços de exercı́cio. Este resultado é devido
a Breeden e Litzenberger (1978) [14], voltaremos e este tópico o capı́tulo 6.

Figura 4.6: Volatilidade implı́cita - gráfico smirk

4.7 Resumo e considerações adicionais


Este capı́tulo foi dedicado ao desenvolvimento do modelo de Black, Merton e Scholes
tal qual foi originalmente apresentado em 1973, que convencionamos denominar de
metodologia de apreçamento pela abordagem clássica. Primeiramente apresentamos
o conceito básico de não arbitragem. Esta consideração é fundamental no apreçamento

132
de derivativos financeiros seja pela metodologia clássica seja pela consideração da pro-
priedade martingal. Voltaremos a este ponto no capı́tulo seguinte. Em seguida fizemos
a primeira aplicação deste conceito mostrando a paridade entre as opções de compra e
venda do tipo Européia. A paridade de opções é um exemplo clássico de uma proteção
estática (hedge estático). Isto significa que toma-se a posição de compra de uma ação
e de uma opção de venda e a posição de venda de uma opção de compra; o portfólio
assim permance sem risco, o seu valor é Ke−r(T −t) e altera-se tão somente pelo decorrer
do tempo.

Fizemos então a derivação do modelo de Black e Scholes (1973). A metodologia clássica


considera a derivação deste modelo a partir da formação de um portfólio com posição
comprada em ∆ ações e posição lançadora em uma opção de compra. O risco deste
∂c
portfólio é eliminado fazendo ∆ = ∂X . Esta é uma proteção dinâmica (hedge dinâmico).
Isto significa que o portfólio deve ser rebalanceado sempre que houver alguma alteração
em X (consequentemente também c alterará). Se não há risco no portfólio ele deve ser
remunerado pela taxa livre de risco para satisfazer a condição de não arbitragem no
mercado. Obtém-se desta forma a EDP
∂c ∂c 1 2 2 ∂ 2 c
+ rX + σ X = rc
∂t ∂x 2 ∂x2
Esta EDP é do tipo parabólico e pode ser reduzida, por transformação de variáveis, na
clássica EDP da difusão do calor, cuja solução é bem conhecida, dadas as condições de
contorno.

Fizemos em seguida a derivação do modelo de Merton (1973) que considera a esto-


casticidade da taxa de juros. Derivamos também o modelo de Margrabe (1978) que
trata da opção de troca entre dois ativos com risco, dentro da mesma abordagem dos
modelos anteriores.

Mostramos as análises de sensiblidades do valor da opção em relação as variáveis en-


volvidas, o que na literatura é conhecido por Gregas. Posteriormente apresentamos o
conceito de volatilidade implı́cita e algumas limitações do modelo de BMS. A dinâmica
do ativo subjacente no modelo de BMS considera que a volatilidade é constante durante
todo o perı́odo do vencimento (veja a equação (4.4)) sendo a distribuição dos preços log-
normal e a de retornos normal. Empiricamente este fato não é observado e a distribuição
dos retornos possue excesso de curtose. Modelos alternativos para a evolução dos preços
podem ser usados para modelar as caudas pesadas. Por exemplo, considera-se como
processo de preços aqueles com volatilidade variando no tempo (volatilidade GARCH
ou volatilidade estocástica) ou ainda processos que contêm uma componente adicional
representando a presença de saltos. Trataremos dos processos com saltos em capı́tulos
posteriores.

Finalmente apresentamos, no Apêndice abaixo, todos os detalhes da solução da EDP do


modelo de BMS usando a solução da equação do calor. Da mesma forma, a equação do
calor foi resolvida usando a transformada de Fourier. Procuramos evidenciar todas as
etapas envolvidas na solução do problema e separamos o desenvolvimento das mesmas
em subseções por razões didáticas. Reconhecemos que para enfrentar esta parte do texto

133
é necessário coragem, não obstante entendemos que é um esforço válido.

O leitor deve ter observado a ênfase deste texto nos fundamentos das metodologias de
apreçamento. Reservamos para tal este e os dois próximos capı́tulos. Estas metodolo-
gias constituem a essência da moderna teoria de finanças e são fundamentais para
o apreçamento de derivativos, de forma geral. Como ressalta Duffie (2001) [28], o
apreçamento de derivativos tem seu núcleo fundamental desenvovido na chamada “década
dourada dos derivativos” cobrindo o perı́odo de 1969 a 1979. Portanto, entendemos que
é justificável todo o esforço despendido neste sentido e encorajamos o leitor a seguir na
leitura do Apêndice e dos capı́tulos seguintes.

4.8 Apêndice - Solução da EDP de BMS


O objetivo deste Apêndice é mostrar todos os detalhes da resolução da EDP (4.12)
(ou (4.13)) juntamente com as condições iniciais e de contorno. Este detalhamento é
pouco usual em livros textos não somente pela aridez algébrica envolvida como pelo
espaço que demanda. Vamos tentar ser breves mantendo a riqueza de detalhes para
o completo entendimento da solução. O Apêndice está dividido em quatro seções. A
primeira apresenta os detalhes da transformação da EDP de BMS para a forma básica
da equação do calor. A seguir usamos a solução da equação do calor para mostramos
a solução da EDP de BMS (equação (4.18)). Entretanto a solução da equação do calor
não é usual para a maiorida dos leitores, portanto decidimos apresentá-la. Porém,
primeiramente precisamos de um outro conceito que é a transformada de Fourier. A
segunda seção apresenta os conceitos básicos da transformada de Fourier e a terceira
seção faz uso destes conceitos na solução da equação do calor. A quarta seção demonstra
alguns resultados que se fazem necessários para a penúltima seção.

4.8.1 Solução da EDP de BMS


A EDP de BMS é uma equação diferencial parcial do tipo parabólica. O preço da
opção é função do preço do ativo subjacente e do tempo dados os demais parâmetros,
escrevemos então c (St , t; σ, K, r). Para tornar clara a notação iremos usar que St = s
destacando a diferença entre a variável aleatória St e o valor que esta variável assume
s. Então escreveremos c (s, t). Esta função c (s, t) é a solução da seguinte EDP com
condição final e de contorno dadas por

∂c ∂c 1 2 2 ∂ 2 c
+ rS + σ S = rc (4.48)
∂t ∂s 2 ∂s2
ou em forma mais abreviada
1
ct (s, t) + rScs (s, t) + σ 2 S 2 css (s, t) = rc (s, t) (4.49)
2
onde S ≥ 0 e 0 ≤ t < T . As condições de contorno são definidas abaixo.

Quando o preço atinge St = 0, os preços subsequentes do ativo serão zero pois trata-se

134
de uma barreira de absorção do processo geométrico Browniano. Entretanto para sermos
consistente com a transformação utilizada abaixo, usaremos a condição St → 0

lim c (s, t) = 0 t ∈ [0, T ) (4.50)


s→0

Quando o preço da ação cresce indefinidamente, o mesmo ocorre com o preço da opção

lim c (s, t) = s t ∈ [0, T ) (4.51)


s→∞

A condição terminal, quando t → T , é dada por

lim c (s, t) = (ST − K)+ (4.52)


t→T

Vamos fazer a primeira mudança de variáveis e transformar o problema escrito em termos


de c (s, t) para f (x, τ ). A primeira variável preço será assim transformada

s = Kex (4.53)

onde −∞ < x < ∞. A razão para tal transformação é simples. Na equação (4.48) a
potência da variável S é a mesma da ordem é a mesma da ordem do respectivo diferencial.
O fator de escala K considerado será eliminado em breve. E tomando a derivada temos
ds dx 1
= Kex ⇒ = e−x (4.54)
dx ds K
Adotamos neste texto a definição de que a variável τ representa o tempo remanescente
para o vencimento. Exclusivamente neste Apêndice vamos fazer uma ligeira mudança
nesta definição. Assim definiremos τ
1
τ = σ 2 (T − t) (4.55)
2
onde 0 ≤ t < T e consequentemente 0 < τ ≤ 21 σ 2 T . A razão para está transformação
é simples. Em primeiro desejamos transformar a condição terminal em condição ini-
cial. Em segundo lugar, usando o fator de escala 21 σ 2 ele poderá ser eliminado da
equação (4.48). Tomando a derivada temos
dτ 1
= − σ2 (4.56)
dt 2
A função f (x, τ ) mapeará a função c (s, t) da seguinte forma

c (s, t) = Kf (x, τ ) (4.57)

Usando o fator de escala K poderemos eliminá-lo do problema pois ele foi igualmente
incluı́do na equação (4.53).

∂c ∂c ∂2c
Agora necessitamos das derivadas , e
para introduzı́-las na EDP (4.48)
∂t ∂s ∂s2
 
∂c ∂f ∂τ ∂f 1 2 1 ∂f
=K =K − σ = − σ2K (4.58)
∂t ∂τ ∂t ∂τ 2 2 ∂τ

135
 
∂c ∂f ∂x ∂f 1 −x ∂f
=K =K e = e−x (4.59)
∂s ∂x ∂s ∂x K ∂x
Iremos usar o resultado da equação acima para o cálculo da segunda derivada

∂ 2c
 
∂ −x ∂f
= e
∂s2 ∂s ∂x
 
−x dx ∂f −x ∂ ∂f
= −e +e
ds ∂x ∂s ∂x
−x
e ∂f ∂ 2 f ∂x
= −e−x + e−x 2
K ∂x ∂x ∂s
e−2x ∂f e−2x ∂ 2 f
=− + (4.60)
K ∂x K ∂x2
Levando os resultados das equações (4.58), (4.59) e (4.60) na equação (4.48) e fazendo
as simplificações, teremos

1 2 ∂ 2f
 
1 2 ∂f 1 2 ∂f
σ + r − σ − σ − rf = 0
2 ∂x2 2 ∂x 2 ∂τ
2
Se fizermos r = k σ2 , então a equação acima pode ser escrita como

∂ 2f ∂f ∂f
2
+ (k − 1) − − kf = 0
∂x ∂x ∂τ
Ou ainda podemos escrever

∂f ∂ 2f ∂f
= 2
+ (k − 1) − kf (4.61)
∂τ ∂x ∂x
Agora que transformamos a EDP original em outra EDP em termos de x e τ , precisamos
também modificar as condições de contorno originais de acordo com a transformação
acima. Assim escrevemos que em t = T ⇒ τ = 0 e então a definição (4.57) c (s, t) =
Kf (x, τ ) tornar-se-á c (s, T ) = Kf (x, 0). Um pouco mais além, temos que

c (s, T ) = Kf (x, 0) = max (S − K, 0)


= Kf (x, 0) = max (Kex − K, 0) = K max (ex − 1, 0)
f (x, 0) = (ex − 1)+ (4.62)

Esta última equação é a condição inicial do problema em termos de f (·). O que fizemos
foi transformar uma equação diferencial do tipo backward em outra do tipo forward.
Neste caso estabelecemos a condição inicial em τ = 0 e procedemos a solução para val-
ores maiores que zero.

Vamos fazer uma nova transformação na EDP (4.61). Escreveremos a EDP, que está
escrita em termos de f (x, τ ), em termos de u (x, τ ), obedecendo o seguinte mapeamento
de uma função em outra
f (x, τ ) = eαx+βτ u (x, τ )

136
onde α e β serão definidos posteriormente. Vejamos primeiramente a condição inicial
em termos de u (·),

f (x, 0) = eαx u (x, 0) ⇒ u (x, 0) = e−αx f (x, 0) (4.63)


∂2f
Novamente necessitamos das derivadas ∂f , ∂f e
∂τ ∂x ∂x2
para obtermos a EDP em termos
de u (·). Trabalhano algebricamente, temos que
 
∂f ∂u αx+βτ ∂u
= βeαx+βτ u (x, τ ) + e = eαx+βτ βu + (4.64)
∂τ ∂τ ∂τ
 
∂f ∂u αx+βτ ∂u
= αeαx+βτ u (x, τ ) + e =eαx+βτ
αu + (4.65)
∂x ∂x ∂x
∂ 2f 2 αx+βτ αx+βτ ∂u αx+βτ ∂u
2
αx+βτ ∂ u
= α e u (x, τ ) + αe + αe + e
∂x2 ∂x ∂x ∂x2
2
 
∂u ∂ u
= eαx+βτ α2 u + 2α + (4.66)
∂x ∂x2
Inserindo estas derivadas na equação (4.61), cancelando os termos exponenciais e agru-
pando os termos similares, obtemos a seguinte EDP

∂u ∂ 2u ∂u
= 2
+ (2α + k − 1) + [(α + k) (α − 1) − β] u
∂τ ∂x ∂x
Impondo a condição de que os coeficientes dos dois últimos termos do segundo membro
são nulos, obtemos

(α + k) (α − 1) − β = 0 ⇒ β = α2 + α (k − 1) − k (4.67)
1
2α + k − 1 = 0 ⇒ α = − (k − 1) (4.68)
2
ou ainda
1 1
1−α=1+ (k − 1) = (k + 1) (4.69)
2 2
Inserindo (4.68) em (4.67) teremos β
1 1 1
β= (k − 1)2 − (k − 1)2 − k ⇒ β = − (k + 1)2 (4.70)
4 2 4
Agora temos as definições de α e β em termos de k nas equações (4.68) e (4.70). Incluindo
estes resultados na relação entre as funções f (·) e u (·), obtemos
1 1 2
f (x, τ ) = e− 2 (k−1)x− 4 (k+1) τ u (x, τ )

A EDP final será


∂u ∂ 2u
= −∞<x<∞ e τ >0 (4.71)
∂τ ∂x2
De volta à condição inicial na equação (4.63), temos que

u (x, 0) = e−αx f (x, 0)

137
Usando a equação (4.62) nesta última, temos que

u (x, 0) = e−αx max (ex − 1, 0)


= max e(1−α)x − e−αx , 0


Usando as equações (4.69) e (4.68) nesta última equação, ficamos com


 1 1

(k+1)x (k−1)x
u (x, 0) = max e 2 −e 2 ,0 (4.72)

Podemos então reescrever o problema da seguinte forma

∂u ∂ 2u
= −∞<x<∞ τ >0
∂τ ∂x2
(4.73)
 1 1

(k+1)x (k−1)x
u (x, 0) = φ (x) = max e 2 −e 2 ,0

O problema descrito em (4.73) é a clássica equação de difusão do calor. Desta forma


concluı́mos a primeira parte de nosso problema, qual seja, reduzir a EDP de BMS na
forma da equação do calor. Agora iremos aplicar a solução desta última ao nosso prob-
lema de finanças.

A solução da equação (4.73) é dada por


Z ∞
1 (x−y)2
u (x, τ ) = √ φ (y) e− 4τ dy
4πτ −∞

A solução da equação do calor pode ser vista com detalhes em Brown e Churchill (1978)
[18], dentre outros. Na seção 4.8.3 deste Apêndice apresentamos a solução da equação do
calor usando a transformada de Fourier. Considerando que a solução da equação (4.73)
seja conhecida, o restante do trabalho é o cálculo da integral acima, o qual depende so-
mente de esforço algébrico. Depois de resolvida a integral e encontrarmos u (·), voltare-
mos à função f (·) e em seguida à c (s, t), completando assim o trabalho.

Vamos observar a função φ (y) acima:


 1 1

φ (y) = max e 2 (k+1)y − e 2 (k−1)y , 0 (4.74)

1 1 1 1
Note que φ (y) = e 2 (k+1)y − e 2 (k−1)y se e 2 (k+1)y − e 2 (k−1)y ≥ 0. Assim podemos escrever

1 1 1 1
e 2 (k+1)y − e 2 (k−1)y ≥ 0 ⇔ (k + 1) y ≥ (k − 1) y
2 2
Em consequência k + 1 ≥ k − 1 desde que tenhamos y > 0. Assim, tomando a integral
acima para valores positivos de y, escrevemos
Z ∞
1 (x−y)2
u (x, τ ) = √ φ (y) e− 4τ dy
4πτ 0

138
Para resolver esta integral vamos fazer a seguinte mudança de variável
y−x √ √
w= √ ⇒ y = 2τ w + x ⇒ dy = 2τ dw

Introduzindo estas definições na integral acima obtemos sucessivamente
1
Z ∞ √  w2 √
u (x, τ ) = √ φ 2τ w + x e− 2 2τ dw
4πτ − √x2τ
1
Z ∞ √  w2
=√ φ 2τ w + x e− 2 dw
2π − √x2τ
Z ∞  √ √
1 1 1
 w2
=√ e 2 (k+1)( 2τ w+x) − e 2 (k−1)( 2τ w+x) e− 2 dw
2π − √x2τ

Vamos separar esta última integral em duas, denominadas de I1 e I2 , ou seja


Z ∞ √
Z ∞ √
1 1
( ) w2 1 1 w2
u (x, τ ) = √ e2 (k+1) 2τ w+x −
e 2 dw − √ e 2 (k−1)( 2τ w+x) e− 2 dw
2π − √x2τ 2π − √x2τ
= I1 − I2

onde:
Z ∞ √
1 1 1 2
2τ w− w2
I1 = √ e 2 (k+1)x+ 2 (k+1) dw
2π − √x

Z ∞ √
1 1 1 2
2τ w− w2
I2 = √ e 2 (k−1)x+ 2 (k−1) dw
2π − √x

Vamos resolver a integral I1 . Somando e subtraindo o termo 41 (k + 1)2 2τ ao exponte


do integrando, temos
1 1 (k+1)x ∞ − 12 (−(k+1)√2τ w+w2 + 14 (k+1)2 2τ − 14 (k+1)2 2τ )
Z
I1 = √ e 2 e dw
2π − √x
Z 2τ √
1 1 (k+1)x ∞ − 12 w− (k+1)2 2τ 2 1 (k+1)2 τ
 
= √ e2 e e4 dw
2π − √x


1 1 (k+1)x 1 (k+1)2 τ ∞ − 21 w− (k+1)2 2τ 2
Z  
= √ e2 e4 e dw
2π − √x

Vamos fazer mais uma mudança de variável na qual



(k + 1) 2τ
z=w− ⇒ dz = dw
2
Denominando o limite inferior de integração w = − √x2τ por −d1 , teremos

x (k + 1) 2τ
−d1 = − √ −
2τ 2

139
Podemos escrever Z ∞  
1
(k+1)x 1 1
(k+1)2 τ
2
− z2
I1 = e 2e 4 √ e dz
2π −d1
O termo entre parênteses representa a área sob a distribuição normal padrão entre −d1
e ∞. E pela simetria da distribuição normal, esta área é a mesma que aquela entre
−∞ e d1 , que chamaremos de N (d1 ), onde N (·) é a função distribuição cumulativa da
normal padronizada. Em resumo temos que
1 1 2
I1 = e 2 (k+1)x e 4 (k+1) τ N (d1 ) (4.75)

onde √
x (k + 1) 2τ
d1 = √ + (4.76)
2τ 2
O cálulo de I2 é feito de maneira similar
Z ∞ √
1 1 1 w2
I2 = √ e 2 (k−1)x+ 2 (k−1) 2τ w− 2 dw
2π − √x2τ
1 1 (k−1)x ∞ − 21 (w2 −(k−1)√2τ w)
Z
= √ e2 e dw
2π − √x

Completando o quadrado perfeito no exponencial do integrando, temos


1 1 (k−1)x ∞ − 12 (w2 −(k−1)√2τ w+ 14 (k−1)2 2τ − 14 (k−1)2 2τ )
Z
I2 = √ e 2 e dw
2π − √x


1 1 (k−1)x+ 1 (k−1)2 τ ∞ − 12 w− (k−1)2 2τ 2
Z  
= √ e2 4 e dw
2π − √x


Como anteriormente faremos a seguinte mudança

de variável z = w − (k−1)2 2τ
. O limite
(k−1) 2τ
inferior de integração será −d2 = − √x2τ − 2
. Então podemos escrever

1 1 (k−1)x+ 1 (k−1)2 τ ∞ − z2
Z
I2 = √ e 2 4 e 2 dz
2π −d2
 Z ∞ 
1
(k−1)x+ 1
(k−1)2
τ 1 − z2
= e2 4 √ e 2 dz
2π −d2
O termo entre parênteses é a área sob a distribuição normal padronizada entre −d2 e
∞. Pela simetria da distribuição normal esta área é mesma que aquela entre −∞ e d2 .
Então temos
1 1 2
I2 = e 2 (k−1)x+ 4 (k−1) τ N (d2 ) (4.77)
onde √
x (k − 1) 2τ
d2 = √ + (4.78)
2τ 2
Havı́amos estabelecido anteriormente que u (x, τ ) = I1 − I2 . Usando os resultados obti-
dos, chegamos a
1 1 2 1 1 2
u (x, τ ) = e 2 (k+1)x e 4 (k+1) τ N (d1 ) − e 2 (k−1)x+ 4 (k−1) τ N (d2 )

140
Agora devemos proceder o caminho de volta encontrando as funções f (·) e c (·). Havı́amos
definido a relação entre f (·) e u (·). Usando o resultado acima de u (·) obtemos suces-
sivamente para os seguintes resultados para f (·):
1 1 2
f (x, τ ) = e− 2 (k−1)x− 4 (k+1) τ u (x, τ )
 1 
− 12 (k−1)x− 41 (k+1)2 τ (k+1)x 14 (k+1)2 τ 1
(k−1)x+ 14 (k−1)2 τ
=e e 2 e N (d1 ) − e 2 N (d2 )
= ex N (d1 ) − e−τ k N (d2 ) (4.79)

De acordo com a nossa definição prévia em (4.53) s = Kex , então x = ln Ks . Da mesma




forma, de (4.55) podemos escrever que −τ k = − (T − t) 12 σ 2 k = −r (T − t). Usando a


definição em (4.57) em que c (s, t) = Kf (x, t), a equação (4.79) pode ser escrita por
 s

c (s, t) = K eln( K ) N (d1 ) − e−r(T −t) N (d2 )
= sN (d1 ) − Ke−r(T −t) N (d2 )

Para d1 temos sucessivamente que



x (k + 1) 2τ
d1 = √ +
2τ 2
 2

ln Ks + r + σ2 (T − t)

= √
σ T −t
Para d2 temos sucessivamente que

x (k − 1) 2τ
d2 = √ +
2τ 2
x + (k − 1) τ
= √

s
  σ2

ln K + r − 2 (T − t)
= √
σ T −t

= d1 − σ T − t

Lembrando que a variável s representa o preço da ação St , temos finalmente que

c (St , t) = St N (d1 ) − Ke−r(T −t) N (d2 ) St > 0 0≤t<T (4.80)

onde  
St 2
+ r + σ2 (T − t)

ln K √
d1 = √ d2 = d1 − σ T − t
σ T −t
Note que a equação (4.80) não é definida em t = T (ou τ = 0), pois este termo aparece
no denominador de d1 . Podemos dizer o mesmo com relação a validade de (4.80) em
St = 0, que é um argumento da função log. Entretanto c (St , t) está definida tal que
limt→T c (St , t) = (St − K)+ e limSt →0 c (St , t) = 0.

141
4.8.2 Transformada de Fourier
Na seção anterior resolvemos a equação do modelo de BMS reduzindo-a à forma da
equação do calor e usando a solução desta última. Agora o objetivo é mostrar a validade
do que fizemos resolvendo a equação do calor. Usaremos a transformada de Fourier para
resolver a equação do calor. Esta seção mostra alguns conceitos básicos da transformada
de Fourier. Exitem vários textos dedicados ao assunto, dentre os quais Iório e Iório
(2001) [56], Oliveira e Tygel (2005) [81] e Kreyszig (2007) [66].

Definição 4.2. (Transformada de Fourier) Seja f (x) uma função real definida em
−∞ < x < ∞, definimos a transformada de Fourier F [f (x)] pela integral
Z ∞
ˆ 1
F [f (x)] = f (ξ) = √ f (x) e−iξx dx (4.81)
2π −∞
desde que tal integral exista.

Definiçãoh 4.3. i(Transformada de Fourier inversa) Definimos a transformada in-


versa F−1 fˆ (ξ) pela integral
Z ∞
h i 1
F −1
fˆ (ξ) = f (x) = √ fˆ (ξ) eiξx dξ (4.82)
2π −∞

Para detalhes sobre as classes de funções para as quais existem a transformada e sua
inversa, sugerimos os textos apontados acima.

Definição 4.4. (Derivadas da transformada) Pode-se facilmente mostrar que as


derivadas das transformadas de Fourier são dadas por

fˆ0 (x) = −iξ fˆ (x) fˆ00 (x) = −ξ 2 fˆ (x) e fˆ(n) (x) = (−iξ)n fˆ (x) n = 1, 2, . . . (4.83)

Teorema 4.1. (Teorema da integral de Fourier) Seja f (x) uma função contı́nua
definida em um intervalo finito. ConsidereRque em cada ponto f (x) tem derivadas à

esquerda e direita. Suponha que a integral −∞ |f (x) |dx exista. Então f (x) pode ser
escrita usando a integral de Fourier
Z ∞
f (x) = [A (λ) cos (λx) + B (λ) sen (λx)] dλ −∞<x<∞ (4.84)
0

onde: Z ∞
1
A (λ) = f (y) cos (λy) dy
π −∞
Z ∞
1
B (λ) = f (y) sen (λy) dy
π −∞

e se f (x) não é contı́nua


 em x0 −ovalor da integral de Fourier é a média dos limites de
ambos os lados 12 f x+

0 + f x0 .

O uso do teorema 4.1 na solução desta EDP pode ser visto em Baidya e Castro
(1992) [3].

142
4.8.3 Solução da equação do calor
Nesta seção iremos resolver a equação do calor com o uso da transformada de Fourier
usando algumas definições da seção anterior. Ao longo da resolução iremos nos deparar
com alguns resultados que necessitam demonstração. Por isto preferimos deixá-los para
a próxima seção.

Definição 4.5. (Equação do calor em uma barra finita) Seja u (x, τ ) a temperatura
no ponto x em uma barra de seção reta constante e material homogêneo de tamanho l no
instante τ . A equação de difusão do calor, que flui unicamente na direção x, é definida
por
∂u (x, τ ) ∂ 2 u (x, τ )
= Kc2 τ >0 0<x<l (4.85)
∂τ ∂x2
a temperatura inicial (ou condição inicial) é definida pela função φ (x) tal que

u (x, 0) = φ (x) 0<x<l (4.86)


L
e as condições de contorno são u (0, τ ) = u (l, τ ) = 0, onde Kc2 = δκ sendo L a condu-
tividade térmica, δ o calor especı́fico e κ a massa especı́fica do material.

Definição 4.6. (Equação do calor em uma barra infinita) Seja u (x, τ ) a temper-
atura no ponto x em uma barra infinita de seção reta constante e material homogêneo,
no instante τ . A equação de difusão do calor, que flui unicamente na direção x, é
definida por
∂u (x, τ ) ∂ 2 u (x, τ )
= Kc2 τ >0 −∞<x<∞ (4.87)
∂τ ∂x2
a temperatura inicial (ou condição inicial) é definida pela função φ (x) tal que

u (x, 0) = φ (x) −∞<x<∞ (4.88)

onde Kc2 foi definido acima.

A solução da equação do calor pode ser feita de diferentes formas. Em geral este
tipo de equação é resolvida com o uso de transformadas integrais. A transformada de
Laplace é um tipo de transformada integral que pode ser usada na solução do problema.
Aqui optamos por usar a transformada de Fourier. Trataremos especificamente do prob-
lema descrito na definição 4.6. Sem perda de generalidade consideraremos o caso em
que Kc2 = 1.

Aplicando a definição F [f (x)] ao problema descrito pelas equações (4.87) e (4.88), temos

∂ û (ξ, τ )
= −ξ 2 û (ξ, τ )
∂τ
(4.89)
û (ξ, 0) = φ̂ (ξ)

O problema em (4.89) é o de uma equação diferencial ordinária, cuja solução é dada por

û (ξ, τ ) = φ̂ (ξ) e−ξ (4.90)

143
A transformada inversa de û (·)
Z ∞
−1 1
F [û (ξ, τ )] = u (ξ, τ ) = √ û (ξ, τ ) eiξx dξ
2π −∞

Usando a equação (4.90) na equação anterior, temos


Z ∞
1 2
u (ξ, τ ) = √ φ̂ (ξ) e−ξ τ eiξx dξ (4.91)
2π −∞
Por outro lado, da definição da transformada de Fourier, sabemos que
Z ∞
1
φ̂ (ξ) = √ φ (y) e−iξy dy (4.92)
2π −∞
Levando a equação (4.92) na equação (4.91), obtemos o seguinte resultado
Z ∞ Z ∞
1 1 2
u (x, τ ) = √ √ φ (y) e−iξy dye−ξ τ eiξx dξ
2π −∞ 2π −∞
Reagrupando os termos similares, resulta em
Z ∞ Z ∞
1 iξ(x−y) −ξ 2 τ
u (x, τ ) = e e dξ φ (y) dy (4.93)
2π −∞ −∞

Definindo Z ∞
2
Θ (x, τ ) = e−ξ τ eiξx dξ
−∞

Então podemos escrever


Z ∞
2
Θ (x − y, τ ) = e−ξ τ eiξ(x−y) dξ (4.94)
−∞

Usando a equação (4.94) em (4.93), resulta em


Z ∞
1
u (x, τ ) = Θ (x − y, τ ) φ (y) dy (4.95)
2π −∞

Note que a última integral é a convolução (Θ ∗ φ) (x). Vamos usar o seguinte resultado
para Θ (·) que demonstraremos na seção seguinte
r
π − x2
Θ (x, τ ) = e 4τ
τ
Levando este resultado na equação (4.95), temos a solução u (·)
Z ∞r
1 π − (x−y)2
u (x, τ ) = e 4τ φ (y) dy
2π −∞ τ
Z ∞
1 (x−y)2
=√ φ (y) e− 4τ dy (4.96)
4πτ −∞
A equação (4.96) é a solução da equação do calor que usamos na seção anterior.

144
4.8.4 Resultados básicos
Esta seção mostra resultados fundamentais que previamente foram utilizados na solução
da equação do calor (seção 4.8.3).

Proposição 4.2. É válido o seguinte resultado


Z ∞ r
−ξ 2 τ π
e dξ =
−∞ τ
R∞ 2
Prova. Considere I (τ ) = −∞ e−ξ τ dξ. Então podemos escrever
Z ∞ Z ∞ Z ∞Z ∞
e−(ξ +η )τ dξdη
2 2
2 −ξ 2 τ −η 2 τ
I (τ ) = e dξ e dη =
−∞ −∞ −∞ −∞

Usando coordenadas polares para resolver esta última integral, temos que

ξ = r cos θ η = rsenθ onde: r ∈ [0, ∞) θ ∈ [0, 2π]

A área de um pequeno setor circular em coordenadas polares é dado por dξdη = rdrdθ.
Então temos
Z ∞Z ∞ Z ∞ Z 2π Z ∞
−(ξ 2 +η 2 )τ −r2 τ 2
2
I (τ ) = e dξdη = rdre dθ = 2π re−r τ dr
−∞ −∞ 0 0 0
Z ∞
π 2 π
=− (−2rτ ) e−r τ dr =
τ 0 τ
Então temos o resultado r
π
I (τ ) =
τ

Proposição 4.3. É válido o seguinte resutado


Z ∞ r
−ξ 2 τ iξx π − x2
e e dξ = e 4τ
−∞ τ
R∞ 2
Prova. Seja h (x) = −∞ e−ξ τ eiξx dξ, a derivada h0 (x) é
Z ∞ Z ∞
0 −ξ 2 τ i 2
h (x) = e iξx
(iξ) e dξ = − −2ξτ e−ξ τ eiξx dξ
−∞ 2τ −∞
Z ∞
i d  2

=− e−ξ τ eiξx dξ
2τ −∞ dξ

Usando integração por partes na última integral acima, resulta


 ∞ Z ∞ 
0 i −ξ 2 τ iξx −ξ 2 τ iξx
h (x) = − e e − e (ix) e dξ
2τ −∞ −∞
Z ∞
i 2 x
= − (−ix) e−ξ τ eiξx dξ = − h (x)
2τ −∞ 2τ

145
Usando o resultado da proposição 4.2, temos

Z r
0 x −ξ 2 τ π
h (x) = − h (x) e h (0) = e dξ =
2τ −∞ τ

Ainda podemos escrever

h0 (x) x x
=− ⇒ d [ln (h (x))] = −
h (x) 2τ 2τ

Integrando
x
y 2 x x2
Z
y
ln (h (x)) − ln (h (0)) = − dy = =−
0 2τ 4τ 0 4τ
2
 
h (x) x
ln =−
h (0) 4τ

O resultado final será


h (x) x2 x2
= e− 4τ ⇒ h (x) = h (0) e− 4τ e usando o último resultado para h (0)
h (0)
Z ∞ r
−ξ 2 τ iξx π − x2
h (x) = e e dξ = e 4τ
−∞ τ

Note que eiξx = cos (ξx) + isen (ξx), então o nosso problema pode ser escrito por
Z ∞ Z ∞ Z ∞
−ξ 2 τ −ξ 2 τ 2
e [cos (ξx) + isen (ξx)] dξ = e cos (ξx) dξ + i e−ξ τ sen (ξx) dξ
−∞ −∞ −∞

A segunda integral do segundo membro tem como integrando o produto de uma função
par por uma uma função ı́mpar. O resultado é uma função ı́mpar, logo a integral desta
função de −∞ a ∞ é zero. Portanto, temos
Z ∞ Z ∞ r
−ξ 2 τ iξx −ξ 2 τ π − x2
e e dξ = e cos (ξx) dξ = e 4τ
−∞ −∞ τ

ou ainda
∞ ∞
Z Z r
−ξ 2 τ iξ(x−y) −ξ 2 τ π − (x−y)2
e e dξ = e cos (ξ (x − y)) dξ = e 4τ
−∞ −∞ τ

Este último resultado foi utilizado para encontrar a solução da equação do calor (veja
equação (4.94)).

146
Capı́tulo 5

Mudança de Medida

No capı́tulo anterior fizemos o apreçamento com a suposição da inexistência da possi-


bilidade de arbitragem. Este é um ponto central neste texto. Sempre consideraremos o
apreçamento nesta condição. Dado que não há arbitragem existem fundamentalmente
duas metodologias bem definidas para o apreçamento. A primeira é a metodologia
clássica apresentada no capı́tulo 4. A segunda metodologia será abordada neste capı́tulo.

É muito usual o apreçamento de derivativos através da medida martingal. Historica-


mente esta metodologia iniciou-se em 1979 com o artigo de Harrison e Kreps (1979) [48]
e posteriormente Harrison e Pliska (1981) [47]. Neste capı́tulo iremos detalhar os con-
ceitos matemáticos envolvidos nesta metodologia e faremos novamente o apreçamento
do modelo de BMS. Obviamente o resultado é o mesmo que o obtido no capı́tulo ante-
rior. Uma pergunta natural seria qual o apelo que se tem pelo apreçamento pela medida
martingal? A metodologia originalmente desenvolvida por BMS, quando aplicada ao
apreçamento de derivativos de modo geral, requer a montagem de um portfólio (tomada
de posição no ativo subjacente e no derivativo) e em seguida a eliminação do risco deste
portfólio (estratégia esta mantida ao longo do perı́odo de maturação do derivativo).
Matematicamente este procedimento resulta em uma EDP que em muitos casos não
tem solução analı́tica. Por vezes a solução numérica não é trivial e demanda técnicas
mais avançadas para a sua resolução.

O apreçamento pela medida martingal envolve a mudança de medida de probabilidade


(que significa escrever o processo estocástico do ativo subjacente em uma medida equiv-
alente) e em seguida o cálculo do valor esperado nesta medida. O apreçamento pode
ser feito por uma metodologia ou outra, dependendo de cada caso. Há situações em que
o uso da medida martingal mostra-se mais vantajoso. Em outros casos ocorre o inverso.

Matematicamente o que se está fazendo ao resolver uma equação diferencial ou cal-


cular o valor esperado, é uma operação de integração. A solução de EDP´s por métodos
numéricos é um tópico ao qual são dedicados textos especı́ficos e metodologia diversas.
Para o cálculo do valor esperado, quando necessário, pode-se recorrer a procedimentos
numéricos. Um deles bastante usual em finanças é a técnica de Monte-Carlo, que é rel-
ativamente fácil de ser implementada, porém demanda procedimentos especı́ficos para
tornar-se mais eficiente computacionalmente.

147
Este capı́tulo inicia-se com os conceitos de mudança de medida, segue-se a mudança de
medida para o processo geométrico Browniano e o teorema de Girsanov. A seguir é feito
o apreçamento de opções Européias (modelo de BMS). Posteriormente são mostradas
algumas extensões do modelo de BMS e a conceituação de opções exóticas. Ao final do
capı́tulo, o leitor deverá ter o domı́nio de todo o procedimento envolvido no apreçamento
pela medida martingal. A referências bibliográficas, tal qual no capı́tulo 3, diferem muito
em termos do nı́vel matemático da abordagem. Há textos de menor complexidade como
Mikosh (1999) [75], último capı́tulo; Neftci (2000) [77], capı́tulos 14 e 15; Baxter e Ren-
nie (1996) [5] e Joshi, (2003) [59] capı́tulo 6. Outros textos, também acessı́veis mas
com complexidade matemática mais elevada, são Shreve (2004) [94], Steele (2000) [97],
Øksendal (2003) [80], Elliot e Kopp (2005) [34] e Klebaner (2005) [62], dentre outros.

5.1 Conceitos básicos


Inicialmente consideraremos um exemplo numérico. Sejam duas distrbuições normais
N1 (2, 4) e N2 (3, 4). Sabemos que as funções densidades (veja a equação (1.27)) destas
distribuições são
1 (x−2)2
f1 (x) = √ e− 8 x∈R (5.1)
2π2
1 (x−3)2
f2 (x) = √ e− 8 x∈R (5.2)
2π2
onde x são os valores de Xi (ω) , i = 1, 2 e ω ∈ Ω. Consideremos agora Z1,2 (x) a razão
entre as duas funções densidades. Isto é
f1 (x)
Z1,2 (x) = (5.3)
f2 (x)
Usando as expressões das equações (5.1) e (5.2) na equação (5.3), temos:
−2x+5
Z1,2 (x) = e 8 x∈R (5.4)

Dizemos que Z1,2 (x) é a densidade de f1 (x) emR relação a f2 (x). Note que Z1,2 (x) não

é uma função densidade de probabilidade pois −∞ Z1,2 (x) dx 6= 1.

Podemos similarmente definir a densidade de f2 (x) em relação a f1 (x) por Z2,1 (x) =
f2 (x)
f1 (x)
para x ∈ R. Para as densidades em (5.1) e (5.2), teremos
2x−5
Z2,1 (x) = e 8 (5.5)

Note também que tanto Z1,2 (x) como Z2,1 (x) representam o quociente entre duas
funções densidades que envolvem exponenciais e portanto são não negativas.

Sabemos também que dP1 (x) = f1 (x) dx e que dP2 (x) = f2 (x) dx, onde P1 (x) e P2 (x)
são as funções distribuições respectivas, ou em outras palavras, são duas medidas de
probabilidades. É imediato que
dP1 (x) dP2 (x)
Z1,2 (x) = e Z2,1 (x) =
dP2 (x) dP1 (x)

148
Então pode-se também escrever que

dP1 (x) = Z1,2 (x) dP2 (x)

ou ainda
dP1 (x) = Z1,2 (x) f2 (x) dx (5.6)
e da mesma maneira
dP2 (x) = Z2,1 (x) f1 (x) dx (5.7)
A equação (5.7) significa que conhecendo-se Z2,1 (x) e a função densidade f1 (x) pode-
se obter a distribuição de probabilidade P2 (x). Da mesma forma, pode-se dizer o
mesmo com relção à distribuição P1 (x). Note que obtivemos uma nova distribuição
Pi (x) (ou medida de probabilidade) a partir do conhecimento de Zi,j (x) e da densidade
fj (x) , i = 1, 2 e j = 2, 1, respectivamente. Esta mudança de medida foi feita de tal
forma que se definiu novas probabildades aos eventos ω ∈ Ω. Poder-se-ia também chegar
ao mesmo resultado sem a alteração das probabilidades. Poderı́amos ter atuado sobre
os valores X (ω). No nosso exemplo a segunda distribuição tem a mesma variância que
a primeira porém a média é superior em uma unidade. Se tivéssemos somado 1 a cada
elemento da primeira distribuição obterı́amos a segunda.

De fato, o que fizemos alterando a medida (ou probabilidades) é mais útil em finanças
do que simplesmente deslocar a média. Por exemplo, para obter a medida dP2 (x), a
mudança feita pela equação (5.7) deverá reduzir as probabilidades associadas aos even-
tos ω, para os quais X (ω) são positivos e aumentar as probabilidades para os quais tais
valores são negativos.

Em resumo, podemos dizer que a mudança de medida, de P1 (x) para P2 (x) é feita
por Z2,1 (x). A mudança de P2 (x) para P1 (x) é feita por Z1,2 (x). Em ambos os casos
não alteramos o valor da variável X (ω). Mudamos o valor das probabilidades associadas
aos eventos ω ∈ Ω.

5.2 Mudança de medida


A seção anterior mostrou o mecanismo com o qual iremos mudar a medida de proba-
bilidade. Nesta seção formalizaremos este conceito. Usaremos o conceito de espaço
de probabilidade (Ω, F, P ) onde Ω representa o espaço de eventos ω que podem ocor-
rer, F representa a σ-álgebra dos subconjuntos de Ω e P é a medida (distribuição) de
probabilidade dos eventos ω ∈ Ω.
Definição 5.1. (Medidas equivalentes) Duas medidas de probabilidades P e Q em
(Ω, F) são equivalentes se elas estão em concordância com relação a quais conjuntos de
F têm probabilidade zero.
Seja A ∈ F tal que P (A) = 0. Então se P e Q são equivalentes, Q (A) = 0. Como A
é o complemento do conjunto que tem probabilidade de ocorrência 1, então P e Q estão
em concordância com relação a quais conjuntos de F têm probabilidade 1, ou seja, aos
eventos q.c. (quase certamente). Então se um evento ocorre quase certamente e se P e
Q são equivalentes, tanto faz se a ele nos referimos pela medida P ou Q.

149
Definição 5.2. (Derivada de Radon-Nikodym) Considere o espaço de probabilidade
(Ω, F, P ). Seja Q em (Ω, F) uma medida equivalente a P . Seja Z uma função não
negativa, de tal modo que seja a densidade de Q em relação a P . Então Z é denominada
de derivada de Radon-Nikodym de Q em relação a P , ou seja
dQ (ω)
Z (ω) = (5.8)
dP (ω)
Seja então A ∈ F então pode-se escrever que a probabilidade de ocorrer o evento,
avaliado pela medida Q, é Z
Q (A) = Z (ω) dP (ω) (5.9)
A
onde ω ∈ Ω. Além disso pode-se mostrar que E P (Z) = 1. A notação do valor esperado
deverá, de agora em diante, designar a medida em relação a qual o valor esperado está
sendo calculado.

Pode-se demonstrar que sendo P e Q medidas equivalentes em (Ω, F) existe quase


certamente Z nas condições acima.

Seja (Ω, F, P ) um espaço de probabilidade. Sob estas condições seja X uma distribuição
normal com média µ e variância 1, ou seja, X ∼ N (µ, 1). Isto significa que o espaço
Ω representa os números reais R, ou seja, x = X (ω) ∈ R e a função densidade de X é
dada por
1 1 2
fX (x) = √ e− 2 (x−µ) x∈R (5.10)

A probabilidade do evento A ∈ F é dada por
Z
1 1 2
P (A) = √ e− 2 (x−µ) dx x ∈ R (5.11)
2π A
Ainda temos que E P (X) = µ e V arP (X) = 1 e escrevemos X ∼ P : N (µ, 1).

Agora encontraremos Z (x) tal que possamos definir uma medida equivalente Q em
relação a qual tenhamos a média de X igual a zero e a variância idêntica a anterior, ou
seja, E Q (X) = 0 e V arQ (X) = 1.
µ2
Tomemos Z (x) = e−xµ+ 2 . Da definição 5.2, equação (5.8), temos dQ (x) = Z (x) dP (x),
ou seja
µ2 1 1 2
dQ (x) = e−xµ+ 2 √ e− 2 (x−µ) dx

É fácil ver que Z (x) é não negativa pois é uma função exponencial. Avaliando Q (A),
onde A ∈ F, temos:
Z
1 1 2 µ2
Q (A) = √ e− 2 (x−µ) e−xµ+ 2 dx
2π ZA
1 1 2 µ2 µ2
Q (A) = √ e− 2 x +xµ− 2 e−xµ+ 2 dx
2π ZA
1 1 2
Q (A) = √ e− 2 x dx (5.12)
2π A

150
Isto mostra que a função distribuição de X na medida Q é uma normal com média zero
e variância 1. Ou melhor, para avaliar a probabilidade de A sob a medida Q, devemos
x2
usar a densidade √12π e− 2 . Escrevemos então: E Q (X) = 0 e V arQ (X) = 1, ou ainda
X ∼ Q : N (0, 1). É fácil ver que E P (Z) = 1 pois trata-se da área abaixo da densidade
da distribuição normal padronizada.

Em resumo, o que foi feito acima foi retirar a média da distribuição mudando as prob-
abilidades (ou medida) em relação a qual a variável aleatória X está sendo avaliada.

A pergunta que vem a seguir é: qual o uso e importância da mudança de medida
no contexto de finanças? Esta questão será naturalmente elucidada com a evolução dos
conceitos neste capı́tulo. Mas por enquanto devemos ressaltar que a mudança de medida
será usada para o apreçamento de derivativos de forma geral. Faremos isto com detalhes
para o caso de uma opção Européia e chegaremos ao mesmo resultado que aquele do
modelo de BMS, que usaram a metodologia vista no capı́tulo anterior. A medida real
de probabilidade (também conhecida como medida frequentista) é a medida em relação
a qual os fatos são observados no mundo cotidiano. Em geral, os processos estocásticos
dos preços, sob esta medida, não possuem a propriedade martingal. É interessante que
façamos a mudança de medida para que tais processos tenham esta propriedade. A van-
tagem de se trabalhar com a propriedade martingal é que o valor esperado do derivativo
em uma data futura pode ser facilmente avaliado e atualizado para a data atual. Isto
evita o apreçamento através da solução de uma EDP. Esta nova medida de probabilidade
é denominada de medida martingal ou medida neutra de probabilidade. As questões
relativas à existência de tal medida serão tratadas adiante.
Exercı́cio 5.1. Seja (Ω, F, P ) um espaço de probabilidade. Considere Y ∼ P : N (0, 1).
Encontre Z tal que sob a medida equivalente Q tenhamos Y ∼ Q : N (µ, 1).

5.3 Mudando a medida do Browniano


Nesta seção aplicaremos os conceitos anteriores ao caso do processo Browniano padrão.
Seja um espaço de probabilidade (Ω, F, P ). Considere Bt , t ≥ 0, um processo Brow-
niano padrão. As propriedades do Browniano dependem da medida P e da σ-álgebra.
Neste contexto a distribuição de Bt é tal que Bt ∼ N (0, t) e Ft = σ (Bs , s ≤ t). Isto
signfica que sob a medida P , Bt tem distribuição normal com média zero e variância t.
Escrevemos mais apropriadamente Bt ∼ P : N (0, t). Se alterarmos a medida de pro-
babilidade podemos alterar signficativamente a distribuição de probabilidade de Bt . A
medida de probabilidade que descreve o Browniano padrão com as propriedades acima

1 − Bt2
dP (Bt ) = √ e 2t dBt (5.13)
2πt
Escreve-se também E P (Bt ) = 0 e V arP (Bt ) = t. Para tornar a notação mais simples,
denominaremos por x os valores assumidos por Bt , isto é x = Xt (ω) = Bt (ω) de tal
modo que a equação anterior fica
1 − x2
dP (X) = √ e 2t dx x∈R (5.14)
2πt

151
Seja agora θ uma constante não nula. Seja o processo abaixo

B̃t (ω) = Bt (ω) + θt t≥0 (5.15)

Para tornar a notação mais simples denominaremos por y os valores assumidos por
B̃t , isto é, y = Yt (ω) = B̃t (ω). Isto significa que (5.15) poderia ser escrita por
Yt (ω) = Xt (ω) + θt.

É claro que o B̃t não é um Browniano padrão na medida P . Queremos mudar a medida
de probabilidade de P para Q de tal maneira que sob esta medida B̃t seja um Browniano
padrão.

Sabemos que a derivada de Radon-Nikodym é dada por (5.8) onde apresentamos este
conceito sob o enfoque de mudança da medida para a distribuição de probabilidades.
Agora vamos buscar este conceito para um processo estocástico. Definimos a derivada
de Radon-Nikodym para a mudança de medida de um processo estocástico por

Zt (ω) = E P [Z (ω) |Ft ] t≥0 (5.16)

onde Z (ω) está definido na equação (5.8).


Exercı́cio 5.2. Mostre que o processo estocástico que define a derivada de Radon-
Nikodym em (5.16) é martingal em relação a Ft , ou seja, E P [Zt (ω) |Fs ] = Zs (ω).
Sugerimos que o item (iv) do exercı́cio 3.5 seja refeito.
Vamos considerar o seguinte processo estocástico
 
1 2
Zt (ω) = exp −θBt (ω) − θ t ω∈Ω (5.17)
2
Inicialmente vamos considerar que este processo representa a derivada de Radon-Nikodym.
Então a medida de probabilidade equivalente Q é escrita por

dQ (ω) = Zt (ω) dP (ω) ω∈Ω (5.18)

Podemos alternativamente escrever


Z
Q (A) = Zt (ω) dP (ω) A ∈ Ft (5.19)
A
 
Vamos calcular o valor esperado do processo B̃t na medida Q, E Q B̃t (ou ainda
E Q (Y )). Para tal vamos investigar qual a função distribuição de Y na medida Q. Isto
é faremos o cálculo de Q (Y < β) usando (5.19) e considerando A = {ω : Y (ω) ≤ β}.
Temos que Yt (ω) = Xt (ω) + θt, ou ainda y = x + θt, para y = β temos x = β − θt, e
então
Z β−θt
1 2 1 − x2
Q (Y ≤ β) = e−θx− 2 θ t √ e 2t dx
−∞ 2πt
Z β−θt
1 (x+θt)2
Q (Y ≤ β) = √ e− 2t dx
2πt −∞

152
Agora transformando y = x + θt, temos
Z β
1 y2
Q (Y ≤ β) = √ e− 2t dy (5.20)
2πt −∞

Lembrando que Yt (ω) = B̃t (ω) = y, vemos que sob a medida Q, B̃t distribui-se como
uma normal com média zero e variância t. A equação (5.20) também pode ser assim
escrita Z β
  1 1 2
Q B̃t ≤ β = √ e− 2t B̃t dB̃t (5.21)
2πt −∞
   
Q Q
Esta equação comparada com (5.13) mostra claramente que E B̃t = 0 e V ar B̃t =
1. A derivada de Radon-Nikodym em (5.17) permitiu que fizéssemos a mudança de P
para Q de tal modo que B̃t na equação (5.15) se tornasse um Browniano padrão sob Q.

5.4 Teorema de Girsanov


Esta seção formaliza o que fizemos na seção 5.3 através do Teorema de Girsanov. A seguir
iremos analisar a mudança de medida do processo geométrico Browniano considerando-
o como a dinâmica de evolução dos preços das ações. Tal mudança busca encontrar a
medida que leve o processo à propriedade martingal.
Teorema 5.1. (Teorema de Girsanov) Seja (Ω, F, P ) um espaço de probabilidade.
Seja Bt (ω) , 0 ≤ t ≤ T um processo Browniano padrão neste espaço e Ft = σ (Bu , u ≤ t)
a filtração natural gerada por este Browniano. Seja θt um processo adaptado. Definimos
ainda Z t
B̃t (ω) = Bt + θu du (5.22)
0
 Z t
1 t 2
Z 
Zt (ω) = exp − θu dBu − θ du (5.23)
0 2 0 u
Considere a medida de probabilidade Q equivalente a P tal que
Z
Q (A) = Zt (ω) dP (ω) A ∈ Ft (5.24)
A

Considere também a condição de Novikov


Z T 
2
E θu Zu (ω) du < ∞
0

Então sob a medida de probabilidade Q, B̃t (ω) é um processo Browniano padrão. A


medida Q é denominada de medida martingal equivalente.
Para os leitores interessados, a demonstração do Teorema de Girsanov pode ser vista,
dentre os textos mencionados no inı́cio do capı́tulo, em Øksendal (2003), Klebaner (2005)
e Shreve (2004).

Na seção 5.3 usamos a equação (5.22) fazendo θu = θ, um valor constante, para definir

153
o processo B̃t . A equação (5.17) decorreu deste fato e equivale à equação (5.23) e final-
mente a equação (5.21) mostrou que B̃t é um Browniano padrão sob a medida Q.

A seguir apresentaremos a mudança de medida para o processo geométrico Browni-


ano que é o processo representativo da dinâmica de uma ação no modelo de BMS.

Seja (Ω, F, P ) um espaço de probabilidade. Considere Bt (ω) , 0 ≤ t ≤ T um pro-


cesso Browniano padrão neste espaço e Ft = σ (Bu , u ≤ t) a filtração natural gerada
por este Browniano. Considere o processo geométrico Browniano como sendo a dinâmica
de uma ação de preço St , tal que

dXt = µXt dt + σXt dBt 0≤t≤T (5.25)

Vimos que a solução desta EDE é dada por


1 2
Xt = SX0 e(µ− 2 σ )t+σBt
Xt = X0 eδt+σBt 0≤t≤T (5.26)

onde δ = µ − 21 σ 2 .

Seja 0 ≤ u < t ≤ T , podemos escrever a equação (5.26) entre os instantes u e t


por
Xt = Xu eδ(t−u)+σ(Bt −Bu )
Vamos calcular o valor esperado de St na medida P , condicional a Fu

E P (Xt |Fu ) = Xu E eδ(t−u)+σ(Bt −Bu ) |Fu


 

= Xu eδ(t−u) E eσ(Bt −Bu ) |Fu




Como Bt − Bu é independente de Fu , temos

E P (Xt |Fu ) = Xu eδ(t−u) E eσ(Bt −Bu )



1 2 (t−u)
= Xu eδ(t−u) e 2 σ
1 2
= Xu eδ(t−u)+ 2 σ (t−u)
1 2
= X e(δ+ 2 σ )(t−u)
u

= Xu eµ(t−u)

Em geral o proprietário de um ativo com risco requer um “ganho extra” (prêmio de


risco) para mantê-lo em seu portfólio. Isto significa que espera obter um retorno além
da taxa livre de risco, r. Em outras palavras, é natural que µ seja positivo e superior a
r, de tal forma que tenhamos da última equação

E P (Xt |Fu ) > Xu (5.27)

Isto significa que o processo de preços sob a medida P é submartingal. Devemos buscar
uma medida que torne o processo de preço (ou um processo a ele relacionado) martingal.

154
Vamos considerar o processo de evolução da taxa de juros Rt . Seja Dt o fator de
desconto no tempo t, tal que Rt
Dt = e− 0 Rs ds (5.28)
Para o caso em que a taxa de juros é constante e igual a r (taxa livre de risco), o fator
de desconto será
Dt = e−rt (5.29)
Verifiquemos agora o comportamento dos preços descontados X̄t relativamente à pro-
priedade martingal. Considerando Rt = r para 0 ≤ t ≤ T , temos
1 2
X̄t = Xt Dt = Xt e−rt = X0 e(µ−r− 2 σ )t+σBt 0≤t≤T

Pelas mesmas razões anteriores (µ > r), encontramos

E P X̄t |Fu > X̄u



u<t (5.30)

E o processo de preços descontados sob a mediada P é submartingal.

Vamos definir o processo estocástico dos preços descontados na forma diferencial. Sabe-
mos que X̄t = e−rt Xt . Fazendo X̄t = e−rt Xt = f (x, t) e usando a fórmula de Itô,
temos
∂f ∂f 1 ∂ 2f
(dXt )2

d X̄t = d (f (x, t)) = dt + dXt + 2
∂t ∂x 2 ∂x
∂f ∂f ∂2f
onde ∂t
= −re−rt Xt , ∂x
= e−rt , ∂x2
= 0.

Então o processo estocástico procurado é dado por

dX̄t = −re−rt Xt dt + e−rt (µXt dt + σXt dBt )


dX̄t = (µ − r) X̄t dt + σ X̄t dBt (5.31)

A equação (5.31) mostra que o processo de X̄t é geométrico Browniano e que sob a
condição de que µ > r, o processo tem tendência (drift) não nulo e portanto não é
martingal sob a medida P .

Definição 5.3. (Preço do risco de mercado) O preço do risco de mercado em um


instante t é definido como e excesso de ganho em relação à taxa livre de risco por unidade
de volatildade. Isto significa que
µt − rt
θt = (5.32)
σt
onde θ é o preço do risco de mercado.

Para o caso que estamos examinando em que: (i) a ação possui dinâmica definida na
equação (5.25) onde a tendência (drift) e a volatilidade são constantes e respectivamente
dadas por µ e σ, (ii) a taxa livre de risco é considerada como constante e igual a r; o
preço do risco de mercado é dado por
µ−r
θ= (5.33)
σ
155
Agora a equação (5.31) por ser escrita por

dX̄t = σ X̄t (θdt + dBt ) (5.34)

Agora vamos aplicar o teorema de Girsanov considerando θ constante na equação (5.22),


ou seja
B̃t = Bt + θt
Ainda podemos considerar
dB̃t = dBt + θdt (5.35)
Substituindo a equação (5.35) na equação (5.34), temos

dX̄t = σ X̄t dB̃t (5.36)

O teorema de Girsanov garante que B̃t é um processo Browniano padrão sob a medida
Q equivalente a P . O processo X̄t não possui tendência e é martingal sob a medida Q.
Outra forma de verificar que o processo é martingal é escrevendo-o sob a forma integral
Z t
X̄t = X0 + σ X̄u dB̃u (5.37)
0

Sob a medida Q a integral acima é uma integral de Itô e portanto é martingal. Por esta
razão a medida Q é denominada medida martingal equivalente (MME). A solução da
EDE (5.36) é
1 2
X̄t = X0 e− 2 σ t+σB̃t 0≤t≤T (5.38)
Embora tenhamos demonstrado que o processo de preços descontados é martingal para
uma ação que segue um processo geométrico Browniano, pode-se mostrar mais generi-
camente que esta condição é válida para qualquer ativo, ou seja E Q ȲT |Ft = Ȳt , onde
Ȳt é o processo de preços descontados para o ativo que segue uma dinâmica descrita por
Yt .

Se quisermos escrever o processo de preços Xt sob a medida Q basta substituirmos


dBt = dB̃t − θdt em (5.25) para obtermos
 
dXt = µXt dt + σXt dB̃t − θdt
h µ  i
dXt = σXt − θ dt + dB̃t
σ
dXt = rXt dt + σXt dB̃t
dXt
= rdt + σdB̃t (5.39)
Xt
A solução da EDE (5.39) é dada por
1 2
Xt = X0 e(r− 2 σ )t+σB̃t (5.40)

Na medida real de probabilidade o processo geométrico Browniano para o preço do ativo


Xt é dado por dX
Xt
t
= µdt + σdBt . Ao mudarmos a medida de probabilidade tal processo
dXt
torna-se Xt = rdt + σdB̃t . Pode-se dizer que a tendência µ original foi separada em

156
duas partes, uma é a taxa livre de risco que continua na fórmula e a outra parte é o
prêmio de risco que está inserido na nova medida Q em relação a qual escrevemos o novo
processo.
Tanto no processo dos preços Xt (equação (5.39)) como no processo dos preços
descontados X̄t (equação (5.36)), a mudança de medida de P para Q não alterou a
volatilidade. Em ambos os casos (sob a medida Q) houve uma mudança na tendência,
sendo que no processo de preços descontados a tendência foi eliminada. Já no processo
descrito em (5.39) a tendência tornou-se a própria taxa livre de risco. Nesta medida Q
o ativo (ação) é remunerado pela taxa livre de risco e os estados da natureza refletem a
neutralidade ao risco.

5.5 Apreçamento pela medida martingal


O capı́tulo 4 dedicou-se à metodologia de apreçamento de opções de compra/venda do
tipo europeu. A metodologia ali empregada definiu uma estratégia de posicionamento
no ativo objeto e no derivativo (montagem de um portfólio). Foi imposta a condição de
inexistência de risco neste portfólio. E sob tal situação, para que não haja arbitragem,
o portfólio deve ser remunerado pela taxa livre de risco. Em consequência chega-se ao
preço do derivativo (opção de compra/venda). Esta estratégia de manter o portfólio
sem risco é obtida pela revisão contı́nua das quantidades de cada ativo na composição
do portfólio. Ao final, no vencimento, o valor do derivativo (ΛT ) é igual ao valor do
portfólio (ou igual ao valor final da estratégia). Voltaremos a este caso mais a frente.

Neste capı́tulo enfatizamos que o apreçamento de um derivativo pode ser feito pela
medida martingal equivalente (trata-se de uma metodologia alternativa). Nesta seção
usaremos os conceitos construı́dos até o momento e realizaremos o apreçamento de uma
opção de compra Européia pela MME. Na seção seguinte ficará claro sob que condições
podemos usar a MME para fins de apreçamento. Da mesma forma, veremos a conexão
que existe entre a metodologia clássica de apreçamento e a metodologia que agora ap-
resentamos.

Consideremos novamente 0 ≤ t ≤ T onde T é a data do vencimento do contrato de


opção (compra/venda). Vimos que o processo de preços descontados é martingal sob
a medida Q (ou medida martingal equivalente MME). Vamos nos concentrar no caso
de uma opção de compra Européia. Também sabemos que uma opção de compra vale
no vencimento a diferença entre o preço do ativo objeto neste momento e o preço de
exercı́cio, isto é
ΛT = cT = (XT − K)+ (5.41)

Desejamos definir o preço da opção em t, ou seja, queremos encontrar ct a partir do


conhecimento do seu valor em T , isto é cT . Do que vimos anteriormente podemos
escrever que o preço descontado é martingal, isto é pode ser escrito por

E Q e−rT cT |Ft = e−rt ct



(5.42)

157
Substituindo a equação (5.41) na equação (5.42) e incluindo o termo e−rt dentro do valor
esperado condicional1 , temos

ct = E Q e−r(T −t) (XT − K)+ |Ft


 
(5.43)

Como a equação anterior trata do valor esperado sob a medida martingal, tomemos o
preço escrito sob esta mesma medida a partir da equação (5.40) e reescrita abaixo
1 2
Xt = x = X0 e(r− 2 σ )t+σB̃t (5.44)

A equação acima relaciona o preço em um instante qualquer Xt com o preço no instante


t = 0, ou seja, X0 . O mesmo podemos fazer entre os instantes T e t = 0 e assim
escreve-se
1 2
XT = X0 e(r− 2 σ )T +σB̃T (5.45)
Então para obtermos uma relação entre os preços nos instantes t e T , divide-se a
equação (5.45) pela equação (5.44), obtendo-se
1 2
XT = xe(r− 2 σ )(T −t)+σ(B̃T −B̃t ) (5.46)

Da mesma forma que no capı́tulo 4, vamos definir τ = T − t como o tempo remanescente


para o vencimento do contrato de opção. Então temos
1 2
XT = xe(r− 2 σ )τ +σB̃τ (5.47)

Note que XT é o produto de Xt = x (que é um processo adaptado a Ft ) pela função


1 2 1 2
e(r− 2 σ )τ +σBτ ou e(r− 2 σ )τ +σ(B̃T −B̃t )

que é independente de Ft . Logo temos que o valor esperado condicional em (5.43) é


igual a
ct = E Q e−rτ (XT − K)+
 
(5.48)
Por outro lado sabemos que B̃T − B̃t = B̃τ ∼ N (0, τ ). Logo temos que

B̃T − B̃t B̃τ


w= √ =√
τ τ

é uma distribuição normal padrão, w ∼ N (0, 1). Levando este resultado em (5.47)
temos √
1 2
XT = xe(r− 2 σ )τ +σ τ w (5.49)
Substituindo a equação (5.49) na equação (5.48), temos
  √ + 
Q −rτ ( r− 12 σ 2 )τ +σ τ w
ct = E e xe −K

1
Quando o processo Dt não considera a taxa livre de risco constante, devemos usar a equação (5.28).
Ainda assim trata-se de um processo adaptado a F e portanto pode ser incluı́do dentro do valor esperado.

158
Mais uma vez enfatizamos que o valor esperado acima é calculado sob a medida martingal
equivalente. Para tal, tomamos o integrando sob esta medida. Assim o valor de ST
em (5.49) já contém as transformações necessárias para tê-lo sob a MME. Assim temos
Z ∞ √
1 −rτ

(r− 12 σ 2 )τ +σ τ w
+ 1 2
ct = √ e xe − K e− 2 w dw (5.50)
2π −∞
O integrando será positivo se
     
1 K 1 2
w > √ ln − r− σ τ
σ τ x 2
isto equivale a
x
+ r − 21 σ 2 τ
 
ln K
w>− √ = −d2
σ τ
Logo, a integral da equação (5.50) será do limite inferior −d2 ao limite superior ∞
Z ∞ √
1  1 2
 1 2
ct = √ e−rτ xe(r− 2 σ )τ +σ τ w − K e− 2 w dw
2π −d2
A equação acima será separada em duas integrais I1 e I2 , tal que

ct = I1 − I2 (5.51)

onde tais integrais estão escritas abaixo


Z ∞ √ 
Z ∞
1 −rτ

( r− 21 σ 2 )τ +σ τ w − 12 u2 1 1 2
I1 = √ e xe e dw e I2 = √ e−rτ Ke− 2 w dw
2π −d2 2π −d2
Para a primeira integral temos
Z ∞ √
1 1 2 1 2
I1 = x √ e− 2 σ τ +σ τ w− 2 w dw
2π −d2
Z ∞ √ 2
1 1
I1 = x √ e− 2 (u−σ τ ) dw
2π −d2

Fazendo√z = w − σ τ , teremos dz = dw. E o limite inferior de integração será z =
−d2 − σ τ = −d1 , logo Z ∞
x 1 2
I1 = √ e− 2 z dz
2π −d1
A integral da densidade normal de −d1 a +∞ é igual a integral de −∞ a d1 por sua
propriedade de simetria. Logo
I1 = xN (d1 ) (5.52)
z 1 2
onde N (z) = √12π −∞ e− 2 y dy.
R

Para a segunda integral temos



Ke−rτ
Z
1 2
I2 = √ e− 2 w dw
2π −d2

159
Pelas mesmas razões acima podemos escrever que
I2 = e−rτ KN (d2 ) (5.53)
Finalmente, substituindo os resultados das equações (5.53) e (5.52) na equação (5.51),
temos que
ct = Xt N (d1 ) − Ke−rτ N (d2 ) (5.54)
onde
Xt
+ r + 12 σ 2 τ
 
ln K

d1 = √ e d2 = d1 − σ τ
σ τ
A equação (5.54) define a fórmula para o apreçamento de uma opção de compra Européia
conforme o modelo de BMS. Este é o mesmo resultado da equação (4.17) para uma opção
de compra Européia.
Exercı́cio 5.3. Apresente todos os detalhes do apreçamento de uma opção de venda
Européia vt que no vencimento vale vT = (K − XT )+ . Verifique se o seu resultado
atende à paridade entre as opções de compra e venda definidas na equação (4.2).
Exercı́cio 5.4. Definindo o processo de preços descontados de uma opção de compra
Européia por c̄t = e−rt ct , resolva os itens:
(i) defina o processo estocástico dc̄t na medida de probabilidade P (lembre-se que
ct = f (x, t) e que Xt segue um processo geométrico Browniano,
(ii) aplique o Teorema de Girsanov e troque a medida para Q definindo agora o processo
c̄t na MME,
(iii) obtenha a EDP de BMS a partir do item (ii) considerando que na medida Q o
processo de c̄t é martingal, isto é não possui tendência (drift).
A medida martingal equivalente é uma medida de probabilidade conveniente para o
apreçamento de derivativos. Uma vez que o processo estocástico do ativo subjacente está
escrito sob esta medida, o cálculo do valor esperado nos fornece o valor do derivativo.
De forma geral se o derivativo no vencimento vale ΛT , então o valor Λt , será dado por
Λt = E Q e−r(T −t) ΛT |Ft
 
0≤t≤T (5.55)
Esta equação é equivalente à equação (5.42).

Se a taxa livre de risco não é constante entre 0 ≤ t ≤ T , podemos usar a definição


em (5.28), tal que h RT i
Λt = E Q e− t Ru du ΛT |Ft 0≤t≤T (5.56)
As equações (5.55) e (5.56) são denominadas equações fundamentais de apreçamento.

É interessante observar que a MME (medida Q) não está relacionada aos estados
da natureza diretamente. Isto significa dizer que as probabilidades de ocorrência dos
eventos no mundo real não são dadas por esta medida. Se estamos interessados em
fazer simulações (cenários de preços) ou previsões de eventos futuros, devemos usar a
medida real de probabilidade P (ou também conhecida como medida frequentista), que
é a medida sob a qual os fatos reais da natureza ocorrem.

160
Exercı́cio 5.5. Considere uma opção de compra Européia sobre um ativo subjacente
de preço St cuja dinâmica é dada pela equação (5.25), com preço de exercı́cio K e
vencimento em t = T . A taxa livre de risco é r. Calcule a probabilidade na medida real
do preço Xt ser inferior a K, ou seja P (Xt < K) no tempo t. Calcule também neste
momento a mesma probabilidade na medida neutra, ou seja, Q (Xt < K).
Exercı́cio 5.6. Seja Xt o preço negociado em mercado da margem de produção da
industrialização de certo produto. A dinâmica de Xt é dada por

Xt = µdt + σdBt , t≥0

onde µ ∈ R e σ ∈ R+ . Seja ct o preço da opção de compra Européia cujo valor no


vencimento é dado por
Λ = cT = (XT − K)+
onde K é o preço de exercı́cio e T a data de vencimento. Calcule o preço ct , 0 ≤ t ≤ T .

5.6 Teoremas fundamentais de finanças


Esta seção apresenta os teoremas fundamentais de finanças que constituem os alicerces
da teoria de apreçamento. Veremos como as duas metodologias abordadas nos capı́tulos
4 e neste estão conectadas. Não apresentaremos as demonstrações de tais teoremas e
sugerimos que os leitores interessados busquem-as nas referências mencionadas ao longo
deste capı́tulo. Iniciaremos com algumas definições básicas para o entendimento do con-
texto destes teoremas.

Considere um mercado com n ativos (ações) e que o preço do i-ésimo ativo no instante
t seja dado por Xti . A dinâmica dos preços segue a equação (5.25) em um espaço de
probabilidade (Ω, F, P ).
Definição 5.4. Uma estratégia qt define a quantidade de cada ativo (ação), no instante
t, de um portfólio, tal que

qt (ω) = qt1 (ω) , qt2 (ω) , . . . , qtn (ω)



(5.57)

onde qti (ω) é um processo adaptado ao Browniano Bti (ω).


O valor do portfólio em t definido por uma estratégia qt (ω) é dado por
n
X
Wt (ω) = qti (ω) Xti ω∈Ω (5.58)
i=1

Definição 5.5. (Estratégia auto-financiável) Uma estratégia qt (ω) é auto-financiável


quando as alterações no seu valor Wt (ω), se devem tão somente às variações dos preços,
ou seja,
Xn
dWt (ω) = qti (ω) dXti (5.59)
i=1

Isto significa que nenhum recurso monetário é adicionado ou retirado do portfólio.

161
Definição 5.6. Define-se uma estratégia de proteção (hedging) como aquela para a qual
existe uma estratégia auto-financiável qt (ω) que faz com que o valor do derivativo no
vencimento ΛT seja igual ao valor do portfólio (quase certamente), isto é
n
X
WT (ω) = qTi (ω) XTi = ΛT (ω) q.c. (5.60)
i=1

Exemplo 5.1. Exemplifique a estratégia de proteção para uma situação de venda de


uma opção de compra Européia.

Solução: No capı́tulo 4, para o apreçamento de uma opção de compra pela metodologia


clássica, foi montado um porfólio que era formado pela compra de ∆ ações e venda
de uma opção. Foi imposta a condição de que o portfólio fosse livre de risco. Para
∂ct
tal, dever-se-ia manter no portfólio uma quantidade ∆t de ações tal ∆t = ∂S t
. Esta
quantidade deve ser ajustada continuamente em função das alterações dos preços da
ação e da opção. Esta estratégia dinâmica leva então o valor do portfólio a tornar-se
∂cT
igual ao de uma opção de compra na data do vencimento. Lembre-se que ∂S T
= 1.

Definição 5.7. Se para todos os derivativos do mercado existe uma estratégia de proteção
(hedging) de tal modo que (5.60) é atendida, então o mercado é dito completo.

Então nos referimos a um mercado completo como sendo aquele em que usando os
ativos deste mercado somos capazes de gerar estratégias de hedging para os derivativos
existentes. Em outras palavras, somos capazes de replicar os preços dos derivatiovs.

No capı́tulo 4 apresentamos o conceito de arbitragem enfatizando que se trata de uma


forma de realizar ganhos sem tomar riscos. Formalizaremos este conceito com a definção
a seguir.

Definição 5.8. (Arbitragem) Uma oportunidade de arbitragem é uma estratégia auto-


financiável qt (ω) tal que: (i) W0 = 0, (ii) P (WT ≥ 0) = 1 e P (WT > 0) > 0.

Isto significa que em t = 0 o valor do portfólio é zero, W0 = 0. Então adotando a


estratégia qt (ω) chegamos ao instante T com o valor do portfólio WT sem possibilidade
de perda (WT ≥ 0 com probabilidade 1). E ainda mais, o valor do portfólio será positivo
(WT > 0 com probabilidade positiva).

Agora que temos a formalização de vários conceitos fundamentais, retomamos o


conceito de equivalência entre as medidas de probabilidades P e Q, conforme o Teo-
rema de Girsanov. Naquela oportunidade, seção 5.4, fizemos a mudança de medida
para os preços descontados das ações e constatamos que sob Q tal processo era mar-
tingal (equações (5.36) e (5.37)). Na seção 5.5 usamos a equação de apreçamento
(equação (5.42)) e chegamos a solução analı́tica do modelo de BMS. Entretanto em
nenhum momento ficou claro sob que condições pode-se garantir a existência da medida
martingal equivalente. Agora faremos isto.

162
Definição 5.9. (Medida neutra) A medida de probabilidade Q é neutra ao risco se
P e Q são equivalentes e se sob Q o processo de preços descontados de cada ativo do
mercado é martingal.
Admita que cada ação do mercado tenha a dinâmica dada pela equação (5.25). Isto é
cada ação está sujeita somente a uma fonte de incerteza (um único Browniano caracteriza
o processo de St ). Assim podemos escrever que

dXti = µi Xti dt + σti Xti dBti i = 1, . . . , n (5.61)

Seguindo as etapas apresentadas na seção anterior, teremos o preço do risco de mercado


dado por
µi − r
θ= i = 1, . . . , n
σi
Como toda a incerteza provém de um único Browniano (expresso na dinâmica de cada
ação), o preço do risco de mercado é único, de tal sorte que

µi − r µj − r
= i, j = 1, . . . , n e i 6= j (5.62)
σi σj
Caso a condição anterior não se verifique estamos diante de uma situação em que neste
mercado pode haver arbitragem. A mesma consideração pode também ser feita para
o caso de várias fontes de incerteza na dinâmica do processo de preços (mais de um
Browniano na dinâmica de Xt ). Estes fatos podem ser demonstrados embora não os
apresentemos neste texto.

O primeiro teorema fundamental de finanças define sob que condições existe a medida
neutra ao risco. A importância deste teorema está no fato de que, em grande parte, o
apreçamento de derivativos é feito sob a condição da existência da medida neutra.
Teorema 5.2. (Primeiro Teorema Fundamental de Finanças) Um mercado não
admite arbitragem se e somente se existe uma medida neutra ao risco.
Apresentamos a seguir a demonstração do primeiro teorema fundamental de finanças.
Inicialmente suporemos que exista a medida neutra e provaremos que a existência da
possiblidade de arbitragem nesta situação, é contraditória.
Prova. Considere que existe a medida neutra ao risco Q. Isto significa que o processo
de preço descontado de cada ativo é martingal. Seja Xt o preço de ativo, tal que Xt ≥ 0.
O processo de preço descontado é Dt Xt . Este processo é martingal sob Q, então escreve-
se E Q (DT XT ) = Dt Xt = X0 , t ∈ [0, T ]. Vamos supor que em t = 0 temos X0 = 0.
Logo escrevemos que
E Q (DT XT ) = 0 (5.63)
Vamos supor que haja possibilidade de arbitragem. Pela definição 5.8 significa dizer que
se X0 = 0, então
P (XT ≥ 0) = 1 e P (XT > 0) > 0 (5.64)
ou seja, não há perda em T e certamente haverá ganho. Portanto sob estas condições
pode-se escrever que
P (XT ≥ 0) = 1 ⇒ P (XT < 0) = 0 (5.65)

163
Como Q e P são equivalentes, estas probabilidades coincidem em relação aos conjuntos
de medida nula, ou seja Q (XT < 0) = 0. Se não há probabilidade de perda sob Q e se
o valor esperado sob Q é nulo (equação (5.63)), então
Q (XT > 0) = 0 (5.66)
Se assim não fosse Q (DT XT > 0) > 0 o que implicaria E Q (DT XT ) > 0 que con-
tradiz a equação (5.63). Em consequência, da equação (5.66) podemos escrever que
P (XT > 0) = 0, que por sua vez contradiz a suposição de possibilidade de arbitragem
que fizemos inicialmente e que foi descrita na equação (5.64).
Teorema 5.3. (Segundo Teorema Fundamental de Finanças) Um mercado é
completo se e somente se possui uma única medida neutra ao risco.
A demonstração pode ser encontrada nas referências mencionadas.

O primeiro teorema coloca as condições necessárias e suficientes para se proceder o


apreçamento. Note que há uma conexão nı́tida entre a metodologia clássica e a que es-
tudamos neste capı́tulo. Na metodologia clássica usamos a condição de não arbitragem
no mercado. E portanto esta condição garante a existência da medida neutra que por sua
vez pode também ser o instrumento para o apreçamento, como foi feito na seção anterior.

O segundo teorema assegura a unicidade da medida neutra mediante a existência de


um mercado completo, e vice-versa. Trata-se de uma situação mais restritiva que aquela
do primeiro teorema.

Os teoremas 5.2 e 5.3 constituem as ferramentas naturais de apreçamento de deriva-


tivos em finanças. Além disto, a condição de não arbitragem é útil de forma geral para
definir relações entre preços no mercado, como por exemplo a paridade entre opções
de compra e venda. Uma pergunta natural que surge é como usar os teoremas acima.
Em geral, supõe-se que o mercado é livre de arbitragem e completo e então faz-se o
uso da medida neutra ao risco através do teorema de Girsanov. Em muitos casos há
a necessidade de estimar o parâmetro θ (preço do risco de mercado). Nestas situações
deve-se proceder a calibração do modelo teórico ajustando-o aos preços praticados (dados
empı́ricos). Desta maneira, pode-se obter também outros parâmetros do modelo, como
a volatilidade, velocidade de reversão, etc. Em geral a calibração é feita maximizando-se
a função de verossimilhança do modelo, o mesmo procedimento que foi visto no capı́tulo
2. Voltaremos a este tópico quando tratarmos de mercados futuros. Outra pergunta
que surge é como obter a função de densidade neutra ao risco. Para a finalidade de
apreçamento não há necessidade de obtermos a função densidade. No entanto, caso seja
útil para alguma outra finalidade, a medida neutra (densidade neutra implı́cita) está
implı́cita nos preços dos derivativos (o mercado contém esta informação). Ela pode ser
levantada empiricamente e o procedimento é devido a Breeden e Litzenberger (1978)
[14] e será apresentado no próximo capı́tulo.

5.7 Replicando para o apreçamento


Esta seção usa os conceitos das seções anteriores e apresenta uma forma ligeiramente
diferente de realizar o apreçamento. Não se trata de uma metodologia adicional. De fato

164
o apreçamento continua sendo aquele feito pela medida martingal. Entretanto achamos
interessante explorar alguns dos conceitos apresentados até o momento, e eles estão aqui
reunidos.

Vamos considerar que podemos replicar o valor de uma opção de compra a partir de
uma estratégia em que tomamos posição no ativo com risco (ação) e no ativo sem risco
(letras do tesouro). Seja a estratégia definida por qt1 e qt2 , respectivamente. O valor do
portfólio em t (0 ≤ 0 ≤ T ) será

Wt = qt1 Xt + qt2 βt (5.67)

onde Xt e βt são os valores da ação e do tı́tulo governamental livre de risco, respectiva-


mente. Note que βt é o inverso do fator de desconto expresso na equação (5.29), ou seja,
βt = ert e dβt = rβt dt. Consideremos que o portfólio assim formado é auto-financiável,
ou seja
dWt = qt1 dXt + qt2 dβt (5.68)
Vamos considerar o processo de preços descontados deste portfólio, W̄t = e−rt Wt , tal
que
W̄t = e−rt qt1 Xt + qt2 βt

(5.69)
Usando a fórmula de Itô para calcular as variações do valor do portfólio descontado,
temos
dW̄t = d e−rt Wt = −re−rt Wt dt + e−rt dWt

(5.70)
Usando as equações (5.67) e (5.68) na equação (5.70), obtém-se

dW̄t = −re−rt qt1 Xt + qt2 βt dt + e−rt qt1 dXt + qt2 dβt


 

= −re−rt qt1 Xt + qt2 βt dt + e−rt qt1 dXt + qt2 rβt dt


 

= qt1 −re−rt Xt dt + e−rt dXt




= qt1 dX̄t (5.71)

Da equação (5.36) temos que dX̄t = σ X̄t dB̃t que levado na equação (5.71) fornece

dW̄t = qt1 σ X̄t dB̃t

ou ainda Z t
W̄t = W0 + σ qu1 X̄u dB̃u (5.72)
0

Portanto, sob a medida Q, o processo do portfólio descontado W̄t é martingal pois a


equação (5.72) é uma integral de Itô e o processo qu1 X̄u é adaptado a Ft . Logo, W̄t é
martingal e podemos usar a equação geral de apreçamento (5.56) e escrever

Wt = E Q e−rτ WT |Ft

0≤t≤T

Se WT replica o preço de uma opção então WT = (XT − K)+ e ct = Wt . Consequente-


mente
ct = E Q e−rτ (XT − K)+ |Ft
 

165
e chegamos novamente à equação (5.43). O restante do desenvolvimento já foi realizado
abrangendo as equações (5.44) até (5.54).

A estratégia de replicar o preço de uma opção por ativos existentes no mercado é


exatamente o que vimos anteriormente e denominamos de hedge dinâmico. Em cada
instante de tempo de tempo as posições do portfólio são ajustadas através de quantidades
qt1 da ação e qt2 das letras do tesouro (ativo sem risco). Situação idêntica foi a abordagem
da seção 4.2 quando fizemos a derivação do modelo de BMS. Naquele caso o portfólio
Πt era mantido neutro (sem risco) em cada instante de tempo através do ajuste δ-hedge.
Isto é, em cada instante de tempo o número de ações é ajustado de tal forma que
∂ct ∆ct
∆t = ∂X t
≈ ∆X t
refletindo a razão entre a variação do preço da opção e a variação do
preço da ação. Lembre-se que a posição do portfólio é comprado em ∆t ações e vendido
em uma opção de compra. O comprador da opção de compra mantém um posição
estática até o vencimento. O agente proprietário do portfólio Π (Πt = ∆t Xt − ct ) tem
que manter-se balanceado desde que toma a posição de comprado em ∆ ações (ativo
subjacente) no instante t = 0. Desta forma, no instante t (0 < t < T ) se Xt subir ou
cair a quantidade de ações deve ser ajustada. Na prática a posição de ajustes contı́nuos
na posição do portfólio (∆t ) implica em custos de corretagem que podem ser elevados
se a frequência de ajustes for grande.

5.8 Extensões do modelo de BMS


Esta seção apresenta algumas extensões do modelo de BMS. Os modelos que serão ap-
resentados a seguir, em muitos casos, são extensões imediatas e a sua derivação pode
ser obtida tal qual fizemos nas seções anteriores. Portanto, não nos deteremos no seu
detalhamento, ficando para o leitor esta tarefa. Em outros caso deixaremos os modelos
para serem desenvolvidos na forma de exercı́cios. A primeira extensão considera o caso
do apreçamento de uma opção de compra para uma ação que paga dividendos.

Seja (Ω, F, P ) um espaço de probabilidade. Considere Bt (ω) 0 ≤ t ≤ T , um processo


Browniano padrão e Ft = σ (Bs , s ≤ t) a filtração natural gerada por este Browniano.
Tal qual fizemos nas seções anteriores, considere Xt o preço de uma ação cuja dinâmica
é dada por
dXt = µXt dt + σXt dBt (5.73)
Na seção 4.2 onde apresentamos as hipóteses do modelo de BMS a condição (iii) re-
stringia o modelo aos casos em que a ação não pagava dividendos. Uma hipótese usual é
que o pagamento de dividenos seja considerado de forma contı́nua. Vamos considerar o
caso de dividendos pagos a uma taxa constante α. Por exemplo se α = 2%, significa que
a variação do preço implicado pelo dividendo pago continuamente é 0, 02 × Xt , ou ainda
que o retorno implicado pelo pagamento acarreta uma variação percentual do preço de
2%. O pagamento de dividendos reduz o valor de uma ação porporcionalmente. Logo a
dinâmica da ação sob esta consideração será
dXt = µXt dt + σXt dBt − αXt dt (5.74)
Vale observar que se entre t = 0 e t = T a ação que paga dividendos varia de X0 a XT ,
então caso não pagasse nenhum dividendo variaria de X0 a XT eαT , ou então de X0 e−αT

166
a XT .

A equação (5.74) se reduz a

dXt = (µ − α) Xt dt + σXt dBt (5.75)

Desejamos saber o preço de uma opção sob a dinâmica de (5.74) ou equivalentemente


sob a dinâmica de (5.75). Note que a diferença de (5.75) e (5.73) está somente no termo
relativo à tendência (drift) do processo. Sob a medida Q ele será escrito por

dXt = (r − α) Xt dt + σXt dB̃t (5.76)

A solução de (5.76) é dada por


1 2
Xt = xe(r−α− 2 σ )t+σB̃t (5.77)

Entre os instantes t e T podemos escrever


1 2
XT = Xe(r−α− 2 σ )(T −t)+σ(B̃T −B̃t ) (5.78)

Esta última equação equivale à equação (5.47) do procedimento desenvolvido na seção


5.5. De agora em diante o procedimento é idêntico ao daquela seção e fica como exercı́cio
para o leitor finalizar o desenvolvimento. O resultado final para o preço da opção de
compra será
ct = Xt e−ατ N (d1 ) − Ke−rτ N (d2 ) (5.79)
onde:
Xt
+ r − α + 12 σ 2 τ
 
ln K

d1 = √ e d2 = d1 − σ τ
σ τ
Note que a diferença entre a equação (5.79) e (5.54) está no preço da ação Xt , que sob
a condição de pagamento de dividendo, se transforma em Xt e−αt .

A seguir seguem outras extensões do modelo de BMS colocadas sob a forma de ex-
ercı́cios.

Exercı́cio 5.7. Retome o enunciado do exercı́cio 5.3 e apresente todos os detalhes do


apreçamento de uma opção de venda Européia vt sobre uma ação que paga dividendos
a uma taxa contı́nua e constante igual a α. Verifique a condição de paridade entre as
opções de compra (equação (5.79)) e venda.

Exercı́cio 5.8. Considere a dinâmica de Xt tal qual nos capı́tulos 4 e 5. Considere uma
opção de compra cujo valor no vencimento será
(
H se XT > K
ΛT =
0 se XT < K

Observe que XT = K é um evento que ocorre com probabilidade nula. Esta equação é
conhecida como opção binária ou digital (ou usando o termo original cash or nothing

167
option). Para tornar a modelagem mais fácil, considere que o seu valor no vencimento
seja, 
H se
 XT > K
H
ΛT = 2 se XT = K (5.80)

0 se XT < 0

(i) Mostre que o valor da opção de compra é ct = He−rτ N (d2 ) (Sugestão: use a
equação geral de apreçamento (5.55) ou (5.42)).

(ii) Mostre que o valor da opção de venda vt = He−rτ (1 − N (d2 )). O valor da opção
de venda no vencimento é exatamente o oposto de (5.80).

(iii) Encontre a relação de paridade entre ct e vt : (a) usando os resultados obtidos em


(i) e (ii); (b) usando o argumento de não arbitragem tal qual aquele apresentado
na seção 4.1 para chegarmos a equação (4.2).

(iv) Derive as fórmulas para as gregas delta, gama e teta.


Exercı́cio 5.9. Retome o enunciado do exercı́cio anterior e considere que o valor da
opção de compra no vencimento seja

ST
 se XT > K
ΛT = S2T se XT = K (5.81)

0 se XT < K

(i) Calcule o valor da opção de compra ct (esta opção é denominada asset or nothing
option).

(ii) Considere que o valor da opção de venda no exercı́cio seja o oposto do que está
em (5.81). Calclule o valor de vt .

(iii) Obtenha a relação de paridade entre ct e vt .

5.9 Derivativos exóticos


Até o presente momento vimos os derivativos do tipo Europeu em que o proprietário
somente pode exercer o seu direito na data do vencimento, T . Outra propriedade dos
derivativos que estudamos é que o valor do mesmo no vencimento é função do preço do
ativo subjacente naquela data, ou seja
 ΛT = f (XT , T ). Usando a equação fundamental
de apreçamento Λt = E Q e−r(T −t) ΛT temos o valor do derivativo na data t, 0 ≤ t ≤ T .

Existem outros tipos de derivativos em que o exercı́cio pode acontecer em uma data
anterior ao vencimento. Os derivativos Americanos são aqueles em que o exercı́cio pode
ocorre em qualquer data anterior ao vencimento. Dentro desta classe há também os
derivativos do tipo Bermuda em que o exercı́cio pocode ocorrer em datas especı́ficas
anteriores ao vencimento.

Existem os derivativos cujo valor na data do vencimento é função da trajetória seguida

168
pelos preços até esta data, isto é ΛT = f (Xt1 , Xt2 , . . . , Xtn , T ), onde tk ∈ [0, T ].

Esta seção reúne alguns destes derivativos denominados de exóticos. Muitos deles não
possuem solução analı́tica fechada. O recurso, nesta situação, é recorrer à soluções
aproximadas, a maioria delas obtidas numericamente. O apêndice deste capı́tulo apres-
nta os conceitos envolvendo o método de Monte-Carlo muito usual em finanças. Não
pretendemos nos deter na derivação dos modelos. O leitor interessado encontrará textos
dedicados somente aos derivativos exóticos, ou ainda pode usar as referências men-
cionadas no inı́cio do capı́tulo. Além dessas, o texto de Wilmott, Howison, Dewynne
(1995) [101] apresenta vários capı́tulos dedicados aos derivativos exóticos bem como es-
pecial atenção às soluções numéricas. Veja também no apêndice deste capı́tulo várias
referências sobre métodos numéricos em finanças. Dentre vários derivativos exóticos nos
dedicaremos às opções.

5.9.1 Opções com barreiras


As opções com barreiras são opções em que o seu valor no vencimento é função do
fato do preço do ativo subjacente ter atingido um nı́vel previamente definido (barreira).
Primeiramente vejamos as opções de compra.

(i) Opção de compra down e out: esta opção tem valor zero no vencimento se o
preço do ativo atingir a barreira (B < X0 ) em algum instante t ∈ [0, T ], caso a
barreira na seja atingida o valor da opção no vencimento é idêntico ao de uma
opção Americana,

(ii) Opção de compra down e in: esta opção tem valor zero no vencimento, a menos
que atinja a barreira (B < X0 ) em algum instante t ∈ [0, T ], se a barreira é cruzada
o seu valor no vencimento é o de uma opção Americana.

As fórmulas para o apreçamento destas opções podem ser vistas nas referências. Observe
que o valor das opções de compra do tipo down são inferiores àqueles de uma opção
Européia. A soma da duas opções in e out resulta no valor de uma Européia.

(i) Opção de compra down e out: esta opção tem valor zero no vencimento se o
preço do ativo atingir a barreira (B > X0 ) em algum instante t ∈ [0, T ], caso a
barreira na seja atingida o valor da opção no vencimento é idêntico ao de uma
opção Americana,

(ii) Opção de compra down e in: esta opção tem valor zero no vencimento, a menos
que atinja a barreira (B > X0 ) em algum instante t ∈ [0, T ], se a barreira é cruzada
o seu valor no vencimento é o de uma opção Americana.

As definições para as opções de venda seguem-se analogamente as apresentadas acima


apenas substituindo-se a palavra compra por venda. Todas elas possuem soluções
analı́ticas que atendem às novas condições de contorno definidas pelas barreiras (veja
nas referências).

169
5.9.2 Opções Lookback
As opções do tipo Lookback são aquelas em que o seu valor no vencimento depende dos
valores mı́nimos ou máximos que ocorreram na trajetória de preços do ativo subjacente.

(i) Opção de compra com preço de exercı́cio fixo: seu valor no vencimento é dado por
(Xmax − K)+ onde Xmax = max (Xt ) para t ∈ [0, T ],

(ii) Opção de venda com preço de exercı́cio fixo: seu valor no vencimento é dado por
(K − Xmin )+ , onde Xmin = min (Xt ), para t ∈ [0, T ],

(iii) Opção de compra com preço de exercı́cio flutuante: seu preço de exercı́cio no
vencimento é dado por XT − Xmin ,

(iv) Opçaõ de venda com preço de exercı́cio flutuante: seu preço de exercı́cio no venci-
mento é dado por Xmax − XT .

Note que as opções Lookback valem mais que as respectivas Européias. Para as opções
com preço de exercı́cio fixo o valor no vencimento considera Xmax ≥ XT e Xmin ≤ XT
que resultam em valores superiores aso da Européia. As opções com preço de exercı́cio
flutuante são inapropriadamente denominadas de opções pois sempre será vantajoso o
exercı́cio. Veja nas referências as fórmulas para o apreçamento destas opções.

5.9.3 Opções Asiáticas


As opções Asiáticas são aquelas em que o valor da opção no vencimento depende da
média dos preços do ativo subjacente em [0, T ].

(i) Opção de compra Asiática com a média no preço: o seu valor no vencimento é por
 R +
1 T
T 0
X u du − K ,

(ii) Opção de venda Asiática com a média no preço: o seu valor no vencimento é dado
 RT +
por K − T1 0 Xu du ,

(iii) Opção de compra Asiática com a média no preço de exercı́cio:: o seu valor no
 RT +
vencimento é dado por XT − T1 0 Xu du ,

(iv) Opção de venda Asiática com a média no preço de exercı́cio: o seu valor no
 R +
T
vencimento é dado por T1 0 Xu du − XT .

Em geral as opções Asiáticas não apresentam solução analı́tica. Os casos em que isto
ocorre são excessões. As referências mencionadas definem estes casos.

5.10 Resumo e considerações finais


Neste capı́tulo apresentamos o conceito de apreçamento de derivativos através da me-
dida martingal equivalente (MME). A MME é uma medida de probabilidade útil para o

170
apreçamento pois define um procedimento alternativo ao da metodologia clássica. A me-
dida real de probabilidade P é a medida em que os fenômenos ou os estados da natureza
acontecem. Para procedermos o apreçamento devemos fazer a mudança de medida sem
fazer nenhuma alteração nos elementos da distribuição de probabilidade original. Para
tal foi introduzido o conceito da derivada de Radon-Nikodym (para duas distribuições
de probabilidades) que é a densidade de Q em relação a P , ou seja Z (ω) = dQ(ω)
dP (ω)
.

A seguir fizemos a mudança de medida de probabilidade para o Browniano padrão,


Bt (ω). O processo Browniano padrão na medida de probabilidade Q é B̃t (ω), tal que
B̃t (ω) = Bt (ω)+θt, θ 6= 0. Além disso, a derivada de Radon-Nikodym para a mudança
de medida envolvendo processos estocásticos, é o valor esperado condicional na medida
P , ou seja, Zt (ω) = E P (Z (ω) |Ft ). A etapa seguinte foi o enunciado do teorema de Gir-
sanov, onde foram definidos B̃t , Zt (ω) e a medida equivalente Q. O teorema garante que
sob Q o processo B̃t (ω) é um processo Browniano padrão. Realizamos então a mudança
de medida para o processo geométrico Browniano (considerando como esta a dinâmcia
dos preços das ações). Mostramos que sob P o processo de preços é submartingal. O
mesmo ocorre para o processo de preços descontados.

Fizemos então a mudança de medida para o processo de preços descontados. Então sob
Q mostramos que o processo é martingal. A seguir procedemos o apreçamento de opção
de compra Européia usando a MME conforme a equação fundamental de apreçamento
Λt = E Q e−r(T −t) ΛT |Ft
 
0≤t≤T
Os teoremas fundamentais de finanças garantem as condições sob as quais pode-se fazer
o uso da MME. A inexistência da possibilidade de arbitragem garante a existência da
MME. Ainda mais, se o mercado é completo esta medida é única. Posteriormente apre-
sentamos o conceito de replicar a opção por uma estratégia de posicionamento no ativo
subjacente e no tı́tulo sem risco. Mostramos que o valor descontado deste portfólio é
martingal e consequentemetne a equação geral de apreçamento pode ser usada para o
cálculo de ct . Como extensões do modelo de BMS fizemos o apreçamento de uma opção
de compra de uma ação que paga dividendos e conceituamos algumas opções exóticas.
No apêndice apresentaremos a simulação de Monte-Carlo. Ela requer que sejam re-
alizadas simulações de trajetórias do ativo subjacente sob a MME. Posteriormente é
calculado a média do valor do derivativo no vencimento (ΛT ) usando o valor do ativo
subjacente neste instante (XT ). Desconta-se esta média ao tempo t pela taxa livre de
risco obtendo-se o valor do derivativo nesta data.

5.11 Apêndice - Método de Monte-Carlo


O objetivo deste apêndice é apresentar os conceitos básicos da simulção de Monte-Carlo
e a sua aplicação para o apreçamento de derivativos em finanças.

Uma das virtudes do modelo de BMS é que o mesmo possui solução analı́tica. Porém
nem sempre este é caso para outros derivativos. Frequentemente temos que buscar al-
guma solução numérica para a questão do apreçamento. Como foi dito anteriormente,
se derivarmos o modelo para o preço de um derivativo e chegarmos a uma EDP que não

171
tenha solução analı́tica, teremos que proceder a sua solução numérica. Uma metodolo-
gia usual é o método das diferenças finitas, veja por exemplo Duffy (2006) [29] que é
um texto dedicado a solução de problemas em finanças usando diferenças finitas. Veja
também Wilmott, Howison e Dewynne (1995) [101] e Hull (2000) [53].

Porém se apreçamos um derivativo a partir do cálculo do valor esperado sob a MME


(equação fundamental de apreçamento), podemos chegar a uma integral que não tenha
solução analı́tica. Uma forma de resolver o problema é através de métodos numéricos
de integração.

Uma metodologia de integração, muito usual em finanças, é a simulação de Monte-


Carlo (MC). A simulação de MC não se restringe a problemas de finanças e é usada
em problemas de engenharia em geral que lidam com variáveis estocásticas. Por esta
razão a bibliografia sobre o método de MC é vasta. Em finanças não poderia ser difer-
ente e destacamos Brandimarte (2003) [13], Glasserman (2003) [41], Jäckel (2002) [57]
e McLeish (2005) [71], dentre outros. Para uma breve introdução à metodologia vamos
aplicá-la ao caso do apreçamento de uma opção de compra Européia tal qual no modelo
de BMS.

Considere incialmente que X seja uma variável aleatória com E (X) = µX e V ar (X) =
2
σX . Sabemos que se produzirmos uma amostra de tamanho N da variável aleatória
X teremos os valores X1 , X2 . . . , XN . Uma boa aproximação para a média de X (esti-
mador) é a estatı́stica X̄, dada por
N
1 X
X̄ = Xi (5.82)
N i=1

onde Xi são variáveis aleatórias independentes. O valor esperado de X̄ é


N
 1 X 1 1
E X̄ = E (Xi ) = (E (X1 ) + . . . E (XN )) = N µX = µX (5.83)
N i=1 N N

Isto mostra que X̄ é um estimador não tendencioso para a média (E X̄ = µX ).

2
Um estimador natural para a variância de X é a estatı́stica σ̂X dada por
N
2 1 X 2
σ̂ = Xi − X̄
N i=1

O exemplo 1.14 mostra que este estimador é tendencioso. O estimador não tendencioso
da variância é obtido facilmente definindo
N
2 1 X 2
σ̄X = Xi − X̄
N − 1 i=1

O Teorema Central do Limite (veja o teorema 1.4) afirma que  a2 distribuição


 de X̄ − µ
2
é normal com média zero e variância σN ; isto é X̄ − µ ∼ N 0, σN . Isto significa que o

172
intervalo de confiança de 95% é dado por
!
X̄ − µ
P −1, 96 ≤ ≤ 1, 96 = 0, 95
√σ
N

ou ainda  
1, 96σ 1, 96σ
P X̄ − √ ≤ µ ≤ X̄ + √ = 0, 95
N N
Usando o estimador σ̄X para o desvio-padrão σ, o intevalo de 95% para a média µ é
 
1, 96σ̄X 1, 96σ̄X
X̄ − √ , X̄ + √ (5.84)
N N
Desta forma podemos obter a análise de MC. Tomamos uma amostra de tamanho N e
computamos X̄ e σ̄X e assim somos capazes de estimar um intervalo de confiança para
a média.

Para o apreçamento de uma opção devemos calcular o valor da opção usando a equação (5.43)
aqui reescrita
ct = E Q e−rτ (XT − K)+ |Ft
 
(5.85)
Devemos portanto obter uma amostra de tamanho N da variável XT . Para tal devemos
gerar N trajetórias de preços de Xt = x até XT . Estas trajetórias devem ser calculadas
na medida neutra usando a equação (5.49) aqui reescrita
1 2 √
XT = xe(r− 2 σ )τ +σ τw
(5.86)

onde w ∼ N (0, 1). Gerando N números aleatórios de uma normal padrão, obte-
mos os valores de XT usando a equação acima. Calcula-se então o valor (XT − K)+ ,
atualizando-os pela taxa livre de risco e a seguir tomamos a média dos N valores obti-
dos. Temos assim ct e computamos o intervalo de confiança desejado para este valor.

Observando o intervalo de confiança em (5.84), nota-se que a redução do erro é pro-


porcional ao inverso da raı́z quadrada do tamanho da amostra. Uma redução de 10% no
erro implica em um aumento de 100 vezes no tamanho da amostra. Isto explica porque
o método de MC é computacionalmente intensivo ou demandante. Portanto, a precisão
do resultado esbarra nas limitações computacionais.

A outra questão relacionada à precisão do método está no fato de que o intervalo de


confiança é proporcional ao desvio-padrão conforme (5.84). Uma maneira de contornar
o problema é buscar estimar o intervalo de outra variável aleatória que tenha a mesma
média porém com menor variância. Esta técnica é denominada redução de variância.
Para o seu melhor entendimento sugerimos que o leitor consulte as referências men-
cionadas acima.

173
174
Capı́tulo 6

Equações Diferenciais Estocásticas

O capı́tulo 3 deste texto concentrou os conceitos fundamentais do cálculo estocástico


de tal modo que pudéssemos, nos dois capı́tulos subsequentes, desenvolver e aplicar as
metodologias de apreçamento.

Deixamos alguns outros conceitos relacionados ao cálculo estocástico para o presente


capı́tulo. Tudo o que será agora apresentado é uma continuação do capı́tulo 3. Poderı́amos
ter unido os dois capı́tulos, 3 e 6, entretanto por questões didáticas e por organização
do texto, preferimos intermediá-los com as aplicações para apreçamento, tomando como
base o modelo de BMS.

Da mesma forma como fizemos no capı́tulo 3, este também é um capı́tulo relevante


para o desenvolvimento das habilidades do leitor e para a compreensão mais ampla da
teoria de finanças. Iniciamos o capı́tulo pela propriedade de Markov. Posteriormente
estenderemos a dinâmica dos processos estocásticos ao caso multivariado, neste contexto
apresentamos o processo de Itô multivariado. Conceituaremos o gerador de difusão de
Itô para fazermos a conexão entre a solução de uma EDP e o cálculo da esperança
condicional. Definiremos as equações de Kolmogorov e Feynman-Kac que permitem
relacionar estes dois tópicos. A relação entre a metodologia clássica (apreçamento por
EDP) e o apreçamento pela MME foi ressaltada no inı́cio do capı́tulo 5. Aqui veremos
o ponto em comum de ambas metodologias e saberemos como transformar um prob-
lema em outro. O ponto central desta abordagem baseia-se no fato de que a solução de
uma equação diferencial estocástica é um processo Markoviano. Sob esta condição pode-
se deduzir as equações de Kolmogorov e Feynman-Kac que farão a conexão mencionada.

Ainda com relação ao que apresentamos no capı́tulo 3, temos a acrescentar alguns tópicos
em relação às EDE´s. Naquela oportunidade vimos algumas soluções para EDE´s sem,
no entanto, formalizar os conceitos. Agora vamos apresentá-los neste capı́tulo e ainda
resolveremos outras equações que são importantes em finanças.

As referências para os assuntos contidos neste capı́tulo são Neftci (2000) [77], Øksendal
(2003) [80], Shreve (2004) [94], Klebaner (2001) [62], Elliot e Kopp (2005) [34], Kloeden
e Platen (1992) [63] e Kloeden, Platen e Schurz (2003) [64].

175
6.1 Conceitos básicos
Esta seção apresenta os conceitos da propriedade de Markov. A propriedade Markov
para um processo estocástico estabelece que os futuros valores deste processo não de-
pendem dos valores passados mas somente dos valor(es) atual(is). Se um processo Xt
possui a propriedade de Markov, então a distribuição condicional de Xt+s dado Xt = x,
não depende dos valores passados de Xt , mas depende do valor atual Xt = x.

Definição 6.1. (Propriedade de Markov) Seja Ft a σ-álgebra gerada pelo processo


Xt . Este processo tem a propriedade de Markov se a distribuição condicional de Xt+s
dado Ft é a mesma distribuição condicional de Xt+s dado Xt = x, ou seja
P (Xt+s ≤ z|Ft ) = P (Xt+s ≤ z|Xt = x) q.c. (6.1)
Vamos estabelecer a seguinte notação Xsx (t) que representa o valor da variável X
no instante t que se iniciou no instante s quando seu valor era x. Os processos que são
Markovianos são caracterizados por uma função densidade de probabilidade p (s, t, x, y)
e pela respectiva função distribuição P (s, t, x, y). Seja Xt um processo de Markov, então
escreve-se
P (x, t, x, y) = P [Xsx (t) < y] q.c. (6.2)
A propriedade de Markov descrita em (6.1) pode ser assim escrita considerando agora
0 ≤ s < t e que x0 = x.
P [X0x (t) ≤ y|Fs ] = P [X0x (t) < y|X0x (s)] (6.3)
Ainda podemos escrever que para funções de densidade contı́nuas
Z y
P (x, t, x, y) = p (x, t, s, u) du (6.4)
−∞

Exemplo 6.1. Verifique a propriedade de Markov para o processo Browniano padrão.

Solução: Vamos verificar a propriedade de Markov usando o conceito da função ger-


adora de momentos visto no capı́tulo 1. Naquela oportunidade a equação (1.18) definiu
a função geradora da distribuição X por
MX (u) = E euX


Se a função geradora de Bt+s condicional a Ft é a mesma que a função geradora condi-


cionada a Bt = x, então as funções distribuições são as mesmas e a equação (6.1) fica
verificada. Então temos,
E euBt+s |Ft = E eu(Bt+s +Bt −Bt ) |Ft
 

= E euBt eu(Bt+s −Bt ) |Ft




= euBt E eu(Bt+s −Bt ) |Ft




= euBt E eu(Bt+s −Bt )



2 1s
= euBt eu 2

= euBt E eu(Bt+s −Bt ) |Bt = x




= E euBt+s |Bt = x


176


Exemplo 6.2. Considere 0 ≤ s < t, escreva a função distribuição P (s, t, x, y) do


processo B (t) dado B (s).

Solução: Do exemplo 6.1 vimos que

P (Bt ≤ y|Fs ) = P (Bt ≤ y|Bs )

O processo Browniano neste caso está condicionado a Bs = x. Sabemos também que


E (Bt |Bs ) = Bs = x para t > s. Logo a distribuição condicionada de Bt dado Bs é

Bt |Bs ∼ N (x, t − s)

Então a função distribuição condicional será


Z y
1 (u−s)2
P (s, t, x, y) = p e− 2(t−s) du
−∞ 2π (t − s)

e a densidade de transição é

1 (y−x)2
p (s, t, x, y) = p e− 2(t−s)
2π (t − s)

A seguir apresentamos o Teorema da Representação Martingal. Vimos na seção 5.7


que podemos montar uma estratégia que replica o preço de uma opção no vencimento
t = T . Sendo o valor do portfólio um processo martingal (sob Q), o valor da opção em
qualquer instante (0 ≤ t ≤ T ) pode ser obtido pela equação geral de apreçamento. O
Teorema da Representação Martingal (TMR) garante a existência desta estratégia e por
conseguinte da proteção (ou hedging).

Teorema 6.1. (TRM) Seja (Ω, Ft , P ) um espaço de probabilidade, seja Bt um processo


Browniano padrão neste espaço e Ft a filtração natural gerada por este processo. Seja
hR a Ft , ou seja
Mt um processo martingal em relação i E (Mt |Fu = Mu ) para u < t. Existe
T 2
um processo adaptado Ht , com E 0 Hu du < ∞ , tal que
Z t
Mt = M0 + Hu dBu (6.5)
0

O TRM afirma que se Mt é martingal em relação a filtração do Browniano, então


Mt é dado pela condição inicial M0 mais uma integral de Itô. Observe a identidade
da equação (6.5) com a equação (5.72). Esta última foi consequência da estrutura de
replicação (ou proteção adotada). Agora estamos formalizando este resultado. O TRM
garante a existência do processo Hs (equivalente a qu1 S̄u na equação (5.72)) e desta forma,
da estratégia que permite o apreçamento.

177
6.2 Cálculo estocástico multivariado
É frequente em finanças tratarmos variáveis que envolvem mais de uma fonte de in-
certeza. Por exemplo, o preço à vista de uma commodity pode conter incertezas refer-
entes ao curto e ao longo prazos. Os modelos desta natureza serão tratados nos próximos
capı́tulos. Também é comum tratarmos o preço de um tı́tulo com duas fontes de in-
certezas. Por exemplo, uma ação de uma empresa em um paı́s emergente pode ser
modelada com o risco associado ao próprio negócio somado ao risco do paı́s onde atua.
Assim, é natural que tenhamos interesse em trabalhar com processos estocásticos que
reúnam múltiplas fontes de incertezas. Apresentaremos os detalhes para este tipo de
modelgagem ao longo desta seção.
Definição 6.2. (Browniano multivariado) Define-se um processo Browniano com
dimensão m por Bt (ω) = (Bt1 (ω) , . . . , Btm (ω)) para t ≥ 0 onde cada Bti (ω) é um
Browniano padrão univariado. Ainda, ao processo Bt (ω) está associada a filtração
Ft tal que Bt (ω) é adaptado a esta filtração e os incrementos Bu (ω) − Bt (ω) são
independentes de Ft para 0 ≤ t < u.
Definição 6.3. (Processo de Itô multivariado) Considere Bt (ω) t ≥ 0, um Brow-
niano de dimensão m. Então o processo de Itô de dimensão n é dado por

dXt = µ (Xt , t) dt + σ (Xt , t) dBt (6.6)

O processo estocástico descrito na equação (6.6) por ser escrito por


m
X
dXit = µi (Xt , t) dt + σij (Xt , t) dBjt i = 1, . . . n
j=1

ou ainda na forma integral


Z t m Z t
X
X i t = xi 0 + µi (Xu , u) du + σij (Xu , u) dBju i = 1, . . . n (6.7)
0 j=1 0

onde Xi0 = xi0 e cada µi e σij atendem as condições da definição 3.18.


Considere que os vetores e matrizes acima sejam
     
X1 t µ1 σ11 . . . σ1m
Xt =  . . .  µ =  ...  σ =  ... ... ... 
Xn t µn σn1 . . . σnm

então o processso descrito na equação (6.6) pode ser escrito por

dX1t = µ1 dt + σ11 dB1t + . . . + σ1m dBmt


... = ...
dXnt = µn dt + σn1 dB1t + . . . + σnm dBmt

As equações acima podem descrever uma economia com n ativos e cada um destes ativos
contem m fatores de risco.

178
A fórmula de Itô para o processo multivariado foi antecipado no capı́tulo 3 como uma
mera extensão do caso univariado. Aqui repetimos a fórmula de Itô multivariado que
seria aplicado ao caso descrito acima. Para tornar a notação mais simples, em alguns
casos, omitiremos o subscrito indicador do “tempo”.

Teorema 6.2. (Fórmula de Itô multivariado) Sejam X1 , X2 , . . . , Xn processos de


Itô univariados dados por

dXi = µi (Xt , t) dt + σi (Xt , t) dBit i = 1, . . . , n (6.8)

Seja f (X1 , . . . , Xn , t), onde f (·) é contı́nua e diferenciável duas vezes em relação a
x1 , . . . , xn e uma vez em relação a t (com derivadas contı́nuas), então o diferencial
df (·) é dado por
∂f X ∂f 1 X ∂ 2f
df (X1 , . . . , Xn , t) = dt + dXi + dXi dXj (6.9)
∂t i
∂x i 2 i,j
∂x i ∂x j

onde dBXi dBXj = ρij dt, i 6= j, e ρij é a correlação entre os Brownianos i e j.


Exemplo 6.3. Considere o processo Xt = eµt+σ1 B1t +σ2 B2t em que t ≥ 0, µ, σ1 , σ2 são
positivos e ρ12 dt = dB1t dB2t . Calcule dXt .

Solução: Considere f (x1 , x2 , t) = eµt+σ1 B1t +σ2 B2t . Então temos


∂f ∂ 2f
= eµt+σ1 x1 +σ2 x2 σ1 = f (x1 , x2 , t) σ1 = σ12 f (·)
∂x1 ∂x21
∂f ∂ 2f
= eµt+σ1 x1 +σ2 x2 σ2 = f (x1 , x2 , t) σ2 = σ22 f (·)
∂x2 ∂x22
∂f ∂f
= eµt+σ1 x1 +σ2 x2 σ1 σ2 = f (x1 , x2 , t) σ1 σ2 = µf (·)
∂x1 ∂x2 ∂t
Usando a equação (6.9), temos
1 2
σ1 f (dB1t )2 + σ22 f (dB2t )2 + 2σ1 σ2 f dB1t dB2t

dXt = µf dt + f σ1 dB1t + f σ2 dB2t +
2
1 1
dXt = µXt dt + σ1 Xt dB1t + σ2 Xt dB2t + σ12 Xt dt + σ22 Xt dt + σ1 σ2 Xt ρ12 dt
2 2
 
dXt 1 1
= µ + σ12 + σ22 + σ1 σ2 ρ12 dt + σ1 dB1t + σ2 dB2t
Xt 2 2

O teorema 6.1 (TRM) pode ser estendido para o caso multivariado e então o teorema
garante a existência de um processo adaptado Hs multivariado, em que poderı́amos
imaginar a sua aplicação ao caso de uma economia com n ativos. A existência do
processo adaptado assegura a possibilidade de proteção (hedge) em tal economia.

179
Exercı́cio 6.1. Seja (Ω, F, P ) um espaço de probabilidade. Considere os seguintes pro-
cessos definidos neste espaço: (i) dχt = −kχt dt + σχ dBχt (ii) dξt = µξ dt + σξ dBξt
com ρdt = dBχt dBξt , onde k, σχ e σξ são positivos. Ainda, Ft é a σ-álgebra tal que
Bt (ω) = (Bχt , Bξt ) é adaptado a Ft . Seja ln St = χt +ξt , onde St é o preço à vista. Este
é o modelo de dois fatores de Schwartz e Smith (2000) [89] na modelagem dos preços de
commodities. Os dois fatores que descrevem o preço à vista são as variações de curto
prazo χt e o preço de equilı́brio de longo prazo ξt . Voltaremos a este modelo quando
tratarmos da modelagem de commodities.

(i) Encontre as soluções para χt e ξt ,

(ii) Calcule E P (χt ) e V arP (χt ),

(iii) Calcule E P (ξt ) e V arP (ξt ),

(iv) Calcule a Cov P (χt , ξt ),

(v) Calcule E P (St ),

(vi) Calcule dSt .

Exemplo 6.4. Retome o enunciado do exercı́cio 6.1. Suponha que ambos os processos
sejam referentes a um contexto de um mercado onde não há arbitragem. Escreva ambos
os processos na MME.

Solução: Para dχt = −kχt dt + σχ dBχt vamos considerar o teorema de Girsanov em


que B̃χt = Bχt + θχ t onde θχ é o preço do risco de mercado de χt e B̃χt é o processo
Browniano padrão sob Q. Levando na equação anterior, temos
 
dχt = −kχt dt + σχ dB̃χt − θχ dt
dχt = − (kχt + θχ ) dt + σχ dB̃χt

Para dξt = µξ dt + σξ dB̃ξt definimos θξ como o preço do risco de mercado para ξt e de


forma similar teremos
dξt = (µξ − θξ ) dt + σξ dB̃ξt


Exercı́cio 6.2. Considere o enunciado do exercı́cio 6.1 e os resultados do exemplo


anterior.

(i) Encontre as soluções para χt e ξt sob a medida Q,

(ii) Calcule E Q (χt ) e V arQ (χt ),

(iii) Calcule E Q (ξt ) e V arQ (ξt ),

(iv) Calcule a Cov Q (χt , ξt ),

(v) Calcule E Q (St ).

180
6.3 Gerador de difusão de Itô
Estamos caminhando no sentido de estabelecermos uma conexão entre os conceitos de
valor esperado condicional e de EDP´s. Nesta seção iremos definir o gerador de difusão
de Itô, um importante conceito neste tópico.

O processo de Itô univariado foi definido pela equação (3.35) (ou equivalentemente
pela equação (3.36)). O processo de Itô multivariado foi definido pela equação (6.6) (ou
equivalentemente pela equação (6.7)).

Quando os coeficientes destas equações são independentes do tempo, temos o que se


denomina por difusão homogênea de Itô (ou simplesmente difusão de Itô). Assim, para
os casos univariado e multivariado, temos as respectivas difusões

dXt = µ (Xt ) dt + σ (Xt ) dBt t≥0 (6.10)

dXt = µ (Xt ) dt + σ (Xt ) dBt t≥0 (6.11)


É imediato, neste estágio do texto, observar que o processo geométrico Browniano pode
ser definido a partir da EDE (6.10) considerando µ (Xt ) = µXt e σ (Xt ) = σXt .

Definição 6.4. (Propriedade de Markov para difusão) Seja Xt uma difusão de


Itô conforme a EDE (6.10). Seja f uma função limitada e Ft a σ-álgebra natural gerada
pelo processo Browniano padrão. Dizemos que Xt satisfaz a propriedade de Markov para
h > 0 se
E [f (Xt+h ) |Ft ] = E [f (Xt+h ) |Xt = x] (6.12)

Esta definição da propriedade de Markov é idêntica a aquela da seção 6.1, porém


agora colocada em termos do valor esperado condicional. A equação (6.12) significa
que a previsão do valor de X dadas as informações até o instante t é idêntica àquela se
considerarmos que o processo incia-se em t. Isto é o mesmo que dizer que as informações
passadas do processo não ajudam na sua previsão futura.

Exercı́cio 6.3. Mostre que são Markovianos os processos estocásticos abaixo definidos
no espaço (Ω, F, P ).

(i) dXt = µdt + σdBt X0 = 0

(ii) dXt = µXt dt + σXt dBt X0 = x

Definição 6.5. (Gerador de difusão de Itô univariado) Seja Xt uma difusão de


Itô conforme a EDE (6.10) com X0 = x. Seja f uma função contı́nua e duas vezes
diferenciável (com derivadas contı́nuas). O gerador de difusão de Itô é definido por

E (f (Xt ) |x) − f (x)


Lf (x) = lim (6.13)
t→0 t
O gerador de difusão de Itô define a taxa de variação do valor esperado de f (Xt ).

181
Vamos aplicar a fórmula de Itô para calcular d (f (Xt )). Temos que

∂f 1 ∂ 2f
d [f (Xt )] = dXt + 2
(dXt )2
∂x 2 ∂x
∂f 1 ∂ 2f
= [µ (x) dt + σ (x) dBt ] + σ 2 (x) 2 dt
∂x 2
 2 ∂x
∂f 1 ∂ f ∂f
= µ (x) + σ 2 (x) 2 dt + σ (x) dBt
∂x 2 ∂x ∂x

ou equivalentemente
Z t t
∂ 2f
 Z
∂f 1 ∂f
f (Xt ) − f (X0 ) = µ (x) + σ 2 (x) 2 du + σ (x) dBu
0 ∂x 2 ∂x 0 ∂x

Se tomarmos o valor esperado da equação acima temos o numerador da equação (6.13)


que dividido por t e levado ao limite quando t tende a zero, resulta em

∂f 1 2 ∂ 2f
Lf (x) = µ (x) + σ (x) 2 (6.14)
∂x 2 ∂x
Note que o operador Lf (x) é um operador que contém a tendência (drift) do processo
de d [f (Xt )].

Exemplo 6.5. Encontre o gerador da difusão de Itô para os seguintes processos es-
tocásticos, t ≥ 0:

(i) dXt = µXt dt + σXt dBt

(ii) dYt = k (θ − Yt ) dt + σYt dBt , k > 0, θ > 0



(iii) dZt = (r − α) Zt dt + σ Zt dBt , r > 0, α > 0

Solução:

(i) Usando a equação (6.14) onde µ (x) = µx e σ (x) = σx, temos

∂f 1 ∂ 2f
Lf (x) = µx + σ 2 x2 2
∂x 2 ∂x

(ii) Neste caso temos µ (y) = k (θ − y) e σ (y) = σy, portanto

∂f 1 ∂ 2f
Lf (y) = k (θ − y) + σ2y2 2
∂y 2 ∂y

iii) Temos que µ (z) = (r − α) z e σ (z) = σ z, logo
2
∂f 2 ∂ f
Lf (z) = (r − α) z +σ z 2
∂z ∂z

182
Definição 6.6. (Gerador de difusão de Itô multivariado) Considere uma difusão
de Itô multivariada em que a EDE é dada por

dXt = µ (Xt , t) dt + σ (Xt , t) dBt t≥0 (6.15)

onde µ (Xt ) é um vetor n × 1, os termos µi são todos função de Xt , σ (Xt ) é uma


matriz n × m, os termos σij são todos função de Xt e dBt é o Browniano multivariado
de ordem m. Seja f uma função limitada de duas vezes diferenciável (com derivadas
contı́nuas), o gerador de difusão é dado por
X ∂f 1X ∂ 2f
σσ > i,j (x, t)

Lf (x) = µi (x, t) + (6.16)
i
∂xi 2 i,j ∂xi xj

Definimos acima o gerador de difusão de Itô para uma difusão em que temos n EDE´s
e cada uma possui m Brownianos padrões. No caso de termos um processo de difusão
de ordem n significa que estamos nos referindo a n EDE´s com n Browninanos padrões.
Exemplo 6.6. Encontre o gerador de difusão de Itô para os seguintes casos
(i) dXt = µXt dt + Xt (σ1 dB1t + σ2 dB2t ) , σ1 > 0, σ2 > 0, µ ∈ R
      
dχt −kχt σχ 0 dBχt
(ii) = dt + , k > 0, σχ > 0, σξ > 0, µ ∈ R
dξt µ 0 σξ dBξt

Solução:
(i) Temos que o vetor de tendência
 é simplesmente µ (x) = µx. A matriz de variância
é σ (x) = σ1 x σ2 x . Portanto temos:
 
>
  σ1 x
σσ (x) = σ1 x σ2 x
σ2 x

σσ > = σ12 x2 + σ22 x2


O gerador de difusão de Itô será

∂f 1 2  ∂ 2f
Lf (x) = µx + σ1 + σ22 x2 2
∂x 2 ∂x

(ii) Para simplificar a notação vamos considerar x1 = χ e x2 = ξ. Note que o primeiro


termo do segundo membro da equação (6.16) é um produto escalar, ou mais apropriada-
mente, o gradiente de f multiplicado pelo vetor de tendência do processo. O primeiro
termo do gerador será
h i  −kx  ∂f ∂f
∂f ∂f 1
∂x1 ∂x2 · = −kx1 +µ
µ ∂x1 ∂x2

A matriz σσ > é dada por


    
> σ x1 0 σx1 0 σx21 0
σσ = =
0 σx2 0 σx2 0 σx22

183
Portanto o gerador de difusão será

∂ 2f ∂ 2f
 
∂f ∂f 1
Lf (x) = −kx1 +µ + σx21 2 + σx22 2
∂x1 ∂x2 2 ∂x1 ∂x2

Exercı́cio 6.4. Encontre os geradores de difusão de Itô dos seguintes processos:


      
dX1t µ1 σ1 0 dB1t
(i) = dt +
dX2t µ2 X2t 0 σ2 X2t dB2t
     X 
dXt rXt e t
(ii) = dt + dBt onde Bt é univariado
dYt µYt 0
     
dXt 1 0
(iii) = dt + dBt onde Bt é univariado
dYt µ σ

Exercı́cio 6.5. Encontre os processos estocásticos para os quais os geradores de difusão


de Itô estão dados abaixo:
2
(i) Lf (x) = 2x ∂∂xf2 + ∂f
∂x
 2 
(ii) Lf (x) = 12 ∂∂xf2 + r ∂x
∂f
1
∂f
+ µ ∂x 2
1

∂f ∂2f
(iii) Lf (x) = ∂t
+ µ ∂f
∂x
+ ∂x2

Exercı́cio 6.6. (Processo P


de Bessel) Seja Bt um Browniano multivariado de di-
mensão m. Considere Rt = m 2
i=1 Bit .

(i) Mostre que dRt = mdt + 2 m


P
i=1 Bit dBit

1
m−1
(ii) Considere Zt = Rt2 . Mostre dZt = 2Zt
+ dBt . Zt é o processo de Bessel.

(iii) Mostre que o gerador de difusão de Itô é dado por Lf (z) = 21 f 00 (z) + m−1
2z
f 0 (z).
Este é o operador diferencial de Bessel (por esta razão a denominação de processo
de Bessel para Zt ).

6.4 Equação de Kolmogorov


A equação backward de Kolmogorov fornece a relação que há entre o valor esperado
condicional e a correspondente EDP. Desta maneira ficará clara a relação entre as
metodologias de apreçamento vistas nos capı́tulos 4 e 5.

Seja Xt uma difusão de Itô multivariada de ordem n. Seja f uma função limitada
e duas vezes diferenciável e com derivadas contı́nuas. Vamos definir o seguinte valor
esperado
h (x, t) = E [f (Xt ) |x] (6.17)

184
onde x significa o último valor de X que precede Xt . Se diferenciarmos em relação a t,
teremos
∂h
= E [Lf (Xt )] (6.18)
∂t
A equação (6.18) mostra como o valor de esperado de f (Xt ) evolui no tempo.
Teorema 6.3. (Equação backward de Kolmogorov) Seja Xt uma difusão mul-
tivarida sendo x ∈ Rn e 0 ≤ s < t. Considere f uma função limitada duas vezes
diferenciável com derivadas contı́nuas. Seja Xs = x e p (s, t, x, y) a função densidade
de transição em y. Dado que
Z
h (x, s) = E [f (Xt ) |x] = f (y) p (s, t, x, y) dy (6.19)
Rn

então
∂h (x, s)
+ Lh (x, s) = 0 (6.20)
∂s
h (x, s) = f (x) (6.21)
O teorema acima afirma que a solução do problema dado pela EDP (6.20) com a
condição inicial (6.21) é a equação (6.19) onde a solução h (x, s) é o valor esperado
condicional de f (Xt ). A equação (6.20) escrita em termos das variáveis x e s é denomi-
nada equação backward de Kolmogorov. A demonstração pode ser vista nas referências
mencionadas.
Exemplo 6.7. Considere x ∈ R, s > 0 e f limitada e duas vezes diferenciável com
derivadas contı́nuas. Seja o seguinte problema de valor inicial
1 2 2 ∂2
 
∂ ∂
+ µx + σ x h (x, s) = 0 (6.22)
∂s ∂x 2 ∂x2
h (x, 0) = f (x) (6.23)
Encontre a função v (x, s).

Solução: Vamos usar a equação backward de Kolmogorov. Pelo teorema 6.3 vemos
que a equação (6.20) se refere à EDP dada. Então temos que encontrar a difusão de
Itô (EDE) que tem como gerador a EDP acima sem o termo que envolve a derivada em
relação ao tempo. Em outras palavras
∂h ∂h ∂h 1 2 2 ∂ 2 h
+ Lh = + µx + σ x =0 (6.24)
∂s ∂s ∂x 2 ∂x2
Sabemos que o gerador de difusão de Itô univariado é dado por
∂g 1 2 ∂ 2g
Lg (x) = µ (x) + σ (x) 2
∂x 2 ∂x
Logo temos µ (x) = µx e σ (x) = σx, portanto a difusão (EDE) é

dXt = µXt dt + σXt dBt (6.25)

185
Temos em (6.24) o problema idêntico a (6.20) onde Xt é dado por (6.25). A EDE (6.25)
refere-se ao processo geométrico Browniano cuja solução é dada por
1 2
Xt = Xs e(µ− 2 σ )(t−s)+σBt−s

Denominando δ = µ − 21 σ 2 , temos Xt = Xs eδ(t−s)+σBt−s .

Agora que conhecemos Xt vamos usar a equação (6.19) com Xs = x e considerar


y = Bt |Bs ∼ N (x, t − s). Sabemos então que y ∈ R. Logo temos

h (x, s) = E f Xs eδ(t−s)+σy |Xs = x


 
Z ∞
1 (y−x)2
f xeδ(t−s)+σy p e− 2(t−s) dy,

h (x, s) = t>0
−∞ 2π (t − s)
Z ∞
1  (y−x)2
h (x, s) = p f xeδ(t−s)+σy e− 2(t−s) dy, t>0
2π (t − s) −∞

Na equação backward de Kolmogorov expressamos o resultado em termos das variáveis


x e s, daı́ a denominação de backward. As variáveis t e y são fixas.

Exercı́cio 6.7. Considere o mesmo enunciado do exemplo 6.7. Encontre a solução para
o seguinte problema de valor inicial

∂h ∂h 1 2 ∂ 2 h
+µ + σ =0 s > 0, x ∈ R
∂s ∂x 2 ∂x2
h (x, 0) = f (x)

Exercı́cio 6.8. Seja a difusão de Itô dada por

dXt = µ (Xt , t) dt + σ (Xt , t) t>s

Seja s o instante inicial tal que Xs = x e 0 ≤ s < t. A função densidade de transição


não negativa é p (s, t, x, y). Mostre que esta função satisfaz a equação backward de
Kolmogorov
∂h (x, s)
+ Lh (x, s) = 0
∂s
isto é
∂p (s, t, x, y) ∂p (s, t, x, y) 1 2 ∂ 2 p (s, t, x, y)
+ µ (x, s) + σ (x, s) =0
∂s ∂x 2 ∂x2
Exercı́cio 6.9. Seja o Browniano padrão Bt , t ≥ 0.

(i) Escreva a função densidade de transição p (t, x, y) para t > 0;

(ii) Verifique que a densidade de transição satisfaz a equação de difusão

∂p 1 ∂ 2p
=
∂t 2 ∂y 2

186
Considere agora f (Xt , t) e Xt uma difusão de Itô univariada tal que dXt = µ (Xt ) dt+
σ (Xt ) dBt . Admita também todas as considerações feitas ao longo desta seção. Temos
da fórmula de Itô que

∂f ∂f 1 ∂ 2f
d [f (Xt , t)] = dt + dXt + 2
(dXt )2
∂t ∂x 2 ∂x
∂f ∂f ∂f 1 ∂ 2f 2
d [f (Xt , t)] = dt + µ (x) dt + σ (x) dBt + σ (x) dt
∂t ∂x ∂x 2 ∂x2
∂ 2f
 
∂f ∂f 1 ∂f
d [f (Xt , t)] = + µ (x) + σ 2 (x) 2 dt + σ (x) dBt
∂t ∂x 2 ∂x ∂x

Usando o fato de que


∂f 1 ∂ 2f
Lf (x) = µ (x) + σ 2 (x) 2
∂x 2 ∂x
podemos escrever
 
∂f ∂f
d [f (Xt , t)] = + Lf (x) dt + σ (x) dBt
∂t ∂x

integrando temos
Z t  Z t
∂f ∂f
f (Xt , t) − f (X0 , 0) = + Lf (x) du + σ (x) dBu
0 ∂u 0 ∂x

A última integral do lado direito é uma integral de Itô e portanto é martingal. Denotando
esta integral por Mt , temos
Z t 
∂f
f (Xt , t) − f (X0 , 0) = + Lf (x) du + Mt
0 ∂u

ou ainda Z t 
∂f
Mt = f (Xt , t) − f (X0 , 0) − + Lf (x) du (6.26)
0 ∂u
Isto mostra que o lado direito da equação (6.26) é um processo martingal. Uma con-
sequência imediata do resultado em (6.26) é que se f (x, t) satisfaz a equação

∂f
+ Lf (x) = 0
∂t

então f (Xt , t) − f (X0 , 0) é um processo martingal.

Exemplo 6.8. Seja a difusão de Itô dXt = dt + dBt , cuja solução para X0 = 0 é
Xt = t + Bt . Seja a EDP
1 ∂ 2f ∂f
+ =0 (6.27)
2 ∂x2 ∂x
Mostre que se f (x, t) satisfaz a equação (6.27), então f (Xt , t) é um processo martingal.

187
Solução: Primeiramente note que o gerador Lf (x) da difusão de Itô é a equação (6.27),
ou seja
∂f 1 ∂ 2f
Lf (x) = +
∂x 2 ∂x2
A solução de Lf (x) = 0 é f (x) = 1 + e−2x . Portanto, f (Xt , t) = 1 + e−2Bt −2t . Para
mostrar que f (Xt , t) é martingal basta observar que e−2Bt −2t é martingal, ou seja

E e−2Bt −2t |Fs = e−2Bs −2s




Exercı́cio 6.10. Admita as mesmas considerações para a função f que foram enunci-
adas ao longo desta seção. Seja f (Bt , t) = t2 Bt5 , t ≥ 0.

(i) Encontre o gerador de difusão de Itô,

(ii) Escreva a equação (6.26) para o processo em questão. Calcule então o E (f (Xt , t) |Fs ),
onde Fs é a filtração natural do Browniano padrão.

Exercı́cio 6.11. Seja o processo de Ornstein-Uhlenbeck descrito na equação (3.54) e


reescrito como dXt = (θ − Xt ) dt + σdBt , onde θ > 0, σ > 0 e X0 = x.

(i) Encontre o gerador da difusão de Itô,

(ii) Escreva a equação backward de Kolmogorov,

(iii) Encontre a solução geral.

Esta seção mostrou como resolver um problema de valor inicial através do cálculo do
valor esperado condicional. Sendo o problema de valor inicial essencialmente a resolução
de uma EDP, então podemos obtê-la por meio do cálculo do valor esperado condicional.
Este é o ponto por onde das duas metodologias estão conectadas. O apreçamento de
uma opção pode ser feito pelo cálculo do valor esperado condicional (capı́tulo 5) ou pela
solução de uma EDP (capı́tulo 4). Neste capı́tulo mostramos que a equação backward
de Kolmogorov estabelece o elo entre a solução da EDP e o cáculo do valor esperado
condicional.

6.5 Equação de Fokker-Planck


A seção anterior mostrou a relação entre o cálculo da esperança condicional e a solução
de uma EDP (equação backward de Kolmogorov). Esta equação é escrita em termos das
variáveis x e s da função densidade de transição. Agora veremos que também podemos
escrever uma equação diferencial parcial em termos das variáveis forward y e t. Trata-se
da equação de Fokker-Planck ou da equação forward de Kolmogorov.

Teorema 6.4. (Equação de Fokker-Planck) Seja a difusão multivariada de Itô dada


por
dXt = µ (Xt , t) dt + σ (Xt , t) dBt

188
sendo x ∈ Rn , 0 ≤ s < t e µ (x, t) e σ (x, t) são funções que atendem as condições
de Hölder em relação a x e t. Seja p (s, t, x, y) a função densidade de transição em y,
então ela satisfaz a equação de Fokker-Planck ( equação forward de Kolmogorov)

∂p (s, t, x, y) 1 ∂ 2  2  ∂
− + 2
σ (y, t) p (s, t, x, y) − [µ (y, t) p (s, t, x, y)] = 0 (6.28)
∂t 2 ∂y ∂y
Na equação (6.28) s e x são fixas e as variáveis são y e t, daı́ a denominação forward.
O Apêndice deste capı́tulo apresenta o conceito de volatilidade local que faz uso da
equação de Fokker-Planck. Porém antes vejamos a equação de Feynman-Kac e a sua
aplicação ao apreçamento de uma opção de compra Européia.

6.6 Equação de Feynman-Kac


Esta seção apresenta dos detalhes da equação de Feynman-Kac que se constitui numa
extensão da equação de Kolmogorov vista na seção anterior.
Teorema 6.5. (Equação de Feyman-Kac) Seja f uma função limitada, duas vezes
diferenciável e com derivadas contı́nuas. Seja q uma função também limitada. Considere
0 ≤ s < t e x ∈ Rn . Seja Xt uma difusão multivariada de Itô com Xs = x e L o gerador
de difusão multivariado de Itô. Define-se v (x, s) por
h Rt i
h (x, s) = E e− s q(Xu )du f (Xt ) |x (6.29)

Então
∂h (x, s)
+ Lh (x, s) = qh (x, s) (6.30)
∂s
h (x, t) = f (x) (6.31)
O teorema 6.5 estabelece que a solução para o problema de valor final dado pelas
equações (6.30) e (6.31) é a equação (6.29), e esta solução é única. Veja a demonstração
do teorema 6.5 nas referências mencionadas no inı́cio do capı́tulo.

No que se segue vamos utilizar a equação de Feynman-Kac para encontrar a solução


do modelo de BMS. Vimos no capı́tulo 4 que a EDP do modelo de BMS é dada pela
equação (4.12) e abaixo reescrita.

∂c ∂c 1 2 2 ∂ 2 c
+ rX + σ X = rc (6.32)
∂t ∂x 2 ∂x2
com a consideração de que c é a opção de compra Européia e é função de Xt e t, e
escrevemos ct = f (x, t). Também há que se observar que t é o tempo corrente tal que
0 ≤ t ≤ T e T é a data do vencimento. A taxa livre de risco é constante ao longo do
vencimento e o mesmo ocorre com a volatilidade σ do ativo subjacente. A condição
terminal é dada por
c (XT , T ) = (XT − K)+ (6.33)
onde XT é o preço do ativo no vencimento e K > 0 é o preço de exercı́cio.

189
Das seções anteriores sabemos que o gerador de difusão de Itô do processo geométrico
Browniano, escrito sob a MME, é

∂g 1 2 2 ∂ 2 g
Lg (x) = rx + σ x
∂x 2 ∂x2
Em outras palavras, a equação (6.32) pode ser escrita por

∂c
+ Lc = rc (6.34)
∂t
Observe a correspondência entre as equações (6.34) e (6.30). Da mesma forma entre as
equações (6.33) e (6.31). Considerando h (x, t) ≡ ct = f (x, t) onde x ∈ R+ e Xt = x,
podemos escrever

∂h ∂h 1 2 2 ∂ 2 h
+ rX + σ X = rh 0≤t≤T (6.35)
∂t ∂x 2 ∂x2
e a condição terminal será
h (xT , T ) = (xT − K)+ (6.36)
Temos portanto um problema de valor final e vamos usar a equação de Feynman-
Kac (6.29) para resolvê-lo. O valor da opção é ct = h (x, t) que calculado pelo valor
esperado condicional é
h RT i
h (x, t) = E e− t q(Xu )du f (XT ) |XT |x (6.37)

Comparando a equação (6.34) com a equação (6.30) vemos que q = r, que é constante,
conforme a hipótese do modelo. O processo estocástico geométrico Browniano escrito
sob a MME é
dXt = rXt dt + σXt dB̃t 0≤t≤T (6.38)
A solução desta EDE é
1 2
xT = xe(r− 2 σ )τ +σB̃τ (6.39)
onde τ = T − t. A solução para o valor da opção h (x, t) será obtido a partir da
equação (6.37). Como o processo está escrito sob a MME usaremos a indicação do valor
esperado sob esta medida, teremos
h RT i
Q − t rdu
h (x, t) = E e f (XT ) |x

Já sabemos que o valor esperado condicional acima é idêntico ao valor esperado incondi-
cional, isto é h  i
1 2
h (x, t) = E Q e−r(T −t) f xe(r− 2 σ )τ +σB̃τ (6.40)
B̃τ
Sabemos que B̃τ ∼ N (0, τ ). Então podemos escrever w = √ τ
∼ N (0, 1). Além disso
+
temos que h (xT , T ) = (xT − K) . Levando estas considerações em (6.40) temos

e−r(T −t) √
Z + w2
 1 2
h (x, t) = √ xe(r− 2 σ )τ +σ τw
−K e− 2 dw (6.41)
2π −∞

190
Observe que a equação (6.41) é similar à equação (5.50) guardando obviamente as al-
terações na notação (h (x, t) em (6.41) é o preço da opção cujo ativo subjacente tem
preço inicial x equivalendo a ct em (5.50) cujo ativo subjacente tem preço inicial s).
Note que o valor esperado foi calculado em relação à medida neutra pois a difusão es-
tava sob esta medida. O desenvolvimento subsequente à (6.41), até a equação final do
modelo de BMS, demanda somente algebrismo e deixamos esta tarefa para o leitor.

6.7 Equações diferenciais estocásticas


6.7.1 Definições básicas
Definição 6.7. Seja Xt , t ≥ 0 um processo estocástico em (Ω, F, P ). Seja Bt um
Browniano padrão neste espaço. Uma equação da forma
dXt = µ (Xt , t) dt + σ (Xt , t) dBt (6.42)
onde µ (x, t) e σ (x, t) são processos adaptados, é denominada de EDE. Xt é a solução
de (6.42). Definiremos as condições sob as quais a EDE (6.42) admite solução.
Vimos alguns exemplos de EDE´s no capı́tulo 3 tais como (i) EDE do processo
geométrico Browniano, (ii) equação de Langevin e (iii) equação de Ornstein-Uhlenbeck.
Definição 6.8. (Exponencial estocástico) Seja Xt um processo estocástico de variação
finita e seja Yt dado por
dYt = Yt dXt (6.43)
com Y0 = 1, então Yt é definido como exponencial estocástico de Xt .
A solução de (6.43) é dada por
1
Yt = eXt −X0 − 2 [X,X](t) (6.44)
onde [X, X] (t) é a variação quadrática de X conforme a definição 3.4 e Xt segue a
dinâmica em (6.42).

Para mostrar que (6.44) é a solução de (6.43) vamos considerar que


1
Zt = Xt − X0 − [X, X] (t) (6.45)
2
Portanto temos
Yt = eZt (6.46)
e usando a fórmula de Itô para calcular dYt podemos verificar se obtemos (6.43). Temos
que
1
dYt = d eZt = eZt dZt + eZt d [Z, Z] (t)

2
A variação quadrática de Z é finita e é a mesma de X, então temos
 
Zt 1 1
dYt = e dXt − d [X, X] (t) + eZt d [X, X] (t)
2 2
Zt
= e dXt
= Yt dXt
como prentendı́amos verificar.

191
Exemplo 6.9. Calcule o exponencial estocástico Yt de Xt onde dXt = rdt + σBt , r >
0, σ > 0, sendo que dYt = Yt dXt .

Solução: Da equação (6.44) podemos escrever


1
Yt = eXt −X0 − 2 [X,X](t)
Mas X0 = 0 e [X, X] (t) = σ 2 t. Logo ficamos com
1 2
Yt = ert+σBt − 2 σ t = e(r− 2 σ )t+σBt
1 2


A solução Xt da EDE (6.42) pode ser tomada sob duas perspectivas: (i) solução
forte e (ii) solução fraca. A solução forte é a representação de Xt por um processo
estocástico que é função de Bt atendendo a equação (6.42). Quando a solução forte não
existe a EDE pode ter sua solução na forma de distribuição, que por sua vez pode ser
definida em outro espaço de probabilidade. Esta é denominada solução fraca da EDE.
Neste texto trataremos apenas da solução forte. Para maiores detalhes da solução fraca
recomendamos as referências mencionadas no inı́cio do capı́tulo.

6.7.2 Solução forte da EDE


Seja a EDE (6.42) com as respectivas considerações da definição 6.7. A seguir definimos
a solução forte.
Definição 6.9. (Solução forte) A solução da EDE (6.42) Xt , é dita forte se Xt é
uma função f (Bu , t) u ≤ t; se as integrais atendem as condições
Z t Z y
µ (Xu , u) du < ∞ q.c. |σ (Xu , u) |dBu < ∞ q.c.
0 0

e se a equação de Xt na forma integral


Z t Z t
Xt = X0 + µ (Xu , u) du + σ (Xu , u) dBu (6.47)
0 0

é atendida.
Exemplo 6.10. Retome o exemplo anterior, encontre a solução forte da EDE
dYt = rYt dt + σYt dBt

Solução: A EDE acima pode ser escrita por dYt = (rdt + σdBt ) Yt . Também sabemos
que Xt = rt + σBt . Logo a equação acima é dYt = Yt dXt . Vimos que a solução do
exponencial estocástico de Xt é
1 2
Yt = e(r− 2 σ )t+σBt
Ou ainda a solução da EDE pode ser escrita por
1 2
f (xt , t) = e(r− 2 σ )t+σxt


192
O exercı́cio que se segue é idêntico ao exercı́cio 3.16. Se o leitor jé resolveu-o escreva
a solução na forma f (xt , t). Se há alguma dificuldade em resolvê-lo, a próxima seção o
ajudará a encontrar a solução.

Exercı́cio 6.12. Considere a EDE

dXt = k (θ − Xt ) dt + σdBt X0 = 1 t≥0

onde k > 0, σ > 0 e θ representa a média de longo prazo de Xt . Encontre a solução


forte de Xt .

6.7.3 Solução geral da EDE


Nesta seção apresentamos a EDE na sua forma mais completa e formalizamos a sua
solução.

Seja Xt , t ≥ 0 um processo estocástico em (Ω, F, P ). Seja Bt um Browniano padrão


neste espaço com a filtração natural Ft . Considere a EDE definida por

dXt = (mt + nt Xt ) dt + (pt + qt Xt ) dBt (6.48)

onde mt , nt , pt e qt são processos adaptados e aqui serão tratados como funções deter-
minı́sticas do tempo.

Desejamos encontrar a solução de Xt para estas condições. Vamos proceder em duas eta-
pas, primeiramente vamos buscar a solução particular para o caso em que mt = pt = 0.
Posteriormente apresentaremos a solução geral.

Solução particular (mt = pt = 0)


Sob esta condição temos que a equação (6.48) é escrita como

dSt = nt St dt + qt St dBt (6.49)

Esta equação também pode ser escrita por

dSt = (nt dt + qt dBt ) St

Fazendo dYt = nt dt + qt dBt temos que (6.49) toma a forma do exponencial estocástico

dSt = St dYt (6.50)

St é o exponencial estocástico de Yt e a sua solução é dada por


1
St = S0 eYt −Y0 − 2 [Y,Y ](t) (6.51)

Por outro lado, sabemos que Yt na forma integral é dado por


Z t Z t
Yt = Y0 + nu du + qu dBu (6.52)
0 0

193
A variação quadrática de Y é data por d [Y, Y ] (t) = qt2 dt, consequentemente temos
Z t
[Y, Y ] (t) = qu2 du (6.53)
0

Levando os resultados de (6.52) e (6.53) em (6.51), temos:


Rt
nu du+ 0t qu dBu − 12 0t qu
R R 2
du
St = S0 e 0

t 1 2
Rt
St = S0 e 0 (nu − 2 qu )du+
R
qu dBu
0 (6.54)

Solução geral
A solução geral com mt 6= 0 e pt 6= 0 faz uso da solução particular vista anteriormente.
Vamos buscar a solução geral da forma

Xt = St Yt (6.55)

Neste caso consideramos St como

dSt = nt St dt + qt St dBt (6.56)

que é a equação (6.49) com solução já conhecida. Seja Yt dado por

dYt = gt dt + ht dBt (6.57)

onde gt e ht são processos adaptados considerados como funções determinı́sticas do


tempo e serão avaliados abaixo.

Vamos considerar que S0 = 1 de tal modo que X0 = Y0 . Diferenciando Xt e usando a


fórmula de Itô, obtemos
dXt = St dYt + Yt dSt + dSt dYt
dXt = St (gt dt + ht dBt ) + Yt (nt St dt + qt St dBt ) + qt ht St dt
dXt = (gt St + qt ht St + nt Xt ) dt + (ht St + qt Xt ) dBt (6.58)

Comparando (6.48) com (6.58), temos que


pt
ht St = pt ⇒ ht = (6.59)
St
gt St + qt ht St = mt (6.60)
Usando (6.59) em (6.60), temos

gt St + qt ct = mt
mt − qt pt
gt = (6.61)
St
Portanto a solução geral será
 t t 
mu − qu pu
Z Z
pu
Xt = St Y0 + du + dBu
0 Su 0 Su

194
Como Y0 = X0 , temos
 t t 
mu − qu pu
Z Z
pu
Xt = S t X0 + du + dBu (6.62)
0 Su 0 Su
onde St é dado por (6.54) com S0 = 1.
Exemplo 6.11. Considere o enunciado do exercı́cio 6.12. Encontre a solução forte de
Xt usando (6.62).

Solução: Comparando a EDE do exercı́cio 6.12 com a equação (6.48), podemos escr-
ever
mt = kθ nt = −k pt = σ e qt = 0
logo usando (6.62), temos
 Z t Z t 
kθ σ
Xt = S t 1 + du + dBu
0 Su 0 Su
com St sendo dado por (6.54), ou seja
Rt
−kdu
St = e 0 = e−kt
Portanto  Z t Z t 
−kt ku ku
Xt = e 1+ kθe du + σe dBu
0 0
Z t Z t
Xt = e−kt + kθe−k(t−u) du + σe−k(t−u) dBu (6.63)
0 0
ou ainda Z t Z t
−kt −k(t−u)
f (xt , t) = e + kθe du + σe−k(t−u) dxt
0 0

Exercı́cio 6.13. Considere o modelo de reversão geométrico dado por
dXt = k (µ − ln Xt ) Xt dt + σXt dBt
Encontre a solução forte de Xt sob a MME (Sugestão: reveja o exercı́cio 3.17).
Uma questão natural que surge é sob que condições a equação (6.42) tem solução?
Que propriedade importante tem a sua solução? Além disso, a solução é única? O
teorema seguinte garante a existência e unicidade.
Teorema 6.6. (Existência e unicidade da solução) Considere as mesmas condições
expressas na definição 6.7. Seja t ∈ [0, T ], T > 0 e k uma constante positiva. Admita
as seguintes condições:
(i) |µ (x, t) | + |σ (x, t) | ≤ k (1 + |x|) (6.64a)
(ii) |µ (x, t) − µ (y, t) | + |σ (x, t) − σ (y, t) | < k|x − y| (6.64b)
X0 é independente de Ft e E X02 < ∞
 
(iii) (6.64c)
então a EDE (6.42) tem solução única tal que
Z t 
2
E |Xu | du < ∞ (6.65)
0

195
A demonstração do teorema 6.6 pode ser vista em Øksendal (2003) [80], dentre out-
ros mencionados no inı́cio do capı́tulo.

Seja Xt a solução da EDE (6.42) conforme as condições do teorema 6.6. Pode-se demon-
strar que Xt é um processo Markoviano, ou seja, para 0 ≤ s < t e Xs = x
P (Xt ≤ z|Fs ) = P (Xt ≤ z|Xs = x) q.c. (6.66)
É intuitivo que Xt seja Markoviano pois de forma simplificada Xt+∆ = Xt + µ∆t + σB∆
e B∆ é Markoviano como já demonstrado.
Exercı́cio 6.14. Considere o modelo de Vasicek (1977) [100] para a dinâmica da taxa
de juros
dRt = (α − βRt ) dt + σdBt t≥0 (6.67)
onde α, β e σ são constantes positivas, encontre a solução forte f (rt , t). Calcule E (Rt )
e V ar (Rt ).
Exemplo 6.12. Considere o modelo de Hull e White (1990) [54] para a dinâmica da
taxa de juros
dRt = (αt − βt Rt ) dt + σt dBt t≥0 (6.68)
onde αt , βt e σt são funções determinı́sticas de t. Considere que o processo inicia-se em
R0 . Encontre a solução forte f (rt , t).

Solução: Comparando a equação (6.68) com a equação (6.48) temos que mt = αt ,


nt = −βt , pt = σt e qt = 0.

Primeiramente temos a solução para St obtida a partir da equação (6.54)


Rt
St = e− 0 βu du
(6.69)
A solução para Rt será
 Z t Z t 
αu σu
Rt = St R0 + du + dBu (6.70)
0 Su 0 Su
Levando a equação (6.69) em (6.70), temos
 Z t Z t 
− 0t βu du
R Ru Ru
βu βu du
Rt = e R0 + αu e 0 du + σu e 0 dBu
0 0
Z t Z t
− 0t βu du − ut βu du
R R Rt
Rt = R0 e + αu e du + σu e− u βu du dBu (6.71)
0 0

ou ainda
Rt
Z t Rt
Z t Rt
− −
f (rt , t) = R0 e 0 βu du
+ αu e u βu du du + σu e− u βu du
drt (6.72)
0 0
Rt
βu du
Podemos também resolver a EDE (6.68) usando o fator de integração e 0 . Multipli-
cando (6.68) por este fator, teremos
Rt Rt Rt Rt
βu du βu du βu du βu du
e 0 dRt = αt e 0 dt − βt e 0 Rt dt + σt e 0 dBt (6.73)

196
Rt
Calculando o diferencial de e 0 βu du Rt , temos
 Rt  Rt Rt
βu du
d e 0 Rt = βt e 0 βu du Rt dt + e 0 βu du dRt (6.74)

Somando as equações (6.73) e (6.74) e simplficando, teremos


 Rt  Rt Rt
d e 0 βu du Rt = αt e 0 βu du dt + σt e 0 βu du dBt

Integrando de 0 a t, temos
Rt
Z t Ru
Z t Ru
βu du βu du
e 0 Rt − R0 = αu e 0 du + σu e 0 βu du dBu
0 0
Rt
Z t Ru
Z t Ru
βu du βu du
e 0 Rt = R0 + αu e 0 du + σu e 0 βu du dBu
0 0
Rt
Z t Rt
Z t Rt
− 0 βu du − u βu du
Rt = R0 e + αu e du + σu e− u βu du dBu (6.75)
0 0

que é a mesma equação em (6.71).

Tanto o modelo de Vasicek (1977) como o de Hull e White (1990) para taxas de juros,
admitem valores negativo de Rt . Este é um ponto fraco de tais modelos. O modelo de
Cox, Ingersoll e Ross (1985) [23] (ou modelo CIR) dado pela seguinte EDE
p
dRt = (α − βRt ) dt + σ Rt dBt (6.76)

onde α, β e σ são positivos, não admite soluções negativas para a taxa de juros.
Esta EDE não é da forma daquela apresentada na equação (6.48). Não há nenhuma
solução fechada para (6.76). Muitas outras EDE’s não possuem solução analı́tica e a
solução numérica constitui uma alternativa para a obtenção de aproximações. Sugerimos
Kloeden e Platen (1992) [63] e Kloeden, Platen e Schurz (2003) [64] para as soluções
numéricas de EDE´s.

6.8 Resumo e considerações finais


Este capı́tulo apresentou conceitos relevantes para o apreçamento de derivativos eviden-
ciando o elo entre as metodologias de apreçamento vistas nos capı́tulos 4 e 5. Iniciamos
apresentando a propriedade de Markov que também será útil no capı́tulo seguinte. A
seguir a apresentamos o Teorema da Representação Martingal (TRM) que garante sob
algumas condições especı́ficas a existência de um integrando que é um processo adaptado.
Desta forma o processo de evolução do preço do ativo (ou do valor de um portfólio) é um
processo martingal. Em consequência podemos usar a equação geral de apreçamento. A
garantia da existência deste processo significa que podemos ter uma carteira replicante
para o apreçamento e a existência de hedge fica estabelecida. Na seção 5.7 fizemos isto
e neste capı́tulo formalizamos o conceito de replicação e hedging no apreçamento.

197
Em seguida tratamos dos aspectos relacionados ao cálculo estocástico multivariado.
Vimos as definições do processo de Itô multivariado e da fórmula de Itô multivariado.
Tais considerações são necessárias quando pretendemos estudar modelos que possuem
mais de uma fonte de incerteza. Tais modelos são frequentes em finanças e buscamos
ilustrá-los com exercı́cios e exemplos.

O gerador de difusão de Itô foi definido como a taxa de variação do valor esperado
de f (Xt ), onde Xt é uma difusão. Estes conceitos foram apresentados nas formas uni-
variadas e multivariadas. Finalizamos o capı́tulo definindo as equações de Kolmogorov e
de Feynman-Kac. Estas equações permitem resolver um problema de valor inicial (EDP)
através do cálculo de um valor esperado condicional. Desta forma buscamos tornar nı́tido
que as duas abordagens de apreçamento, vistas nos capı́tulos 4 e 5, estão relacionadas;
ficando evidente que o uso de uma ou outra é uma mera questão de conveniência. Con-
cluı́mos com o modelo de BMS derivado a partir da equação de Feynman-Kac.

Ampliamos a abordagem sobre EDE´s anteriormente apresentadas neste texto. A forma


geral da EDE que consideramos é

dXt = (mt + nt Xt ) dt + (pt + qt Xt ) dBt (6.77)

A sua solução geral é dada por


 t t 
mu − nu pu
Z Z
pu
Xt = St X0 + du + dBu (6.78)
0 Su 0 Su

onde St é a solução particular (ou exponencial estocástico) dada por


t 1 2
Rt
St = S0 e 0 (nu − 2 qu )du+
R
qu dBu
0 (6.79)

Exploramos algumas EDE´s de finanças que possuem a forma (6.77) e portanto têm
solução fechada como o processo geométrico Browniano, a equação de Langevin e Ornstei-
Uhlenbeck e as equações para os modelos de taxas de juros de Vasicek e Hull e White. As
EDE´s que não possuem solução analı́tica são tratadas numericamente e aproximações
são obtidas. Estas questões numéricas não são abordadas neste texto e requerem bibli-
ografia especialiazada.

6.9 Apêndice - Densidade implı́cita e volatilidade


local
Este Apêndice apresenta os conceitos de densidade implı́cita e volatilidade local, este
último sendo uma aplicação da equação de Fokker-Planck.

6.9.1 Densidade implı́cita


No capı́tulo 4 definimos o conceito de volatilidade implı́cita como sendo a volatilidade
oriunda do modelo de BMS usando os dados de preços das opções existentes no mercado.
É natural imaginar que, da mesma forma, há uma função densidade implı́cita neutra

198
ao risco que permita o apreçamento das opções. Sabemos que o preço ct de uma opção
de compra Européia, com preço de exercı́cio K, vencimento em T e taxa livre de risco
constante r no perı́odo 0 ≤ t ≤ T , é dado pela equação fundamental de apreçamento

ct = E Q e−r(T −t) (XT − K)+ |Ft


 
(6.80)

onde Xt é o preço à vista. Conforme já explicado nas equações (5.43) a (5.48) podemos
escrever, considerando o tempo remanescente para o vencimento τ = T − t, que

ct = E Q e−rτ (XT − K)+


 
0≤t≤T (6.81)

Consideremos agora o cálculo da opção com a função densidade neutra ao risco φ (XT ).
Então podemos escrever com base na equação (6.81) que
Z ∞
−rτ
c (K, T ; X0 ) = e (XT − K) φ (XT , T ; x) dXT (6.82)
K

Note que o preço da opção é função do preço de exercı́cio K, dado o preço inicial do
ativo subjacente X0 = x. Isto porque cada trajetória de preço entre 0 ≤ t ≤ T é função
1 2
do preço inicial x através de XT = xe(r− 2 σ )τ +σB̃τ .

A partir das informações da curva smile, onde temos os preços da opção em função
dos preços de exercı́cio, desejamos obter estimativas para a densidade neutra ao risco.
O resultado a seguir é devido a Breeden e Litzenberger (1978) [14].

Diferenciando a equação (6.82) em relação a K, obtemos


Z ∞
∂ct (K, T ; x) −rτ
= −e φ (XT , T ; x) dXT
∂K K

Novamente diferenciando em relação a K, temos


∂ 2 ct (K, T ; x)
= e−rτ φ (K, T ; x)
∂K 2
ou ainda
∂ 2 ct (K, T ; x)
φ (K, T ; x) = erτ (6.83)
∂K 2
A equação (6.83) significa que com as informações advindas da função ct (K; x) pode-se
obter a função densidade neutra ao risco. Esta função é extraı́da dos preços do mercado
e por isto é denominada densidade implı́cita neutra ao risco.

6.9.2 Volatilidade local


Sabemos que a volatilidade é um parâmetro não observável. No capı́tulo 2 lidamos com
modelos paramétricos que estimam a volatilidade capturando alguns fatos estilizados das
séries de retorno das ações. Tais modelos consideram a caracterı́stica de comportamento
em que há dependênica entre a volatilidade entre os instantes t e t−1. O comportamento
descrito nestes modelos é auto-regressivo e a volatilidade varia no tempo. Também vi-
mos modelos de volatilidade estocástica onde a aleatoriedade é representada por termo

199
de ruı́do. No capı́tulo 3 ressaltamos que o modelo de BMS com volatilidade constante
não era capaz de capturar o comportamento errático da volatilidade. Isto gerava o com-
portamento smile (smirk ) da volatilidade em um gráfico σ versus K. Em consequência,
modelos de volatilidade estocástica como do de Heston (1993) buscavam descrever mais
adequadamente a volatilidade implı́cita advinda dos preços de mercado. Neste contexto
surge o conceito de volatilidade local.

A volatilidade local σL denota um conjunto de volatilidades σ (Xt , t) que seja consistente


com os preços das opções e diferentes preços de exercı́cio de um dado ativo subjacente. A
volatilidade local modela a volatilidade instantânea que em cada momento irá produzir
um apreçamento coerente com os preços das opções observados no mercado para todos os
preços de exercı́cio e maturidades. Quando usamos o “termo consistente com os preços
das opções” estamos nos referindo também à consitência com a densidade implı́cita (ou
implicada pelos preços das opções). Em outras palavras, a volatilidade local envolve o
comportamento da densidade implı́cita com o tempo, isto é ∂p ∂t
. Portanto, é natural que
façamos uso da equação de Fokker-Planck (equação forward de Kolmogorov). A de-
terminação de volatilidade local é um problema de natureza inversa: dada a densidade
implı́cita φ = p (t, T, xt , xT ), extraı́da de observações de mercado, deseja-se encontrar a
volatilidade local σL (xt , t). Os primeiros trabalhos em tempo discreto e contı́nuo foram
apresentados por Derman e Kani (1994) [25] e Dupire (1994) [30], respectivamente. Aqui
trataremos deste conceito em tempo contı́nuo.

Dupire (1994, 1997) [30] [32] mostrou que sob a condição de neutralidade ao risco existe
um único processo de difusão consistente com esta função densidade. A função σL (Xt , t)
que é o coeficiente do termo de difusão (e também é única) é denominada volatilidade
local. Sob esta definição escrevemos que o processo de difusão dos preços sob a medida
martingal é dado por
dXt
= µ (Xt , t) dt + σL (Xt , t) dB̃t 0≤t≤T (6.84)
Xt
onde µ (Xt , t) = µt Xt = (r − αt ) Xt e αt é a taxa instantânea de dividendos. Trabal-
haremos como preço da opção sem o fator de desconto e−r(T −t) e será designado por c̄t .
Assim podemos escrever a equação (6.82) como
Z ∞
c̄t (K, T ; x) = (XT − K) φ (XT , T ; x) dXT 0≤t≤T (6.85)
K

Usando a equação de Fokker-Planck (veja seção 6.5) e observando que as variáveis for-
ward são XT e T , temos
∂φ 1 ∂ 2  2  ∂
− + 2
σ (XT , T ) φ − [µ (XT , T ) φ] = 0 (6.86)
∂T 2 ∂XT ∂XT
Também sabemos que o termo de difusão na equação (6.84) é dado por σ 2 (XT , T ) =
σL2 XT2 . O drift é dado pore µ (XT , T ) = (r − αT ) XT = µT XT onde µT é o drift do
processo na MME. A equação acima será
∂φ 1 ∂2  2 2  ∂
= 2
σ L XT φ − [µT XT φ] (6.87)
∂T 2 ∂XT ∂XT

200
O resultado em (6.83) permite escrever

∂ 2 c̄t (K, T ; x)
φ (K, T ; x) = (6.88)
∂K 2
Diferenciando a equação (6.85) em relação a K, temos
Z ∞ 
∂c̄t (K, T ; x) ∂
= φ (XT , T ; x) (XT − K) dXT (6.89)
∂T K ∂T
∂φ
A equação (6.87) fornece ∂T e usando este resultado em (6.89), temos
Z ∞
1 ∂2

∂c̄ (K, T ; x) 2 2
 ∂
= σ X φ − (µT XT φ) (XT − K) dXT
∂T K 2 ∂XT2 L T ∂XT
= (6.90)

A solução da integral acima leva ao resultado

∂ 2 c̄
 
∂c̄ (K, T ; x) 1 ∂c̄
= σL2 K 2 + µT c̄ − K (6.91)
∂T 2 ∂K 2 ∂K

que é denominada de equação de Dupire. Isto implica que dadas as informações dos
preços das opções para todos os preços de exercı́cio e maturidades, existirá somente um
valor de σL (K, T ; x) que atenderá a equação (6.91). Observe também que a derivação
da equação acima independe da natureza da dinâmica dos preços.

Pode-se também demonstrar a relação entre a volatilidada local e a volatilidade implı́cita.


Da mesma forma, demonstra-se que a variância local é o valor esperado, sob a medida
neutra, da variância instantânea, condicional a que o preço do ativo subjacente no venci-
mento seja o preço de exercı́cio. Este último resultado pode ser visto em Derman e Kani
(1998) [26] e em Dupire (1996) [31]. Ainda dentro deste contexto temos o conceito de
superfı́cie de volatilidade implı́cita em que a volatilidade implı́cita é definida em cada
maturidade para diferentes preços de exercı́cio. Todos estes tópicos são perfeitamente
passı́veis de desenvolvimento com os instrumentos já apresentados neste texto. No en-
tanto não o faremos e deixamos que o leitor interessado busque-os nas referências citadas.
Caso contrário, sairı́amos do objetivo principal a que nos propusemos.

A literatura conta com várias pesquisas empı́ricas para o levantamento da curva smile,
da superfı́cie de volatilidade implı́cita e da função densidade neutra ao risco. No mercado
brasileiro referimo-nos ao trabalho de Yoshino (2001) [102].

201
202
Capı́tulo 7

Derivativos Americanos

No capı́tulo 5 apresentamos alguns derivativos exóticos. Esses derivativos diferem do


tradicional derivativo do tipo Europeu por dois aspectos distintos: (i) pela forma como
é definido o valor do derivativo no vencimento (pode ser definido com base na trajetória
do preço do ativo subjacente), (ii) pela possibilidade de exercı́cio antecipado. Dentro da
classe dos derivativos com possibilidade de exercı́cio antecipado destacam-se os do tipo
Americano e Bermudiano. Os derivativos do tipo Americano são os mais negociados
nas bolsas em todo o mundo. Neste capı́tulo estudaremos as importantes questões
relacionadas ao seu apreçamento. Da mesma forma como fizemos no capı́tulos anteriores
o nosso enfoque será em opções de compra e venda.
As referências básicas sobre derivativos Americanos são Hull (2000) [53], McDonald
(2003) [70], Neftci (2000) [77], Joshi (2003) [59] e Wilmott, Howison e Dewynne (1995)
[101]. Com um nı́vel de rigor mais elevado citamos Musiela e Rutkowski (2004), Shreve
(2004) [94], Øksendal (2003) [80], Elliot e Kopp (2005) [34]. Muito dos conceitos dos
capı́tulos 4 e 7 podem ser encontrados no clássico artigo de Smith (1976) [96].

7.1 Conceitos básicos


Definição 7.1. (Opção Americana) O contrato de uma opção financeira do tipo
Americano fornece ao seu proprietário o direito, mas não a obrigação, de comprar/vender
um ativo (ativo objeto ou subjacente) por um preço K (preço de exercı́cio) em qualquer
data t (t ∈ [0, T ]) até a data T de vencimento.

Definição 7.2. (Opção Bermudiana) O contrato de uma opção financeira do tipo


Bermudiano fornece ao seu proprietário o direito, mas não a obrigação, de comprar/vender
um ativo (ativo objeto ou subjacente) por um preço K (preço de exercı́cio) em algumas
datas especı́ficas tk , onde tk ∈ [0, T ].

A definição 7.1 estabelece que o detentor do contrato pode exercer o seu direito em
qualquer data antes do vencimento T . Isto faz com que o proprietário de uma opção
Americana tenha um comportamento mais ativo que aquele de uma opção Européia.
Este último somente terá a decisão de exercı́cio em T . No caso da opção Americana
ele deve estar constantemente perguntando se é melhor exercer agora ou esperar o dia
seguinte. O mesmo raciocı́nio aplica-se ao caso da opção Bermudiana para as datas de
exercı́cio.

203
A opção do tipo Bermuda é um caso intermediário entre a opção Européia e Amer-
icana. Não existem fórmulas fechadas para o apreçamento das opções Americanas e
Bermudianas. Em geral recorre-se a aproximações e/ou soluções numéricas. O fato de
não haver uma fórmula definida, implica que as aproximações devem cuidadosamente
atender as restrições que surgem da formulação analı́tica que será apresentada neste
capı́tulo.
Definição 7.3. (Valor intrı́nseco) O valor intrı́nseco de uma opção em uma data t
é o valor resultante do seu exercı́cio neste instante, assim escrevemos

(Xt − K)+ opção de compra


(7.1)
(K − Xt )+ opção de venda

Considere o caso de um investidor proprietário de uma opção de compra Americana.


A cada instante de tempo ele deve preocupar-se acerca do momento ótimo de exercı́cio.
Em outras palavras, o investidor pergunta-se: o valor intrı́nseco é maior que o valor es-
perado da situação de não exercê-la (manter viva a opção) até o vencimento? Podemos
formalizar esta questão como se segue.

Seja então t ∈ [0, T ]. Será mais vantajoso o exercı́cio em t do que esperar pelo ex-
ercı́cio no vencimento se

Xt − K > E Q e−r(T −t) (XT − K)+ |Ft


 
(7.2)

onde r é a taxa livre de risco admitida como constante no perı́odo de maturação do


contrato. A questão que se segue é saber qual o instante t leva o investidor ao exercı́cio
ótimo. No vencimento T o fluxo de caixa recebido pelo investidor, dado que não houve
exercı́cio prévio, será XT − K. Seja t1 ∈ [0, T ] a primeira data imediatamente anterior
a T em que a opção pode ser exercida. Então será vantajoso o exercı́cio em t1 se

Xt1 − K > E Q e−r(T −t1 ) (XT − K)+ |Ft1


 
(7.3)

ou ainda podemos escrever

Xt1 − K > E Q e−rτ F CT |Ft1


 

onde F CT representa o fluxo de caixa em T e τ o tempo remanescente para o vencimento.

Seja agora t2 < t1 a primeira data anterior a t1 em que a opção pode ser exercida.
Será vantajoso exercer em t2 se

Xt2 − K > E Q e−r(t1 −t2 ) (Xt1 − K)+ |Ft2


 
(7.4)

ou ainda
Xt2 − K > E Q e−rτi F C|Ft2
 

onde τi pode ser tanto t1 − t2 como T − t2 (caso não tenha havido exercı́cio em t1 ) e
F C o respectivo fluxo de caixa em t1 ou T . Assim, trabalhando recursivamente pode-se

204
obter as possı́veis datas de exercı́cio antecipado.

Denomina-se por t? o instante ótimo de exercı́cio, onde o termo ótimo está associ-
ado ao maior valor dentre todas as possı́veis datas de exercı́cio antecipado. Definido o
instante ótimo t? , resta calcular o valor do derivativo Americano em uma data qualquer
t, 0 ≤ t < t? ≤ T . A data de exercı́cio ótimo t? é chamado de tempo de parada.
Se soubermos definir o tempo de parada sabemos que devemos exercer a opção neste
instante. Portanto, o tempo de parada é um importante conceito para o apreçamento
de derivativos Americanos. A inexistência de fórmulas fechadas para o apreçamento de
opções Americanas e Bermudianas está associada à caracterı́stica estocástica do tempo
de parada.

O tempo de parada é uma variável aleatória assumindo valores no intervalo [0, ∞].
No instante t quando observa-se uma realização para o tempo de parada escrevemos
que t? = t. Isto significa que a variável aleatória t? assume o valor t de um instante de
tempo do intervalo [0, ∞].

Considere um derivativo do tipo Americano cujo ativo subjacente é um processo es-


tocástico governado pelo processo Browniano Bt tal que t ∈ [0, T ] e T é data do venci-
mento. Seja Ft a σ-álgebra natural gerada por Bt . Nesta situação em que conhecemos
Ft sabemos dizer se t? ≤ t (houve exercı́cio do derivativo).
Definição 7.4. (Tempo de parada) O tempo de parada é uma variável Ft -mensurável
assumindo valores em [0, ∞] tal que
t? ≤ t para todo t ≥ 0 (7.5)

7.2 Apreçamento do derivativo


Com as definições da seção anterior podemos tratar do apreçamento de derivativos
Americanos. Nesta seção definiremos o derivativo Americano de forma genérica e na
seção seguinte o foco é apreçamento de uma opção de venda.
Definição 7.5. (Preço do derivativo Americano) Seja Xt um processo estocástico
governado por Bt com σ-álgebra natural Ft . Seja Θ o conjunto de todos os tempos de
parada entre t e T e seja θ ∈ Θ. Seja Λ (Xt , t) o preço de um derivativo Americano em
t sobre o ativo subjacente Xt tal que t ∈ [0, T ], então
Λ (Xt , t) = max E Q e−r(θ−t) Λ (Xθ , t, θ) |Ft
  
(7.6)
θ∈Θ

onde r é a taxa livre de risco admitida como constante em [0, T ].


A definição acima estabelece que para todos os possı́veis tempos de parada, onde o
investidor pode exercer o seu direito, devemos calcular o valor esperado sob Q, do valor
descontatado do derivativo e escolher o maior resultado. Assim, um dos valores de θ
será o tempo de parada t? . Veremos adiante como fazê-lo.
Exercı́cio 7.1. Escreva a equação em (7.6) para uma opção de venda cujo preço em t é
dado por V (Xt , t) e Xt é o processo do ativo subjacente conforme definido nesta seção.

205
Do que vimos até o momento está claro que o apreçamento de uma opção Americana
é mais oneroso que o caso de uma Européia.

Tomemos o caso de uma opção de venda do tipo Européia cujo preço é v (Xt , t) onde
Xt é o ativo subjacente descrito por um processo geométrico Browniano. Do capı́tulo 4
sabemos que v ( ·) deve satisfazer a EDP (4.24) aqui reescrita

∂v ∂v 1 2 2 ∂ 2 v
+ rX + σ X = rv (7.7)
∂t ∂x 2 ∂x2

juntamente com as condições de contorno em (4.26) a (4.28).

Na equação (7.7) o exercı́cio antecipado não é permitido pois trata-se de um opção


Européia. Seja V (Xt , t) o preço de uma opção de venda Americana sobre o mesmo
ativo subjacente. É intuitivo que o investidor que possui o direito de exercı́cio da opção
antes do vencimento atribuirá a este direito mais valor que no caso de uma opção Eu-
ropéia, mantidas as mesmas caracterı́sticas de prazo e preço entre os dois casos. Com
mais direitos envolvidos o seu preço deverá ser maior (V (Xt , t) ≥ v (Xt , t)) e portanto
V (·) não satisfará a EDP (7.7).

Agora vejamos o comportamento de uma opção de venda Européia em um gráfico simi-


lar ao da figura 7.1 e aqui reproduzido. Vemos que há regiões onde v é inferior ao valor

Figura 7.1: Opção de venda para τ = 2, K = 7, r = 5% e σ = 25%

intrı́nseco K − Xt . Considere o caso em que v (Xt , t) < K − Xt e considere também a


possibilidade de exercı́cio antecipado. Logo podemos comprar o ativo subjacente por Xt
e a opção por v (Xt , t) e exercer imediatamente o direito vendendo o ativo subjacente
por K. Então recebemos K e desembolsamos Xt + v resultando em um lucro sem risco
de K − Xt − v (pois por hipótese v é inferior a K − Xt ). Portanto, se há possibilidade
de exercı́cio antecipado V (Xt , t) ≥ K − Xt (usando a notação de maı́sculo para o caso

206
do exercı́cio antecipado ou opção Americana). Ou mais apropriadamente

V (Xt , t) ≥ (K − Xt )+ t ∈ [0, T ] (7.8)

Argumento idêntico pode ser construı́do para o caso de uma opção de compra em que o
ativo subjacente paga dividendos e temos então que

C (Xt , t) ≥ (Xt − K)+ t ∈ [0, T ] (7.9)

Exercı́cio 7.2. Considere que duas opções de compra Americanas diferem somente pela
data de exercı́cio. Apresente argumentos que levem à conclusão de que

C (Xt , t; K, T1 , σ, r) ≥ C (Xt , t; K, T2 , σ, r) (7.10)

onde T1 > T2 .
Exercı́cio 7.3. Considere duas opções de compra Americanas que diferem somente pelo
preço de exercı́cio, mostre que

C (Xt , t; K1 , T, σ, r) ≥ C (Xt , t; K2 , T, σ, r) (7.11)

onde K1 > K2 .
Exercı́cio 7.4. Com base nos exercı́cios 7.2 e 7.3 apresente os argumentos que levem
a conclusão de que o preço de uma ação ordinária é superior ou igual ao de uma opção
de compra Americana perpétua sobre esta ação com preço de exercı́cio zero, isto é

Xt ≥ C (Xt , t; 0, ∞, σ, r) ≥ C (Xt , t; K, T, σ, r) (7.12)

7.3 Apreçamento da opção de venda


Conforme vimos na seção anterior o apreçamento do derivativo Americano mostra-se
mais complexo que o de um Europeu, senão vejamos.

Considere o caso de uma opção de venda Americana V (Xt , t) onde Xt , (t ≥ 0) é o


ativo subjacente, com expiração em T , preço de exercı́cio K e taxa livre de risco cons-
tante r em [0, T ]. Para resolvermos o problema em (7.6) temos primeiramente que tomar
o máximo do valor esperado entre todos os tempos de parada, ou seja

max E Q e−r(θ−t) V (Xθ ) |Ft


 
(7.13)
θ

Feito isto, precisamos definir se o θ selecionado é realmente o tempo de parada. O valor


escolhido de θ será um tempo de parada t? = θ se for atendida a regra
?
V (Xt? , t? ) ≥ E Q e−r(t−t ) V (Xt , t) Ft? para t > t?
 
(7.14)

A equação (7.14) estabelece que haverá o exercı́cio antecipado (θ será um tempo de


parada: θ = t? ) quando o valor intrı́nseco do exercı́cio for superior ou igual ao valor
esperado de continuação (ou seja, o de manter viva a opção).

207
Ao aplicarmos os procedimentos especı́ficos descritos em (7.13) e (7.14) definiremos
em um plano Xt versus t duas regiões distintas: (i) em uma delas haverá o exercı́cio e
(ii) na outra não haverá o exercı́cio. Assim a estratégia ótima será da forma

t? = min [u : Xu < LV (Xu , u)] (7.15)


u

onde LV (Xt , t) define a equação da fronteira ótima de exercı́cio para a opção de venda
que separa as duas regiões acima.

Uma vez que conhecemos (ou sabemos determinar) LV (Xt , t) a decisão de exercı́cio
do derivativo Americano fica definida. Exploraremos os conceitos da fronteira ótima na
próxima seção.

Além da fronteira ótima, precisamos saber qual o preço da opção de venda em t = 0,


por exemplo. Imagine que tenhamos um plano Xt versus t e que apliquemos os proced-
imentos acima, resultando na definição do tempo de parada t? . Então o preço da opção
de venda Americana será o valor esperado do valor intrı́nseco em t? , descontado à data
inicial, em outras palavras se t = 0 é a data inicial, temos
?
V0 = E Q e−rt (K − Xt? )
 
(7.16)

7.4 Fronteira ótima de exercı́cio


Vimos na seção anterior o procedimento para o apreçamento de uma opção de venda
do tipo Americana. Entretanto o procedimento é geral e pode ser aplicado ao caso de
uma opção de compra, fazendo-se as modificações necessárias. Todo o procedimento da
estratégia ótima definida pelas equações (7.13) a (7.15) é denominado de problema de
contorno livre. Esta denominação resulta do fato de não conhecermos a priori a fronteira
ótima de exercı́cio LV (Xt , t). A aplicação destas equações irá definir a fronteira ótima e
possibilitará a definição do preço do derivatio como em (7.16). Esta seção define algumas
propriedades da fronteira ótima de exercı́cio que surgem no problema de contorno livre.

A primeira propriedade foi definida pelas equações (7.8) e (7.9), onde o valor do deriva-
tivo Americano é maior ou igual ao seu valor intrı́nseco. Esta condição foi obtida a
partir da não possibilidade de arbitragem quando existe o exercı́cio antecipado. Quando
prevalece a condição de igualdade significa que o derivativo Americano deve ser exercido.
Quando prevalece a desigualdade, não há o exercı́cio e a EDP de BMS é satisfeita.

Então outra forma de expressar este fato é considerar uma desigualdade na equação
de BMS, isto é
∂V ∂V 1 ∂ 2V
+ rx + σ 2 x2 2 − rV ≤ 0 (7.17)
∂t ∂x 2 ∂x
Para o caso de uma opção de venda na situação (ou região) de não exercı́cio vale a
igualdade em (7.17) e escrevemos

∂V ∂V 1 ∂ 2V
+ rx + σ 2 x2 2 − rV = 0 (7.18)
∂t ∂x 2 ∂x
208
V (Xt , t) > (K − Xt )+ (7.19)
Na situação em que há exercı́cio

V (Xt , t) = K − Xt (7.20)

E além disto vale a desigualdade estrita na equação (7.17), ou seja

∂V ∂V 1 ∂ 2V
+ rx + σ 2 x2 2 − rV < 0 (7.21)
∂t ∂x 2 ∂x
Usando a condição de (7.20) na equação (7.21) (e considerando que Xt < K) observamos
que o primeiro membro desta última será igual a −rK, consequentemente escrevemos

∂V ∂V 1 ∂ 2V
+ rx + σ 2 x2 2 − rV = −rK < 0 (7.22)
∂t ∂x 2 ∂x
Em um plano Xt versus t (veja a figura 7.3) observamos as duas regiões distintas onde
é vantajoso o exercı́cio da opção de venda (equações (7.22) e (7.20)) e a outra região
onde é vantajoso manter viva a opção (não exercê-la) (equações (7.18) e (7.19)).

Agora vamos investigar o comportamento de V (·) com relação ao preço do ativo sub-
jacente Xt . Portanto considere um plano de V (·) versus Xt . Neste plano temos uma
o
reta com inclinação de 45 representando o valor intrı́nseco. Uma questão a observar é
a inclinação da solução ótima em relação a função valor intrı́nseco V (Xt , t) = K − Xt .
Nos pontos da fronteira ótima de exercı́cio ∂V ∂x
= −1. Veja na figura 7.2 a função valor
intrı́nseco. Observe agora a curva (a) onde notamos que ocorrem situações em que
∂V
∂x
< −1. Note que estes casos são incompatı́veis com a ausência de arbitragem, senão

Figura 7.2: Transição suave na curva (b) compatı́vel com a aus encia de arbitragem

vejamos. Quando Xt aumenta a partir da insterseção com a reta do valor intrı́nseco,


o valor da opção é inferior a este último (veja na curva (a)). E isto está em desacordo
com a condição em (7.8) em que V (·) ≥ (K − Xt )+ . Um argumento similar é obtido

209
se imaginarmos o caso sem que ∂V
∂x
> −1. Resta portanto a condição em que ∂V ∂x
= −1
como mostrado na curva (b). Esta condição, que expressa a derivada da solução ótima
V (·) no ponto de contato com a função valor intrı́nseco, é denominada de transição
suave. Temos portanto que

∂V (Xt , t)
= −1 (7.23)
∂x

x = fronteira

onde x = fronteira significa todos os pontos pertencentes a fronteira LV (Xt , t). Assim
V (Xt , t) e ∂V (X
∂x
t ,t)
são ambas contı́nuas ao longo da fronteira.

Podemos sintetizar o que foi visto nesta seção com o gráfico onde esquematizamos no
plano Xt versus t o esboço da fronteira ótima de exercı́cio. Enfatizamos que não há
solução analı́tica para determinarmos LV (Xt , t). A figura 7.3 mostra a fronteira ótima
de exercı́cio. Para Xt ≥ LV (Xt , t) temos a região onde não há exercı́cio e onde a

Figura 7.3: Fronteira ótima de exercı́cio para uma opção de venda Americana

manutenção da opção viva é melhor que exercê-la. Nela são válidas as equações (7.18)
e (7.19). Para Xt ≤ LV (Xt , t), temos o caso em que é vantajoso o exercı́cio antecipado.
Nesta região são válidas as equações (7.20) e (7.22). Além disso, a condição de transição
suave é válida ao longo da fronteira ótima de exercı́cio. Podemos expressá-la para pontos
acima e abaixo de LV (Xt , t) escrevendo

∂V (Xt , t) ∂V (Xt , t)
+= − = −1 (7.24)
∂x x ∂x x

A transição suave não é válida em t = T . Neste instante na região superior (onde não
há exercı́cio) temos V (XT , T ) = 0. Na região inferior onde há o exercı́cio V (XT , T ) =
K − XT , que é o mesmo valor da opção Européia no vencimento. Isto implica que em
t = T , temos
∂V (XT , T ) ∂V (XT , T )
+=0 e − = −1 (7.25)
∂x x ∂x x

210
Ainda temos que quando o preço do ativo subjacente tende a zero, o valor da opção de
venda tende a K, isto é

lim V (Xt , t) = K 0≤t≤T (7.26)


Xt →0

Da mesma forma, se o preço do ativo subjacente cresce indefinidamente, a opção de


venda não tem nenhum valor

lim V (Xt , t) = 0 0≤t≤T (7.27)


Xt →∞

O preço da opção de venda V (Xt , t) pode ser obtido numericamente com o uso

(i) da equação (7.18) para Xt ≥ L (Xt , t),

(ii) da equação (7.20) para Xt ≤ L (Xt , t),

(iii) das equações de transição suave (7.24), e

(iv) da condição terminal definida pela equação V (XT , T ) = (K − XT )+

Ao se definir os valores de V (Xt , t) simultaneamente obtem-se a fronteira ótima de ex-


ercı́cio LV (Xt , t).

Se o domı́nio da EDP (7.18) fosse conhecido, apenas a condição de contorno (7.20)


seria necessária. No entanto o domı́nio não é conhecido e faz-se necessária mais uma
condição de contorno (equação (7.24)) para que o problema seja resolvido. Implı́cita
nesta argumentação está o uso da condição terminal.

7.5 Soluções Numéricas


Vimos, nas seções anteriores, que o preço de um derivativo, que tenha possibilidade
de exercı́cio antecipado, não possui solução analı́tica. A sua determinção deverá ser
estabelecida por procedimentos numéricos, conforme mencionado nas seções anteriores.
Existem vários métodos para tal, como por exemplo árvores binomiais, Monte-Carlo,
diferenças finitas, aproximações numéricas, dentre outros. Este texto não tem como
objetivo discorrer sobre métodos numéricos em finanças. Existem várias obras dedicadas
exclusivamente a este tópico. Não obstante, reservamos uma seção para introduzir os
conceitos do método binomial dada a sua importância e popularidade em finanças. Já
mencionamos várias referências que tratam de procedimentos numéricos relacionados a
economia e finanças. Aqui enfatizamos novamente tais textos: Hull (2000) [53], Wilmott,
Howison e Dewynne (1995) [101], Brandimarte (2003) [13], Glasserman (2003) [41],
Jäckel (2002) [57], McLeish (2005) [71], Judd (1998) [60], Duffy (2006) [29], e Huynh,
Lai e Soumare (2008) [55].

7.5.1 Método binomial


O método binomial, ou simplesmente árvore binomial, consiste na consideração de que
o movimento do preço de um tı́tulo entre os instantes t e t + ∆t será representado por

211
dois estados da natureza. Em geral considera-se que o primeiro estado representa uma
valorização do tı́tulo e o segundo uma desvalorização, ou seja, movimentos ascendente
e descendente do preço, respectivamente. Trata-se de um importante e popular método
em finanças onde a modelagem é simples e os resultados satisfatórios. Tem largo uso
didático e prático e há vários textos e capı́tulos de livros dedicados ao método binomial.
Além dos clássicos textos de finanças já referenciados, vale ressaltar o livro Shreve(2004)
[95] dedicado aos modelos de finanças, integralmente com o uso do método binomial.

Vamos considerar que em t o preço do tı́tulo seja Xt . Neste mesmo instante um deriva-
tivo Europeu sobre este tı́tulo tem preço Λt . Admitamos que o movimento de alta do
u
tı́tulo leve-o, em t + ∆t, ao preço Xt+∆t = uXt , onde u > 1. Da mesma forma para o
d
movimento de baixa temos Xt+∆t = dXt , onde d < 1. Consideremos também que p e
1 − p são as probabilidades de alta e baixa de Xt , respectivamente. Nos movimentos de
alta e de baixa os preços do derivativo serão Λut+∆t e Λdt+∆t , respectivamente.

Vamos montar um portfólio formado pela compra de ∆ tı́tulos e a venda de um unidade


do derivativo Europeu. Trata-se do mesmo portfólio usado na seção 4.2 para derivação
da EDP do modelo de Black e Scholes (1973). Então temos que o valor do portfólio em
t é Πt = ∆Xt − Λt .

Quando o tı́tulo subir teremos Πut+∆t = ∆Xt+∆t u


− Λut+∆t e da mesma forma quando
d d d
cair Πt+∆t = ∆Xt+∆t − Λt+∆t . O portfólio será livre de risco se para os movimentos de
alta e baixa o seu valor for o mesmo, isto é, Πut+∆t = Πdt+∆t . Nesta situação podemos
escrever
u
∆Xt+∆t − Λut+∆ = ∆Xt+∆t
d
− Λdt+∆t
∆uXt − Λut+∆t = ∆dXt − Λdt+∆t
Λut+∆t − Λdt+∆t
∆= (7.28)
uXt − dXt
O valor de ∆ na equação (7.28) tem o mesmo significado que aquele da equação (4.9).
Ou seja, significa a variação do preço do derivativo pela variação do preço do ativo
subjacente no instante t + ∆t.

O valor em t deste portfólio será

Πt = ∆uXt − Λut+∆t e−r∆t



(7.29)

onde r é a taxa livre de risco entre os instantes de tempo. Note que estamos supondo a
ausência de arbitragem e neste caso a taxa de desconto deverá ser a taxa livre de risco.
Então podemos escrever que

Πt = ∆Xt − Λt = ∆uXt − Λut+∆t e−r∆t



(7.30)

Enfatizamos que ao igualar o portfólio formado em t com o valor do portfólio em t + ∆t


descontado, estamos considerando a ausência da possibilidade de arbitragem. O preço
do derivativo será
Λt = ∆Xt − ∆uXt − Λut+∆t e−r∆t

(7.31)

212
Inserindo o valor de ∆ obtido na equação (7.28) na equação (7.31), resulta que

Λt = qΛut+∆t + (1 − q) Λdt+∆t e−r∆t


 
(7.32)

onde
er∆t − d
q= (7.33)
u−d
A equação (7.32) estabelece o preço do derivativo em t. Note que é uma ponderação
dos valores Λut+∆t e Λdt+∆t pelas quantidades q e 1 − q. De fato, q e 1 − q represntam
as probabilidades na medida neutra ao risco. A equação (7.32) é o valor esperado neste
medida dos prováveis preços do derivativo nos dois estados da natureza.

Portanto temos que p e 1 − p são as probabilidades de alta e baixa entre t e t + ∆t,


respectivamente. Estas são as medidas históricas, fı́sicas ou reais de evolução dos preços
entre os dois instantes. Os valores de q e 1 − q representam as probabilidades entre
estes mesmos instantes em uma situação de neutralidade ao risco. Podemos escrever a
equação (7.32) conforme fizemos anteriormente quando usamos os conceitos de finanças
em tempo contı́nuo
Λt = E Q e−r∆t Λt+∆t |Ft

(7.34)
onde Q representa o valor esperado sob a MME.

Podemos também escrever que

E P (Xt+∆t |Ft ) = pXt+∆t


u d
+ (1 − p) Xt+∆t (7.35)

onde P representa a medida real de probabilidade.

Exercı́cio 7.5. Considere as definições apresentadas nesta seção. Seja p e 1 − p as


probabildades de aumento e queda do preço do tı́tulo Xt , respectivamente, entre os in-
stantes t e t + ∆t. O que ocorre com o preço do derivativo Λt quando aumentamos ou
diminuimos o valor de p?

Exercı́cio 7.6. Calcule o valor esperado de Xt+∆t na MME, isto é E Q (Xt+∆t |Ft ).

Vamos considerar a situação com um perı́odo de tempo adicional. Agora o tı́tulo Xt


u d
pode evoluir no primeiro intervalo de tempo para Xt+∆t ou Xt+∆t . Evoluindo mais um
intervalo de tempo o preço pode, em cada estado, subir ou cair resultando na árvore
binomial mostrada na figura 7.4. A evolução do preço do derivativo está representado
na figura 7.5. Se um derivativo Europeu tem o seu vencimento em T = t + 2∆t então
sabemos o seu valor no vencimento. Usando a equação (7.34) podemos calcular o seu
preço no momento que antecede o vencimento, isto é
 −r∆t
Λut+∆t = qΛuu ud

t+2∆t + (1 − q) Λt+2∆t e (7.36)
 −r∆t
Λdt+2∆t = qΛud dd

t+2∆t + (1 − q) Λt+2∆t e (7.37)
onde q é dado pela equação (7.33). Procedendo de modo similar chegamos ao valor de
Λt
Λt = qΛut+∆t + (1 − q) Λdt+∆t e−r∆t
 
(7.38)

213
Figura 7.4: Árvore binomial com 2 perı́odos e 3 estados terminais

onde Λut+∆t e Λdt+∆t foram calculados em (7.36) e (7.37), respectivamente. Inserindo


estas equações em (7.38), temos
2 dd  −2r∆t
Λt = q 2 Λuu ud

t+2∆t + 2q (1 − q) Λt+2∆t + (1 − q) Λt+2∆ e (7.39)

O caso anterior era de uma árvore binomial com dois instantes de tempo t+∆t e t+2∆t.
Nesta situação o número de estados da natureza no vencimento (T = t+2∆t) é três (veja
figura 7.4). Para o caso em que temos M perı́odos, o vencimento será em T = t + M ∆t
e teremos M + 1 estados da natureza nesta data. Em um instante ti = t + i∆t temos
simultaneamente i + 1 nós (ou estados) representativos do preço do ativo subjacente.
Assim podemos escrever que os preços neste instante são

Xt+i∆t = di−j uj Xt 0≤j≤i (7.40)

onde j representa os estados da natureza. Assim para i = 2, os valores de Xt+2∆t serão

(i) j = 0 ⇒ d2−0 u0 Xt = d2 Xt

(ii) j = 1 ⇒ d2−1 u1 Xt = duXt

(iii) j = 2 ⇒ d2−2 u2 Xt = u2 Xt

Esta árvore está representada na figura 7.4. Em uma árvore com M perı́odos o valor
do derivativo Europeu no vencimento é uma função do preço do ativo subjacente no
vencimento
Λt+M ∆t = h (Xt+M ∆t ) (7.41)
onde h (·) representa a função que fornece o valor no vencimento. No caso de uma
opção de compra temos h (Xt+M ∆t ) = Xt+M ∆t − K onde K é o preço de exercı́cio.

214
Figura 7.5: Árvore binomial com os preços do derivativo em cada nó

De forma similar para a opção de venda o valor será h (Xt+M ∆t ) = K − Xt+M ∆t . A


figura 7.6 apresenta simplificadamente uma árvore binomial com M perı́odos. O valor
do derivativo Europeu em um instante ti desta árvore é dado pelo valor esperados dos
nós subsequentes sob a medida Q. Então escrevemos
h i
Λjt+i∆t = qΛj+1
t+(i+1)∆t + (1 − q) Λj
t+(i+1)∆t e
−r∆t
0 ≤ j ≤ i e 0 ≤ i ≤ M − 1 (7.42)

onde j representa os estados de alta e baixa subsequentes ao tempo ti = t+i∆t. Variando


j (0 ≤ j ≤ i) e i (0 ≤ i ≤ M − 1) chega-se ao valor do derivativo Europeu em t. Por
exemplo o valor de Λ1t+∆t , na árvore da figura 7.6 é dado por

Λ1t+∆t = qΛ2t+∆t + (1 − q) Λ1t+∆t e−r∆t


 

Para que o processo descrito pelos preços do ativo subjacente, no modelo binomial, seja
aderente ao processo geométrico Browniano, devemos ajustar adequadamente os valores
de u e d. No restante desta subseção nos dedicaremos a esta tarefa. Assim temos que o
processo geométrico Browninao escrito na medida real é dado por
1 2
Xt+∆t = Xt e(µ− 2 σ )∆t+σBt+∆t (7.43)

O valor esperado é
E P (Xt+∆t |Ft ) = Xt eµ∆t (7.44)
Este resultado deve ser idêntico ao da equação (7.35), ou seja

Xt eµ∆t = pXt+∆t
u d
+ (1 − p) Xt+∆t
= puXt + (1 − p) dXt

que resulta em
eµ∆t − d
p= (7.45)
u−d

215
Figura 7.6: Árvore binomial com M perı́odos e M + 1 nós no vencimento

onde p representa a probabilidade real para um movimento de alta.

No processo geométrico Browniano

dXt
= µdt + σdBt (7.46)
Xt

onde o primeiro membro representa o retorno dos preços do ativo subjacente entre t e
t + ∆t. Calculando as variâncias dos retornos temos
 
P Xt+∆t − Xt
V ar |Ft = σ 2 ∆t (7.47)
Xt

A variância dos retornos no modelo binomial entre t e t + ∆t é


 
Xt+∆t − Xt
V ar P
|Ft = pu2 + (1 − p) d2 − [pu + (1 − p) d]2 (7.48)
Xt

Igualando as equações (7.47) e (7.48) para adequar a volatilidade do modelo binomial à


volatilidade do processo geométrico Browniano, temos

pu2 + (1 − p) d2 − [pu + (1 − p) d]2 = σ 2 ∆t (7.49)

Usando a equação (7.45) na equação (7.49) resulta em

eµ∆t + (1 − p) d2 − ud − e2µ∆t − σ 2 ∆t = 0 (7.50)

O primeiro estudo da adequação do modelo binomial ao processo geométrico Browniano


foi realizado por Cox, Ross e Rubinstein (1979) [24]. Devido a sua popularidade este
modelo ficou conhecido como modelo binomial de CRR, referente às iniciais dos autores.

216
Neste estudo CRR desprezaram os termos de ordem superior a dois para o tempo, isto é
(∆t)2 ≈ 0. Também consideraram que u = d1 . Assim a equação (7.50) tem como solução

u = eσ ∆t
(7.51)

d = e−σ ∆t
(7.52)
Subsequentemente a este pioneiro trabalho outros autores apresentaram propostas para
a calibragem de u e d. O Apêndice deste capı́tulo contém os detalhes da calibragem do
modelo binomial de CRR.

Exercı́cio 7.7. Escreva


 a variãncia
 dos retornos de Xt entre t e t + ∆t na medida
Q Xt+∆t −Xt
MME, isto é V ar Xt
|Ft .

Exercı́cio 7.8. Considere o modelo binomial de CRR com dois perı́odos: t e t + ∆t.
Seja Xt o preço do ativo subjacente e ct o preço da opção de compra Européia com
preço de exercı́cio K. Os movimentos de alta e baixa do ativo subjacente são obtidos
com os fatores u e d. Considere que a taxa livre de risco seja zero. Calcule o preço da
opção de venda para o mesmo preço de exercı́cio. Verifique se o resultado encontrado
está de acordo com a paridade entre opções de compra e venda Européia definida pela
equação (4.2).

Exercı́cio 7.9. Seja o modelo binomial de CRR com n perı́odos e vencimento em T =


t + n∆t. A probabilidade de alta do ativo subjacente Xt é p. Calcule: (i) a probabilidade
de exercı́cio de uma opção de compra Européia com preço de exercı́cio K sobre tal ativo,
(ii) a probabilidade de exercı́cio da opção de venda Européia nas mesmas condições.

7.5.2 Derivativos Americanos e Bermudianos


Considere a árvore apresentada na figura 7.6. Para avaliação do derivativo Ameri-
cano/Bermudiano o procedimento segue a mesma ordem dos eventos que no caso do
derivativo Europeu. Isto é, iniciamos do final da árvore (data do vencimento) para o
inı́cio. No vencimento o valor do derivativo Americano é idêntico ao do Europeu. Em
qualquer instante ti anterior ao vencimento temos ti = t + i∆t onde i ≤ M − 1. Nestes
casos devemos computar a equação (7.42) e comparar com o valor intrı́nseco dado pela
função h (·). Em cada instante ti a opção Americana vale o maior entre os dois valores.
Assim temos
h   i
j j+1 j −r∆t
Λt+i∆t = max h (Xt+i∆t ) , qΛt+(i+1)∆t + (1 − q) Λt+(i+1)∆t e
0≤j≤i 0≤i≤M −1 (7.53)

O primeiro argumento entre colchetes é o valor intrı́nseco de exercı́cio. O segundo ar-


gumento é o valor esperado de continuação atualizado para a data ti . Fazendo variar
j e i nas equações (7.40) e (7.41) e simultaneamente aplicando a condição de máximo
definida na equação (7.53) chegaremos ao preço do derivativo Americano Λt .

Agora vejamos como definir a fronteira ótima de exercı́cio LV (Xt , t). Abaixo seguem as
etapas:

217
(i) definimos a partir de t a árvore de preços usando a equação (7.40) e um valor
inicial Xt ,

(ii) usamos a equação (7.41) para definir o valor do derivativo no vencimento,

(iii) procedemos o cálculo da opção Americana usando a equação (7.53),

(iv) repetimos todo o procedimento anterior para outro valor inicial Xt .

Se estivermos determinando a fronteira ótima para uma opção de venda Americana


(LV (·)) como na figura 7.3, devemos, em cada instante ti = t + i∆t, 0 ≤ i ≤ M − 1,
tomar o menor valor de Xti para o qual o valor esperado de continuação supera o valor
intrı́nseco. Procedendo desta forma para todos os ti , definimos a fronteira LV (Xti , ti ).

No caso de uma opção de compra Americana a fronteira LC (Xt , t) será obtida a partir
de cada ti , tomando o maior valor de Xti para o qual o valor esperado de continuação
supera o valor intrı́nseco.

O apreçamento de um derivativo Americano sobre um ativo subjacente que paga divi-


dendos deve ser procedido da mesma forma apresentada acima, apenas levando-se em
consideração que a árvore binomial dos preços de Xt+i∆t terá a influência de um redutor
(1 − α) referente a taxa de dividendos α a partir da data de pagamento dos mesmos.

Os derivativos com possibilidade de exercı́cio antecipado podem ser apreçados numeri-


camente através do método de simulação de Monte-Carlo. O leitor encontrará em Car-
riere (1996) [21], Tsitsiklis e Van Roy (2001) [99] e Longstaff e Schwartz (2001) [67]
detalhes sobre tais procedimentos. Esta última referência, que tornou-se popular, re-
cebeu a denominação de Mı́nimos Quadrados Monte-Carlo, ou LSM. Os autores usam
as informações dos preços simulados para o cálculo do valor esperado de continuação.
Este é obtido por uma regressão (MQO) dos fluxos de caixa subsequentes, no caso
de não exercı́cio da opção, versus o preço do ativo subjacente, avaliado por diferentes
funções (polinômios clássicos, de Legendre, de Hermite, de Laguerre, etc). Os métodos
de apreçamento por simulação de Monte-Carlo, em geral, demandam um grande tempo
computacional. Entretanto, são particularmente interessantes para o apreçamento de
derivativos Americanos/Bermudianos onde estejam presentes mais de uma fonte de in-
certeza (como por exemplo modelos de mais de um fator).

As aproximações numéricas são úteis para o apreçamento como uma alternativa aos
procedimentos numéricos. Referenciamos as aproximações quadráticas abordadas em
MaCMillan (1986) [69] e Barone-Adesi e Whaley (1987) [4]. Maiores detalhes podem
ser encontrado nas referências mencionadas no inı́cio da seção.

7.6 Propriedades das opções


Nesta seção iremos apresentar algumas propriedades das opções Americanas. O conteúdo
desta seção é útil para estabelecer limites para o preço da opção Americana compar-
ativamente ao preço da opção Européia e ao preço do ativo subjacente. Desta forma,

218
as metodologias numéricas, quando corretamente formuladas, devem fornecer resulta-
dos coerentes com os resultados até então definidos neste capı́tulo incluindo os que se
seguem.

Proposição 7.1. Uma opção de compra Americana sobre uma ação que não paga div-
idendos nunca será exercida antes do vencimento.

Prova. Considere a formação de dois portfólios A e B. O portfólio A é composto de


uma opção de compra Européia que na data t tem preço c (Xt , t; K, T, σ, r), (que por
simplicidade de notação será escrita como c (Xt , t; K, T )) e por K tı́tulos de renda fixa
que valem Ke−r(T −t) ou Ke−rτ , onde T é o vencimento e τ = T − t. O portfólio B
é composto de uma ação Xt . A tabela 7.1 abaixo mostra os valores dos porftólios na
data atual t e no vencimento T . Observe que não há fluxos de dividendos no portfólio

Tabela 7.1: Valores dos portfólios A e B na data atual e no vencimento


Portfólio Valor atual Valor no vencimento
XT < K XT > K
A c (Xt , t; K, T ) + Ke−rτ 0+K (XT − K) + K

B Xt XT XT

B. No vencimento, quando XT < K, o portfólio A vale a mais que B. Similarmente,


quando XT > K os dois portfólios tem o mesmo valor. Se o valor do portfólio A é maior
ou igual ao de B em qualquer estado da natureza na data do vencimento, então para
evitar a possibilidade de arbitragem, deverá apresentar a mesma forma de dominância
em qualquer anterior a T . Desta forma escreve-se

c (Xt , t; K, T ) + Ke−rT ≥ Xt (7.54)

A equação (7.54) pode ser escrita por


+
c (Xt , t; K, T ) ≥ Xt − Ke−rτ (7.55)

Podemos ainda escrever que


+
C (Xt , t; K, T ) ≥ c (Xt , t; K, T ) ≥ Xt − Ke−rτ (7.56)

Note que se exercida em t, uma opção de compra Americana vale (Xt − K)+ que é menor
+
que (Xt − Ke−rτ ) . Desta forma, o proprietário da opção Americana prefere vendê-la
a exercê-la. Isto permite concluir que na ausência de dividendos uma opção de compra
Americana nunca será exercida antes do vencimento e portanto seu preço será igual ao
de uma Européia.
Esta propriedade tem aplicação imediata pois sabemos que o apreçamento da opção
de compra Européia é feito com o uso de uma fórmula fechada de BMS.

Proposição 7.2. Uma opção Americana perpétua sobre uma ação ordinária que não
paga dividendos deve valer tanto quanto esta ação.

219
Prova. Da equação (7.56) temos que
+
C (Xt , t; K, T ) ≥ Xt − Ke−rτ (7.57)

Para uma opção perpétua T = ∞, ou seja, τ = ∞ (τ = T − t). Logo, Ke−rτ = 0 e então

C (Xt , t; K, T ) ≥ Xt (7.58)

Por outro lado da equação (7.12) temos que

Xt ≥ C (Xt , t; K, ∞) (7.59)

Das equações (7.58) e (7.59) concluı́mos

Xt = C (Xt , t; K, ∞) (7.60)

Proposição 7.3. O preço de uma opção de compra Americana é uma função convexa
do preço de exercı́cio. Se K2 = λK1 + (1 − λ) K3 , onde K1 ≥ K2 ≥ K3 e 0 ≤ λ ≤ 1,
então
C (Xt , t; K2 ) ≤ λC (Xt , t; K1 ) + (1 − λ) C (Xt , t; K3 ) (7.61)

Tabela 7.2: Valores dos portfólios A e B na data atual e no vencimento


Portfólio Valor atual Valor no vencimento
XT ≤ K3 K3 < XT < K2 K2 < XT < K1 XT ≥ K1

A λC (·; K1 ) + 0+ 0+ 0+ λ (XT − K1 ) +
κC (·; K3 ) 0 κ (XT − K3 ) κ (XT − K3 ) κ (XT − K3 )

B C (·; K2 ) 0 0 XT − K2 XT − K2

Prova. Considere dois portfólios A e B. O portfólio A contém λ opções de compra com


preço de exercı́cio K1 e (1 − λ) opções de compra com preço de exercı́cio K3 . O portfólio
B contém uma opção de compra com preço de exercı́cio K2 . A tabela 7.2 mostra os
valores atual e no vencimento de cada portfólio (usamos a denominação κ = 1 − λ). No
vencimento, em todos os estados da natureza dos preços XT , relativamente aos preços de
exercı́cios K1 , K2 e K3 , o valor do portfólio A é maior ou igual ao de B. Portanto, para
que não haja arbitragem, na data t deve prevalecer a mesma dominância do vencimento
e portanto vale a relação em (7.61).

Exercı́cio 7.10. Considere uma opção de compra Americana sobre uma ação que paga
dividendos. Mostre que é possı́vel que haja exercı́cio da opção antes do vencimento.

220
7.7 Resumo e considerações finais
Este capı́tulo analisou os conceitos relevantes para o apreçamento de derivativos com
possibilidade de exercı́cio antecipado. A maior parte dos conceitos foram desenvolvidos
usando o caso de uma opção de venda Americana. Neste contexto foi apresentado o
conceito de tempo de parada e a sua importância para definir o preço do derivativo
Americano. Sabemos que a ausência de uma solução fechada para o preço do derivativo
Americano é um obstáculo para o seu apreçamento imediato. Por esta razão os conceitos
deste capı́tulo são necessários para o desenvolvimento de algorı́tmos que tenham por
finalidade tal apreçamento. O proprietário de uma opção Americana deve ser ativo
durante todo o tempo de maturação do derivativo. Ser ativo, neste caso, significa
que deve estar continuamente avaliando o ganho do exercı́cio imediato contra o valor
esperado de continuação (ou de manter viva a opção). Ao aplicarmos continuamente
este conceito desenvolvemos uma estratégia ótima de tal forma que definimos o tempo
de parada por
t? = min [u : Xu < L (Xu , u)] (7.62)
u

A fronteira ótima LV (Xt , t) é definida, neste caso, pelo menor preço que torna o valor
de continuação superior ao valor da opção quando exercida (opção de venda). Na região
de continuação vale a equação de BMS e o valor da opção é superior ao valor intrı́nseco.
Na região em que é favorável o exercı́cio o preço da opção é dado pelo valor intrı́nseco e
prevalece uma desigualdade estrita na equação de BMS. Foi mostrado que sob o argu-
mento de não arbitragem a derivada ∂V ∂x
ao longo da fronteira ótima de exercı́cio é tal
∂V ∂V
que ∂x + = ∂x−
= −1. Esta condição é denominada transição sauve. Isto significa que,
no ponto ótimo de exercı́cio, a taxa de variação do preço da opção em relação ao preço
do ativo é idêntico para pontos imediatamente acima e abaixo da fronteira.

A definição das fronteira LV (·) e LC (·) é feita numericamente e simultaneamente ao


apreçamento da opção Americana. Por esta razão o problema de apreçamento de uma
opção Americana é um problema de fronteira livre.

Em geral, no apreçamento, são utilizadas metodologias como método de Monte-Carlo,


diferenças finitas, método binomial, etc. Neste texto dedicamos atenção ao método
binomial dada a sua importância em finanças. A calibragem do método binomial ao
ambiente do modelo de BMS (processo geométrico Browniano) foi explorada sob a ótica
do modelo de Cox, Ross e Rubinstein (1979) [24]. Sugerimos aos leitores interessdos
na metodologia de apreçamento por Monte-Carlo que consultem a referência relativa
ao método LSM em Longstaff e Schwartz (2001) [67]. Finalizamos o capı́tulo apresen-
tando algumas propriedades úteis para o apreçamento que foram demonstradas sob o
argumento de não arbitragem entre um instante t (antes do vencimento) e a data de
maturação T .

7.8 Apêndice - Método binomial de CRR


Este Apêndice apresenta os detalhes da calibração dos parâmetros com o processo log-
normal dos preços do ativo subjacente, conforme Cox, Ross e Rubinstein (1979) [24].

221
Para simplificar a notação vamos considerar a data de vencimento t = T e a data inicial
T
será t = 0. Cada incremento de tempo ∆t do processo binomial será ∆t = M .

Em primeiro lugar e processo geométrico Browniano em tempo contı́nuo e a respec-


tiva solução da EDP são
dXt
= µdt + σdBt (7.63)
Xt
1 2
Xt = xe(µ− 2 σ )t+σBt x = X0 (7.64)
Sabemos que estas mesmas equações escritas na MME são dadas por
dXt
= rdt + σdB̃t (7.65)
Xt
1 2
Xt = xe(r− 2 σ )t+σB̃t x = X0 (7.66)
Escrevendo as equações (7.64) e (7.66) em termos do logaritmo neperiano, temos
   
Xt 1 2
ln = µ − σ t + σBt (7.67)
x 2
   
Xt 1 2
ln = r − σ t + σ B̃t (7.68)
x 2
Os valores esperados incondicionais de (7.67) e (7.68) são
    
P Xt 1 2
E = ln = µ− σ t (7.69)
x 2
    
Q Xt 1 2
E = ln = r− σ t (7.70)
x 2
As variâncias incondicionais são idênticas e dadas por
     
P Xt Q Xt
V ar ln = V ar ln = σ2t (7.71)
x x

Agora discretizando o processo em intervalos de tempo iguais a ∆t, observamos que


após n intervalos, temos t = n∆t. As equações (7.69), (7.70) e (7.71) tornam-se
    
P Xt 1 2
E = ln = µ − σ n∆t (7.72)
x 2
    
Q Xt 1 2
E = ln = r − σ n∆t (7.73)
x 2
     
P Xt Q Xt
V ar ln = V ar ln = σ 2 n∆t (7.74)
x x
Estas equações acima definem o processo estocástico e os seus dois primeiros momentos
da variável Xt que representa o preço do ativo subjacente no ambiente Gaussiano do
modelo de BMS.

222
Para manter a coerência da resposta do modelo binomial com a modelagem de BMS,
necessitamos calibrar os parâmetros u e d para que os dois primeiros momentos sejam
os mesmos nos dois casos. Vamos agora nos reportar ao modelo binomial.

Seja Z a variável aleatória associada aos movimentos de alta e baixa dos preços no
modelo binomial. Se o preço sobe entre (i − 1) ∆t e i∆t temos que Zi = 1. Se o preço
cai neste mesmo intervalo Zi = 0. Isto significa Zi = 1 com probabilidade p e Zi = 0
com probabilidade 1 − p. Entre os instantes i∆t e (i + 1) ∆t a situação repete-se e os
movimentos são independentes daqueles do intervalo anterior. Em outras palavras, Z é
uma variável aleatória que tem distribuição de Bernoulli com parâmetro p (veja seção
n intervalos de tempo temos t = n∆t e o preço teve ni=1 Zi movimentos de
P
1.3). Após P
alta e n − ni=1 movimentos de baixa. Então o preço Xt será
Pn
Zi n− n
P
Xt = xu i=1 d i=1 Zi

Trabalhando a expressão acima, temos


  n
Xt u X
ln = n ln d + ln Zi (7.75)
x d i=1

Calculando o valor incondicional de (7.75), temos


   " n
#
Xt  u  X
E P ln = E n ln d + ln Zi
x d i=1
n
!
X
= n ln d + (ln u − ln d) E Zi
i=1
= n ln d + (ln u − ln d) np
= np ln u + n (1 − p) ln d (7.76)
Xt

A distribuição de ln x
para grandes valores de n será próxima de uma distribuição
d
normal. Isto porque limn→∞ ni=1 Zi = N (·). Este resultado é devido ao Teorema Cen-
P
tral do Limite (veja o teorema 1.4). Ou seja, o mundo em que o ativo tem movimentos
de alta e/ou baixa (distribuição binomial) tenderá a uma distribuição normal para os
log-retornos quando n é grande. Por esta razão impomos a condição dos dois primeiros
momentos serem os mesmos daqueles do modelo de BMS.

Assim igualamos as equações (7.76) e (7.72)


 
1 2
np ln u + n (1 − p) ln d = µ − σ n∆t
2
 
1 2
p ln u + (1 − p) ln d = µ − σ ∆t
2
p ln u + (1 − p) ln d = µ? ∆t (7.77)

onde µ? = µ − 12 σ 2 .

223
Sob a condição de neutralidade ao risco a equação (7.77) será

q ln u + (1 − q) ln d = µ?N ∆t (7.78)

onde µ? = r − 21 σ 2 .

Xt

Calculando a variância incondicional de ln na equação (7.75), temos
x
   " n
#
Xt  u  X
V arP ln = V arP n ln d + ln Zi
x d i=1
n
!
h  u i2 X
= ln V arP Zi
d i=1
h  u i2
= ln np (1 − p) (7.79)
d
Igualando as equações (7.79) e (7.74), temos
h  u i2
ln np (1 − p) = σ 2 n∆t
d
h  u i2
p (1 − p) ln = σ 2 ∆t (7.80)
d
Na condição de neutralidade ao risco a variância não é afetada.

Mencionamos anteriormente que no modelo de CRR havia a consideração de que u = d1 ,


então ln u = − ln d. Este resultado levado na equação (7.77) resulta em

p ln u + (1 − p) (− ln u) = µ? ∆t
2p ln u = µ? ∆t + ln u
1 µ?
p= + (7.81)
2 2 ln u
Observando a equação (7.80) vemos que para calcular a variância devemos computar
p (1 − p). Faremos isto com o resultado da equação (7.81), então

1 µ? ∆t 1 µ? ∆t
  
p (1 − p) = + −
2 2 ln u 2 2 ln u
2
1 1 µ? ∆t

= − (7.82)
4 4 ln u

Também devemos computar ln ud . Assim temos




u
ln = 2 ln u (7.83)
d
Usando os resultados de (7.82) e (7.83) na equação (7.80), temos
" 2 #
1 1 µ∗ ∆t

− (2 ln u)2 = σ 2 ∆t (7.84)
4 4 ln u

224
Os autores consideraram que as potências de ∆t maiores ou iguais da dois são aproxi-
mandamente zero (desprezı́veis), logo resulta em

(ln u)2 = σ 2 ∆t

ln u = σ ∆t

u = eσ ∆t
(7.85)

Consequentemente √
d = e−σ ∆t
(7.86)
Usando o resultado de (7.85) na equação (7.81)

1 µ? ∆t 1 1 µ? √
p= + √ = + ∆t (7.87)
2 2σ ∆t 2 2σ

Note que para valores infinitesimais de ∆t (∆t → ∞), p tende a 12 . Por outro lado,
vimos na equação (7.33) que sob a MME a probabilidade (de alta) é

er∆t − d
q=
u−d
A partir desta definição pode-se demonstrar que para valores infinitesimais de ∆t (∆t →
∞) q tende a 12 .

Exercı́cio 7.11. Sabendo que como consequência de não arbitragem o valor de q é

er∆t − d
q=
u−d
então mostre que
1
lim q =
∆t→0 2
Exercı́cio 7.12. Defina quais condições que u e d devem atender para que tenhamos
0 ≤ q ≤ 1.

225
226
Referências Bibliográficas

[1] Akaike, H. A new look at the statistical model identification. IEEE Transactions
on Automatic Control 19, 6 (1974), 716–723.

[2] Anderson, H., Nam, K., and Vahid, F. Asymmetric nonlinear smooth transi-
tion GARCH models. Nonlinear Time Series Analysis of Economic and Financial
Data, Boston: Kluwer (1999), 191–207.

[3] Baidya, T., and Castro, P. Uma aplicação do teorema da integral de Fourier
na solução da equação diferencial de Black e Scholes para precificação de opções
de compra. Revista Brasileira de Mercado de Capitais 17, 45 (1992).

[4] Barone-Adesi, G., and Whaley, R. Efficient analytic approximation of


American option values. Journal of Finance (1987), 301–320.

[5] Baxter, M., and Rennie, A. Financial Calculus: an introduction to derivative


pricing. Cambridge University Press, 1996.

[6] Baz, J., and Chacko, G. Financial derivatives: pricing, applications, and
mathematics. Cambridge University Press, 2004.

[7] Björk, T. Arbitrage theory in continuous time. Oxford University Press, USA,
2004.

[8] Black, F. The price of commodity contracts. Journal of Financial Economics 3


(1976), 167–79.

[9] Black, F., and Scholes, M. The pricing of options and corporate liabilities.
Journal of Political Economy 81, 3 (1973), 637–654.

[10] Bollerslev, T. Generalized autoregressive conditional heteroskedasticity. Jour-


nal of Econometrics 31 (1986), 307–327.

[11] Bollerslev, T. A conditionally heteroskedastic time series model for speculative


prices and rates of return. The review of economics and statistics (1987), 542–547.

[12] Bollerslev, T., and Wright, J. High-frequency data, frequency domain


inference, and volatility forecasting. Review of Economics and Statistics 83, 4
(2001), 596–602.

[13] Brandimarte, P. Numerical methods in finance: a MATLAB-based introduc-


tion. Wiley-Interscience, 2003.

227
[14] Breeden, D., and Litzenberger, R. Prices of contingent claims implied in
option prices. Journal of Business 51 (1978), 621–651.

[15] Breidt, F., and Carriquiry, A. Improved quasi-maximum likelihood estima-


tion for stochastic volatility models. Modelling and prediction: honoring Seymour
Geisser (1996), 228–247.

[16] Brock, W., D., D., Sheinkman, J., and LeBaron, B. A test for inde-
pendence based on the correlation dimension. Econometrics Review 15, 3 (1996),
197–235.

[17] Broto, C., and Ruiz, E. Estimation methods for stochastic volatility models:
a survey. Journal of Economic Surveys 18, 5 (2004), 613–649.

[18] Brown, J., and Churchill, R. Fourier series and boundary value problems.
McGraw-Hill Singapore, 1978.

[19] Campbell, J., Lo, A., and McKinlay, C. The Econometrics of Financial
Markets. Princeton, New Jersey: Princeton University Press, 1997.

[20] Carnero, M., Pena, D., and Ruiz, E. Persistence and kurtosis in GARCH
and stochastic volatility models. Journal of Financial Econometrics 2, 2 (2004),
319–342.

[21] Carriere, J. Valuation of the early-exercise price for options using simula-
tions and nonparametric regression. Insurance Mathematics and Economics 19, 1
(1996), 19–30.

[22] Casella, G., and Berger, E. L., 1990: Statistical Inference. Duxbury Press,
Belmont, California, 2001.

[23] Cox, J., Ingersoll Jr, J., and Ross, S. A theory of the term structure of
interest rates. Econometrica: Journal of the Econometric Society (1985), 385–407.

[24] Cox, J., Ross, S., and Rubinstein, M. Option pricing: A simplified approach.
Journal of Financial Economics 7 (1979), 229–263.

[25] Derman, E., and Kani, I. Riding on a smile. Risk 7, 2 (1994), 32–39.

[26] Derman, E., and Kani, I. Stochastic implied trees: Arbitrage pricing with
stochastic term and strike structure of volatility. International Journal of Theo-
retical and Applied Finance 1, 1 (1998), 61–110.

[27] Dickey, D., and Fuller, W. Distribution of the estimators for autoregressive
time series with a unit root. Journal of the American Statistical Association
(1979), 427–431.

[28] Duffie, D. Dynamic asset pricing theory. Princeton University Press Princeton,
NJ, 2001.

[29] Duffy, D. Finite Difference Methods in Financial Engineering: A Partial Dif-


ferential Equation Approach. John Wiley& Sons Ltd, 2006.

228
[30] Dupire, B. Pricing with a smile. Risk 7 (1994), 18–20.

[31] Dupire, B. A unified theory of volatility. Tech. rep., Banque Paribas working
paper, reprinted in Derivatives Pricing: The Classic Collection, edited by Peter
Carr, 2004 (Risk Books, London), 1997.

[32] Dupire, B. Pricing and hedging with smiles. Mathematics of derivative securities
1, 1 (1997), 103–111.

[33] Durbin, J., and Koopman, S. Time series analysis by state space methods.
Oxford University Press, 2001.

[34] Elliot, R., and Kopp, P. Mathematics of Financial Markets. New-York,


Springer, 2nd, 2005.

[35] Embrechts, P. Copulas: A personal view. Journal of Risk and Insurance (2008).

[36] Engle, R. Autoregressive conditional heteroscedasticity with estimates of the


variance of United Kingdom inflation. Econometrica: Journal of the Econometric
Society (1982), 987–1007.

[37] Engle, R., and Ng, V. Measuring and testing the impact of news on volatility.
Journal of Finance (1993), 1749–1778.

[38] Fornari, F., and Mele, A. Sign-and volatility-switching ARCH models: the-
ory and applications to international stock markets. Journal of Applied Econo-
metrics (1997), 49–65.

[39] Franses, P., and Van Dijk, D. Nonlinear time series models in empirical
finance. Cambridge University Press, 2000.

[40] Fuller, W. Introduction to statistical time series. Wiley-Interscience, 1996.

[41] Glasserman, P. Monte Carlo methods in financial engineering. Springer Verlag,


2003.

[42] Glosten, L., Jagannathan, R., and Runkle, D. On the relation between
the expected value and the volatility of the nominal excess return on stocks. Jour-
nal of Finance (1993), 1779–1801.

[43] González-Rivera, G. Smooth-transition GARCH models. Studies in Nonlinear


Dynamics and Econometrics 3, 2 (1998), 61–78.

[44] Gourieroux, C., and Jasiak, J. Financial econometrics: problems, models,


and methods. Princeton University Press, 2001.

[45] Hagerud, G. Anew non-linear GARCH model. PhD thesis, PhD Dissertation,
Stockholm School of Economics, 1997.

[46] Hamilton, J. Time series analysis. Princeton Univ Pr, 1994.

229
[47] Harrison, J., and Kreps, D. Martingales and arbitrage in multiperiod secu-
rities markets. Journal of Economic theory 20, 3 (1979), 381–408.

[48] Harrison, J., and Pliska, S. Martingales and stochastic integrals in the
theory of continous trading. Stochastic processes and their applications 11 (1981),
215–260.

[49] Harvey, A. Forecasting, structural time series models and the Kalman filter.
Cambridge University Press, 1991.

[50] Harvey, A., Ruiz, E., and Shephard, N. Multivariate stochastic variance
models. The Review of Economic Studies (1994), 247–264.

[51] Heston, S. A closed-form solution for options with stochastic volatility with
applications to bond and currency options. Review of Financial Studies (1993),
327–343.

[52] Hogg, R., Craig, A., and McKean, J. Introduction to mathematical statis-
tics. Prentice Hall, New Jersey, 2004.

[53] Hull, J. Options, futures, and other derivatives. Pearson Prentice Hall, 2008.

[54] Hull, J., and White, A. Pricing interest-rate-derivative securities. Review of


financial studies (1990), 573–592.

[55] Huynh, H., Lai, V., and Soumare, I. Stochastic Simulation and Applications
in Finance with MATLAB Programs. John Wiley & Sons, 2009.

[56] Iório Jr, R., and Iório, V. Fourier analysis and partial differential equations.
Cambridge University Press, 2001.

[57] Jäckel, P. Monte Carlo methods in finance. Wiley, 2002.

[58] Jarrow, R., and Protter, P. A short history of stochastic integration and
mathematical finance: the early years, 1880-1970. Lecture Notes-Monograph Series
45 (2004), 75–91.

[59] Joshi, M. The concepts and practice of mathematical finance. Cambridge Uni-
versity Press, 2003.

[60] Judd, K. Numerical methods in economics. The MIT Press, 1998.

[61] Kim, S., Shephard, N., and Chib, S. Stochastic volatility: likelihood inference
and comparison with ARCH models. Review of Economic studies (1998), 361–393.

[62] Klebaner, F. Introduction to stochastic calculus with applications. Imperial


College Pr, 2005.

[63] Kloeden, P., and Platen, E. Numerical solution of stochastic differential


equations. Springer, 1992.

230
[64] Kloeden, P., Platen, E., and Schurz, H. Numerical solution of SDE through
computer experiments. Springer Verlag, 1994.

[65] Koopman, S., Harvey, A., Doornik, J., and Shephard, N. STAMP:
Structural time series analyser, modeller and predictor. Timberlake Consultants
London, 2000.

[66] Kreyszig, E. Advanced engineering mathematics. John Wiley & Sons, Inc.,
2007.

[67] Longstaff, F., and Schwartz, E. Valuing American options by simulation: A


simple least-squares approach. Review of Financial Studies 14, 1 (2001), 113–147.

[68] MacKinnon, J., Engle, R., and Granger, C. Long-run economic relation-
ships: readings in cointegration. Oxford University Press (1991).

[69] MacMillan, L. Analytic approximation for the American put option. Advances
in futures and options research 1, 119-139 (1986), 4.

[70] McDonald, R. Derivatives markets. Addison-Wesley Reading, MA, 2003.

[71] McLeish, D. Monte Carlo simulation and finance. Wiley, 2005.

[72] McLeod, A., and Li, W. Diagnostic checking ARMA time series models using
squared-residual autocorrelations. Journal of Time Series Analysis 4, 4 (1983),
269–273.

[73] Merton, R. Theory of rational option pricing. The Bell Journal of Economics
and Management Science (1973), 141–183.

[74] Meucci, A. Risk and asset allocation. Springer, 2007.

[75] Mikosh, T. Elementary stochastic calculus with finance in view, vol. 6. World
Scientific Publishing Co. Pte. Ltd., 1999.

[76] Moretin, P., and Toloi, C. Análise de séries temporais. São Paulo: Edgarg
Blucher, 2004.

[77] Neftci, S. An introduction to the mathematics of financial derivatives. Academic


Press, 2000.

[78] Nelson, D. The time series behavior of stock market volatility and returns.
PhD thesis, PhD Dissertation, Massachusetts Institute of Technology, Dept. of
Economics, 1988.

[79] Nelson, D. Conditional heteroskedasticity in asset returns: A new approach.


Econometrica: Journal of the Econometric Society (1991), 347–370.

[80] Øksendal, B. Stochastic differential equations: an introduction with applica-


tions. Springer, 2003.

231
[81] Oliveira, E.C. e Tygel, M. Métodos Matemáticos para Engenharia. Socidade
Brasileira de Matemática, Rio de Janeiro, 2005.

[82] Pestman, W. Mathematical statistics: an introduction. Walter De Gruyter Inc,


1998.

[83] Polson, N., Jacquier, E., and Rossi, P. Bayesian analysis of stochastic
volatility models. Journal of Business and Economic Statistics 20 (2002), 69–87.

[84] Rabemananjara, R., and Zakoian, J. Threshold ARCH models and asym-
metries in volatility. Journal of Applied Econometrics (1993), 31–49.

[85] Ruiz, E. Quasi-maximum likelihood estimation of stochastic volatility models.


Journal of Econometrics 63, 1 (1994), 289–306.

[86] Samuelson, P. Rational Theory of Warrant Pricing, in P. Cootner (ed.), The


Random Character of Stock Market Prices, 1965.

[87] Sandmann, G., and Koopman, S. Estimation of stochastic volatility models


via Monte Carlo maximum likelihood. Journal of Econometrics 87, 2 (1998),
271–301.

[88] Schwartz, E. The stochastic behavior of commodity prices: Implications for


valuation and hedging. Journal of Finance (1997), 923–973.

[89] Schwartz, E., and Smith, J. Short-term variations and long-term dynamics
in commodity prices. Management Science (2000), 893–911.

[90] Schwarz, G. Estimating the dimension of a model. The annals of statistics


(1978), 461–464.

[91] Sentana, E. Quadratic ARCH models. The Review of Economic Studies (1995),
639–661.

[92] Shephard, N., and Pitt, M. Likelihood analysis of non-Gaussian parameter-


driven models. Economics Discussion Paper-Nuffield College Oxford (1995).

[93] Shimko, D. Finance in continuous time: a primer. Kolb, 1992.

[94] Shreve, S. Stochastic Calculus for Finance: Continuous-Time Models. Springer,


2004.

[95] Shreve, S. Stochastic calculus for finance: The binomial asset pricing model.
Springer Verlag, 2004.

[96] Smith Jr, C. Option pricing: a review. Journal of Financial Economics 3, 1-2
(1976), 3–51.

[97] Steele, J. Stochastic calculus and financial applications. Springer Verlag, 2001.

[98] Tsay, R. Analysis of financial time series. Wiley-Interscience, 2005.

232
[99] Tsitsiklis, J., and Van Roy, B. Regression methods for pricing complex
American-style options. IEEE Transactions on Neural Networks 12, 4 (2001),
694–703.

[100] Vasicek, O. An equilibrium characterization of the term structure. Journal of


financial economics 5, 2 (1977), 177–188.

[101] Wilmott, P., Howison, S., and Dewynne, J. The mathematics of financial
derivatives: a student introduction. Cambridge University Press, 1995.

[102] Yoshino, J. Uma metodologia para a estimação do risco no mercado acionário


brasileiro: preço Arrow-Debreu. Pesquisa e planejamento econômico, IPEA 31, 1
(2001), 125–152.

[103] Zakoian, J. Threshold heteroskedastic models. Journal of Economic Dynamics


and Control 18, 5 (1994), 931–955.

233
Índice Remissivo

árvore binomial, 213 convergência, 28


de ordem p, 96
aglomerados de volatilidade, 53 em distribuição, 28
AIC, 51 em probabilidade, 28
AR, 46 média quadrática, 96
arbitragem, 116, 162 quase certa, 28, 29
ARCH, 58, 59 covariância, 19
ARIMA, 50 curtose, 4
ARMA, 46
assimetria, 4 delta ∆, 120
ativo, 9 densidade, 3
financeiro, 9 de probabilidade, 24
objeto, 115 condicional, 18
subjacente, 115 conjunta, 17, 18, 20, 30
autocorrelação, 61 implı́cita, 198
autocovariância, 39 neutra ao risco, 199
marginal, 17, 18
BIC, 51
neutra
Box e Jenkins, 45
implı́cita, 164
Box-Jenkins, 37
normal
Browniano, 73
bivariada, 21, 22
multivariado, 178
multivariada, 21
cálculo estocástico, 73 densidade de transição, 176
multivariado, 178 dependência linear, 53
cı́rculo unitário, 47 derivada de Radon-Nikodym, 150
cauda, 5 derivativo, 114
pesada, 5 Americano, 168, 203, 217
coeficiente, 4 Bermudiano, 168, 203, 217
de assimetria, 4 exótico, 168
de correlação, 19 desigualdade, 27
complementar, 2 Chebyshev, 35, 36
condição de Chebyshev, 27
de Hölder, 112 de Markov, 28
de Lipshitz, 105, 112 dos momentos, 28
de Novikov, 153 em probabilidade, 27
condição de primeira ordem, 33 Jensen, 28
contrato Markov, 36
forward, 115 Schwarz, 28
futuro, 115 desvio padrão, 4

234
diferenciável, 75 estimador, 31
distribuição, 1 de máxima verossimilhança, 33, 34
de Bernoulli, 6 não tendencioso, 31
de Poisson, 3 estratégia, 161
de probabilidade, 3 auto-financiável, 161
binomial, 3, 7 de proteção, 162
condicional, 13, 15, 16, 21, 22 evento, 1
de Cauchy, 12 aleatório, 1
de Poisson, 7 exponencial estocástico, 191
de probabilidade
conjunta, 13 fórmula
exponencial, 3 de Itô, 99, 101
gama, 3, 10 de Itô, 73
lognormal, 9 multivariada, 103
FAC, 40
marginal, 13, 15, 21
FACP, 41
normal, 3, 8
fator
simétrica, 5
de integração, 106, 107
t de Student, 11
fatos estilizados, 37, 53
uniforme, 3, 9
Feynman-Kac, 189
econometria, 37 filtração, 89
EDE, 81, 82, 95, 104 natural, 89
EDP, 120 filtro, 69
de Black e Scholes, 120 de Kalman, 69
efeito alavanca, 53, 64 finanças, 9
equação fronteira ótima, 208, 217
do calor, 120, 133, 134 função, 3
de Dupire, 201 geradora de momentos, 5
de Feynman-Kac, 189 caracterı́stica, 5, 6
de Kolmogorov, 184 de autocorrelação, 40
de Langevin, 106 de autocorrelação parcial, 41
diferencial de verossimilhança, 31, 33
estocástica, 81, 82, 95, 100, 104, 175 densidade, 3, 4, 6, 8–12
ordinária, 143 conjunta, 14, 16
parabólica, 134 marginal, 14
parcial, 113, 120 distribuição, 3
fundamental de apreçamento, 160, 168, função distribuição de transição, 176
171 GARCH, 37, 58
espaço, 1 AR, 37
dos resultados, 1 gerador da difusão de Itô, 181
amostral, 1 multivariado, 183
de probabilidade, 86 univariado, 181
paramétrico, 31 grau de liberdade, 11
estacionariedade, 42 gregas, 129
de segunda ordem, 42
fraca, 42 hedge, 129
testes, 56 dinâmico, 129

235
heterocedástico, 53 completo, 162
Hull e White, 196 de opções, 116
MME, 156, 157
inferência, 30 moda, 5
estatı́stica, 30 modelo, 45
integrável, 76 de Cox, Ingersoll e Ross, 197
integração, 92 de Hull e White, 196
estocástica, 92 de Vasicek, 196
integral, 76 Box e Jenkins, 45
de Itô, 95, 96, 98 de Black e Sholes, 117
de Reimann, 93 de BMS, 113, 117
de Reimann-Stieltjes, 94 de Vasicek, 102
estocástica, 76 EGARCH, 64
inversibilidade, 47 martingal, 55
isometria de Itô, 98 RW1, 54
RW2, 55
Kolmogorov, 184
RW3, 55
lei fraca dos grandes números, 28 modelo CIR, 197
lema de Itô, 73, 99, 101 modelo QGARCH, 65
multivariado, 103 modelo TARCH, 64
duas variáveis, 101 momento, 4
multivariado, 179 de ordem m, 5
log-retorno, 53 primeiro, 4
LSTGARCH, 65 segundo, 4
terceiro, 4
média, 4 Monte-Carlo, 57, 69, 147
condicional, 14, 16, 19, 60, 61 mudança de medida, 147
incondicional, 16, 20, 60, 61
método NYMEX, 43
binomial, 211 opção, 114
CRR, 217 lookback, 170
de monte-carlo, 171 Americana, 115, 203
LSM, 218 Asiática, 170
MA, 46 Bermudiana, 168, 203
Markov, 28 com barreira, 169
propriedade, 176, 181 de venda, 122
mediana, 5 Européia, 114
medida, 86 exótica, 115, 168
de probabilidade, 86, 147 operador, 41
martingal, 157 lag, 41
martingal equivalente, 153, 156
neutra ao risco, 163 passeio aleatório, 38
medidas equivalentes, 149 ponte Browniano, 79
meia-vida, 109 portfólio, 24
mensurável prêmio, 154
função, 89 de risco, 154
mercado, 9 preço, 114

236
de risco de mercado, 155 solução numérica, 211
de exercı́cio, 114 superfı́cie de volatilidade implı́cita, 201
preços, 43 swap, 115
de commodities, 108
do petróleo, 43 taxa, 102
probabilidade, 1 de juros, 102, 107, 155
condicional, 2 livre de risco, 116, 117
incondicional, 19 tempo de parada, 205
problema teorema, 1, 29
de contorno livre, 208 central do limite, 29
processo, 73 da representação martingal, 177
adaptado, 89 de Bayes, 2
aritmético de Girsanov, 153
Browniano, 80 fundamental de finanças, 163
auto-similar, 75 limite, 27
Browniano, 73 teste, 56
padrão, 74 ADF, 56
com incrementos estacionários, 74 ARCH-LM, 66
de Ornstein-Uhlenbeck, 107 Box-Pierce, 57
de Vasicek, 102 de adequação do modelo, 67
de Wiener, 74 DF, 56
estocástico do sinal do choque, 66
adaptado, 89 do tamanho do choque, 67
geométrico Ljung-Box, 57
Browniano, 80, 105 para autocorrelação, 57
martingal, 91 Phillips-Perron, 57
submartingal, 91 transformada de Fourier, 6
supermartingal, 91 transição suave, 210
processo de Itô unimodal, 5
multivariado, 178
univariado, 97 valor esperado, 4
processo estocástico, 37, 38 condicional, 14, 84
valor intrı́nseco, 204
quantil, 5 variáveis aleatórias, 2
quase certamente, 28, 29, 86, 98 iid, 2
RB, 38 independentes, 2
ruı́do branco, 38 variável, 1
aleatória, 1
série, 39 contı́nua, 3
de retorno, 52 discreta, 3
financeira, 52 momento, 4
temporal, 37, 39 multidimensional, 13
sigma σ-álgebra, 85 variância, 4
smile, 131 condicional, 17, 19, 60
smirk, 131 incondicional, 60, 61
solução forte, 192 variação, 76
solução fraca, 192 limitada, 76

237
não limitada, 76
quadrática, 77
do Browniano, 78
Vasicek, 102, 196
velocidade de reversão, 107, 108
verossimilhança, 31
vetor, 13
aleatório, 13
volatilidade, 37
condicional, 58
linear, 59
não linear, 64
estocástica, 68
implı́cita, 130
local, 199

238

S-ar putea să vă placă și